Энтропия и информация конкретных типов сообщений. Письменная речь.

Дата добавления: 2014-03-21; просмотров: 1030; Нарушение авторских прав

Основной результат, полученный ранее состоял в том, что для передачи M-буквенного сообщения по линии связи, допускающей m различных элементарных сигналов требует-

ся затратить не меньше, чем ^M^·^log ⁿ , где n - число букв алфавита, с помощью которого за-

log m

писано исходное сообщение. При этом существуют методы кодирования, позволяющие сколь угодно близко подойти к границе этой величины.

Так, как русский телеграфный алфавит содержит 32 буквы (е=ё, ь=ъ, пробел), то согласно

этому результату на передачу M-буквенного сообщения надо затратить	M·log32	=	MH₀	,
log m	log m

где H₀ = log 32 = 5 бит - энтропия опыта, состоящего в приёме одной буквы русского текста (информация, содержащаяся в одной букве), при условии, что все буквы считаются

одинаково вероятными.

На самом деле, появление в сообщении разных букв совсем не одинаково вероятны. Буквы О, Е встречаются много чаще, чем буквы Ф или Щ. Для более точного вычисле-ния информации, содержащейся в одной букве русского текста надо знать вероятности (частоты) появления различных букв. Ориентировочные значения частот отдельных букв русского языка задаются следующей таблицей:

Буква	Пробел	О	Е,Ё	А	И	Т	Н	C
Вероятность	0:175	0:09	0:072	0:062	0:062	0:053	0:053	0:045
Буква	Р	В	Л	К	М	Д	П	У
Вероятность	0:04	0:038	0:035	0:028	0:026	0:025	0:023	0:021
Буква	Я	Ы	З	Ь,Ъ	Б	Г	Ч	Й
Вероятность	0:018	0:016	0:016	0:014	0:014	0:013	0:012	0:001
Буква	Х	Ж	Ю	Ш	Ц	Щ	Э	Ф
Вероятность	0:009	0:007	0:006	0:006	0:004	0:003	0:003	0:002

Приравняв эти частоты вероятностям появления соответствующих букв получим для эн-тропии одной буквы русского текста следующее значение: H₁ = H( ₁) = −0:175 · log 0:175 − 0:09 · log 0:09 − : : : − 0:002 · log 0:002 ≈ 4:35бит.

Из сравнения этого значения с величиной H₀ = 5 бит видно, что неравномерность появ-ления различных букв алфавита приводит к уменьшению информации, содержащейся в одной букве русского текста на ≈ 0:65 бита.

Воспользовавшись этим обстоятельством можно уменьшить число элементарных сигна-

лов, необходимых для передачи M-буквенного сообщения до значения ^M_log^·^H_m¹ , т.е. в слу-чае двоичного кода до значения M · H₁. Сокращение числа требующихся элементарных

сигналов может быть достигнута, например, кодированием отдельных букв русского ал-фавита по методу Шеннона - Фано.

<== предыдущая лекция	\|	следующая лекция ==>
Основная теорема о кодировании	\|	Схемы выбора конечного числа элементов из заданного множества.