Основной результат, полученный ранее состоял в том, что для передачи M-буквенного сообщения по линии связи, допускающей m различных элементарных сигналов требует-
ся затратить не меньше, чем M·logn , где n - число букв алфавита, с помощью которого за-
log m
писано исходное сообщение. При этом существуют методы кодирования, позволяющие сколь угодно близко подойти к границе этой величины.
Так, как русский телеграфный алфавит содержит 32 буквы (е=ё, ь=ъ, пробел), то согласно
этому результату на передачу M-буквенного сообщения надо затратить
M·log32
=
MH0
,
log m
log m
где H0 = log 32 = 5 бит - энтропия опыта, состоящего в приёме одной буквы русского текста (информация, содержащаяся в одной букве), при условии, что все буквы считаются
одинаково вероятными.
На самом деле, появление в сообщении разных букв совсем не одинаково вероятны. Буквы О, Е встречаются много чаще, чем буквы Ф или Щ. Для более точного вычисле-ния информации, содержащейся в одной букве русского текста надо знать вероятности (частоты) появления различных букв. Ориентировочные значения частот отдельных букв русского языка задаются следующей таблицей:
Буква
Пробел
О
Е,Ё
А
И
Т
Н
C
Вероятность
0:175
0:09
0:072
0:062
0:062
0:053
0:053
0:045
Буква
Р
В
Л
К
М
Д
П
У
Вероятность
0:04
0:038
0:035
0:028
0:026
0:025
0:023
0:021
Буква
Я
Ы
З
Ь,Ъ
Б
Г
Ч
Й
Вероятность
0:018
0:016
0:016
0:014
0:014
0:013
0:012
0:001
Буква
Х
Ж
Ю
Ш
Ц
Щ
Э
Ф
Вероятность
0:009
0:007
0:006
0:006
0:004
0:003
0:003
0:002
Приравняв эти частоты вероятностям появления соответствующих букв получим для эн-тропии одной буквы русского текста следующее значение: H1 = H( 1) = −0:175 · log 0:175 − 0:09 · log 0:09 − : : : − 0:002 · log 0:002 ≈ 4:35бит.
Из сравнения этого значения с величиной H0 = 5 бит видно, что неравномерность появ-ления различных букв алфавита приводит к уменьшению информации, содержащейся в одной букве русского текста на ≈ 0:65 бита.
Воспользовавшись этим обстоятельством можно уменьшить число элементарных сигна-
лов, необходимых для передачи M-буквенного сообщения до значения Mlog·Hm1 , т.е. в слу-чае двоичного кода до значения M · H1. Сокращение числа требующихся элементарных
сигналов может быть достигнута, например, кодированием отдельных букв русского ал-фавита по методу Шеннона - Фано.