Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N — мощность алфавита. Тогда доля любого символа в тексте составляет 1/N-ю часть текста. По определению вероятности эта величина равна вероятности появления символа в каждой позиции текста:
Согласно формуле Шеннона, количество информации, которое несет символ, вычисляется следующим образом:
(6)
Следовательно, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли:
Зная информационный вес одного символа (i) и размер текста, выраженный количеством символов (K), можно вычислить информационный объем текста по формуле:
(7)
Эта формула есть частный вариант формулы (5), в случае, когда все символы имеют одинаковый информационный вес.
Из формулы (6) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.
С позиции алфавитного подхода к измерению информации 1 бит— это информационный вес символа из двоичного алфавита.
Более крупной единицей измерения информации является байт.
1 байт— это информационный вес символа из алфавита мощностью 256.
Поскольку 256 = 28, то из формулы Хартли следует связь между битом и байтом:
2i = 256 = 28
Отсюда: i = 8 бит = 1 байт.
Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно, 1 символ такого текста “весит” 1 байт.
Пример 2.1. Для записи текста используются только строчные буквы русского алфавита и “пробел” для разделения слов. Какой информационный объем имеет текст, состоящий из 2000 символов (одна печатная страница)?
В русском алфавите 33 буквы. Сократив его на две буквы (например, “ё” и “й”) и введя символ пробела, получаем очень удобное число символов — 32. Используя приближение равной вероятности символов, запишем формулу Хартли: 2i = 32 = 25
Отсюда: i=5 бит — информационный вес каждого символа русского алфавита. Тогда информационный объем всего текста равен: L = 2000*5 = 10 000 бит
Пример 2.2. Вычислить информационный объем текста размером в 2000 символов, в записи которого использован алфавит компьютерного представления текстов мощностью 256.
В данном алфавите информационный вес каждого символа равен:
i=log2256=8 бит = 1 байт
Следовательно, информационный объем текста равен
L=2000 * 1 байт = 2000 байт
Если пересчитать информационный объем текста килобайты, то получим:
L=2000 байт = 2000/1024 1,9531 Кб
Пример 2.3. Объем сообщения, содержащего 1024 символов, составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Переведем информационный объем сообщения из мегабайтов в биты. Для этого данную величину умножим дважды на 1024 (получим байты) и один раз — на 8:
L= 1/512 * 1024 * 1024 * 8 = 16384 бита
Поскольку такой объем информации несут 1024 символа (К), то на один символ приходится:
i = L/K= 16384/1024 = 16 бит
Отсюда следует, что размер (мощность) использованного алфавита равен N = 216 = 65536 символов.