Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста, который пропорционален размеру текста — количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.
Каждый символ текста несет определенное количество информации. Его называют информационным весом символа. Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.
|
(5)
|
Здесь предполагается, что текст — это последовательная цепочка пронумерованных символов. В формуле (5) i1обозначает информационный вес первого символа текста, i2—информационный вес второго символа текста и т.д.; K —размер текста, т.е. полное число символов в тексте.
Алфавит - это множество различных символов, используемых для записи текстов.
Мощность алфавита – это количество символов (целое число), используемых в алфавите.
Следует иметь в виду, что в алфавит входят не только буквы определенного языка, но все другие символы, которые могут использоваться в тексте: цифры, знаки препинания, различные скобки, пробел и другие.
Определение информационных весов символов может происходить в двух приближениях:
1) в предположении равной вероятности (одинаковой частоты встречаемости) любого символа в тексте;
2) с учетом разной вероятности (разной частоты встречаемости) различных символов в тексте.