Количественная характеристика информации - это объём данных в сообщении Vд, который измеряется количеством символов (разрядов) в этом сообщении.Здесь под сообщением мы будем понимать любую последовательность знаков любой природы.
Запись числа - это сообщение.В различных системах счисления один разряд такого числа имеет различный вес и соответственно меняется единица измерения объёма данных:
· в двоичной ПСС единица измерения – бит (один двоичный разряд, значение которого – 1 или 0);
· в десятичной ПСС единица измерения – дит (один десятичный разряд).
Например, сообщение в виде восьмиразрядного двоичного кода 10011010 имеет объём данных Vд = 8 бит. Другой пример, сообщение в виде шестиразрядного десятичного числа 234 678 имеет объём данных Vд = 6 дит.
Количество информации I, согласно вероятностному подходу, определяется через понятие неопределенность состояния системы – энтропия системы или информационная энтропия системы – функция Н. Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомлённости получателя о состоянии этой системы. Тогда количество информации измеряется уменьшением неопределенности состояния системы.
Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе.Мерой его неосведомленности о системе является функция Н, которая в тоже время служит и мерой неопределенности состояния системы. После получения некоторого сообщения bполучатель приобрел некоторую дополнительную информацию I, уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения) неопределенность состояния системы стала Нb. Тогда количество информации Iо системе, полученной в сообщении b, определится как
I = Н - Нb ,(1)
то есть количество информации измеряется уменьшением неопределенности состояния системы. Если конечная неопределенность Нbобратится в нуль, то первоначальное неполное знание после сообщения bзаменится полным знанием, а количество информации - I = Н. Иными словами, энтропия системы Н может рассматриваться как мера недостающей информации.
В дальнейшем мы будем считать, что неопределённость состояния системы равна нулю после получения сообщения. Энтропия системы Н, имеющей N возможных состояний, согласно формуле Шеннона, равна количеству информации I, полученному в сообщении:
,(2)
где Pi– вероятность того, что система находится в i-ом состоянии. Эта величина также называется средней энтропией сообщения, уменьшающего неопределённость в состоянии системы до нуля.Выбор основания логарифма в (2) определяется соображениями удобства. Вероятность можно определять как отношение благоприятных исходов к общему количеству исходов в результате некоторого опыта.
Пример.Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения отдельных граней будут равны:
Р1 = 1/2, р2 = 1/4, р3 = 1/8, р4 = 1/8.
Тогда количество информации, которое мы получим после реализации одного события из 4-х, можно рассчитать по формуле (2):
Для случая, когда все состояния системы равновероятны, то есть их вероятности равны Pi = 1/N, количество информации в сообщении, однозначно определяющем состояние системы, даётся соотношением
.(3)
Это формула Хартли. Он рассматривал процесс получения информации как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений. По-другому, эту формулу можно трактовать как количество информации, полученное при выборе одного предмета (варианта) изNравнозначных предметов (вариантов).
Пример. Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I= log10100 =2 дит или log2100 = 6,644бит. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 бит информации.
Приведем другие примеры равновероятных сообщений:
1. При бросании монеты: "выпала решка", "выпал орел".
2. На странице книги: "количество букв чётное", "количество букв нечётное".
Другой пример. В корзине лежит 16 шаров разного цвета. Сколько информации несет сообщение, что достали белый шар? Так как N = 16, то I = log2N = log2 16 = 4 бит.
Часто информация передаётся в виде числовых или символьных сообщений. Пусть N –число всевозможных сообщений длиною n символов; m – основание системы счисления или разнообразие символов, применяемых в алфавите этого сообщения (количество знаков в алфавите). Тогда количество всевозможных сообщений такого рода будет
N = mn . (4)
Здесь мы предполагаем, что в любой из n позиций, возможно появление любого из m символов алфавита с равной вероятностью. Тогда, количество информации, приобретенное абонентом, будет равно
I = log N = n log m . (5)
Если в качестве основания логарифма принятьm, то I = n.В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему полученных данных I = Vд . Для не равновероятных состояний всегда
I < Vд = n.
Наиболее часто в этих формулах используются двоичные или десятичные логарифмы. Единицами измерения количества информации в этих случаях будет бит или дит.
Пример.Алфавит второго племени содержит в 8 раз больше символов, чем алфавит первого племени. Оба племени обменялись приветствиями одинаковой длины. В приветствии второго племени на 30 байт информации больше, чем в приветствии первого. Сколько символов в каждом приветствии?
Решение. Предположим, что алфавит первого племени содержит m символов, а приветствие содержит Х символов. Тогда алфавит второго племени содержит 8m знаков. Согласно условию и формулам (4)-(5), количество информации в приветствии первого племени, равно
I1 = log2 N1 = log2 mХбит.
Следовательно, приветствие второго племени содержит количество информации, равное
I2 = log2 N2 = log2 (8m)Хбит.
Так как в приветствии второго племени количество информации больше на 30 байт, чем в приветствии первого, то можно записать:
I2 - I1 = log2 (8m)Х - log2 mХ = 30∙8 бит.
Следовательно, мы получили уравнение
log2 (8m)Х - log2 mХ = 240
или
Х∙log2 (8m) -Х∙ log2 m = Х∙log2 8 + Х∙log2 m -Х∙ log2 m = Х∙log2 8 = 240.