Статистический подход

Методы оценки количества информации

Для того, чтобы оценить и измерить количество информации в соответствии с вышеизложенными аспектами, используются различные подходы и методы.

Среди них выделяются:

· статистический;

· семантический;

· прагматический;

· структурный.

Исторически наибольшее развитие получил статистический подход.

Этот подход изучается в разделе кибернетики, называемой “теорией информации”. Основоположником этого подхода считается Шеннон, опубликовавший в 1948 году математическую теорию связи.

Шенноном было введено понятие “количества информации” как меры неопределённости состояния системы, снижаемой при получении информации. Количественно выраженная неопределённость состояния получила название энтропии по аналогии с подобным понятием в статистической механике.

При получении информации уменьшается неопределённость, то есть энтропия системы. Очевидно, что чем больше информации получает наблюдатель, тем больше снимается неопределённость, и энтропия системы уменьшается. При энтропии, равной нулю, в системе имеется полная информация, и наблюдателю она представлена полностью упорядоченной.

Таким образом, получение информации связано с изменением степени неосведомлённости получателя о состоянии этой системы.

До получения информации её получатель мог иметь некоторые предварительные (априорные) сведения по системе X. Оставшаяся неосведомленность и является для него мерой неопределённости состояния, т.е. мерой энтропии системы.

Обозначим априорную энтропию системы X как H(X). Тогда после получения некоторого сообщения наблюдатель приобретает дополнительную информацию I(X), которая уменьшит его начальную неосведомлённость так, что апостериорная (после получения информации) неопределённость системы станет H’(X). Тогда количество информации может быть определено как , то есть количество информации измеряется уменьшением (изменением) неопределённости состояния системы.

Если апостериорная энтропия системы обратится в 0, но первоначально неполное знание заменится полным знанием, и количество информации, полученной в этом случае наблюдателем, будет , то есть энтропия системы может рассматриваться как меря недостающей информации.

Если система X обладает дискретным состоянием, то есть переходит из состояниz в состояние скачком, и количество этих состояний равняется N, а вероятность нахождения системы в каждом из этих состояний , , , тогда, согласно теореме Шеннона, энтропия системы равна:

Здесь коэффициент и основание логарифма a определяют систему единиц измерения количества информации.

Логарифмическая мера информации была предложена Хартли для представления технических параметров систем связи как наиболее удобная и более близкая к восприятию человеком, привыкшему к линейным уравнениям с принятыми эталонами. Знак “–“ поставлен для того, чтобы значение энтропии было положительным, так как и log<0.

Если все состояния равновесны, то есть , то её энтропия будет определяться выражением:

Энтропия обладает рядом свойств.

Энтропия равна нулю только тогда, когда все вероятности , кроме одной, равны нулю, и эта вероятность . Таким образом, H(X)=0 только в случае полной определённости состояния системы.

При заданном числе состояний системы N величина H(X) максимальна и равна:

Единица измерения количества информации определяется с помощью выражения для энтропии системы с равновероятными состояниями.

Пусть система имеет два равновероятных состояния (N=2). Будем считать, что снятие неопределённости о состоянии такой системы даёт одну единицу информации. Так как при полном снятии неопределённости энтропия количественно равна информации, тогда справедливо:

, .

Очевидно, что правая часть равенства тождественно равна единице информации, если принять , а основание логарифма a=2.

В общем случае при N равновероятных состояний количество информации будет:

- формула Хартли.

Эта формула показывает, что количество информации, необходимое для снятия неопределённости по системе с равновероятными состояниями, зависит лишь от количества этих состояний.

Информация о состояниях системы передаётся получателю в виде сообщений, которые могут быть представлены в различной синтаксической форме (например, в виде кодовых комбинаций, использующих m различных символов и n разрядов), в каждом из которых может находиться один из символов. Если ход не избыточный, то каждая кодовая комбинация отражает одно состояние системы.

Количество кодовых комбинаций:

Если это выражение подставить в формулу Хартли, то получим:

Если код двоичный, то m = 2, и .

В этом случае количество информации в сообщении составит n двоичных единиц, называемых битами (binary digit -> bit).

При использовании в качестве основного логарифма числа 10, то единица информации будет десятичной, и называться дитом. Иногда удобно использовать число e как основание. В этом случае единицы информации называются натуральными или натами.

Введённая количественная статистическая пера информации широко используется в теории информации для оценки собственной, взаимной, условной и других видов информации.

Под собственной информацией понимается информация, содержащаяся в данном конкретном сообщении, а конкретное сообщение даёт получателю информации информацию о возможности существования конекретного состояния системы. Тогда количество собственной информации, содержащейся в сообщении , будет равно:

Собственная информация имеет следующие свойства:

1) Собственная информация не отрицательна

2) Чем меньше вероятность возникновения сообщения, тем больше информации оно содержит.

3) Если сообщение имеет вероятность возникновения, равную единице, то информация равна нулю, так как заранее известно, что может прийти только это сообщение, а потребитель ничего нового не получит.

4) Информация имеет свойство аддитивности, то есть количество собственной информации нескольких независимых сообщений, равно их сумме:

Необходимо отметить, что статистический подход к количественной оценке информации был рассмотрен для дискретных систем, случайным образом переходящих из состояния в состояние, и, следовательно, сообщения об этих состояниях также возникают случайным образом. Кроме того, статистический метод определения количества информации практически не учитывает семантического и прагматического аспекта информации.