где Pt — вероятность того, что система находится в i-ом состоянии.
Нам необходимо научиться оценивать степень неопределенности различных ситуаций, опытов. Для самых простых опытов, имеющих к равновероятных исходов, степень неопределенности измеряется с помощью самого числа «к»: при к = 1 никакой неопределенности нет, так как исход предопределен, но не случаен. При росте числа возможных исходов предсказание результата опыта становится все более затруднительным, так что естественно предположить, что мера степени неопределенности является функцией к — f(к), причем f(1) = 0 и f(k) монотонно растет с ростом «к».
Кроме того, надо научиться оценивать неопределенность нескольких опытов. Рассмотрим два независимых опыта «а» и «в» (т.е. таких два опыта, что любые сведения об исходе первого никак не меняют вероятностей исходов второго). Если опыт «а» имеет р равновероятных исходов, а опыт «в» — q равновероятных исходов, то сложный опыт ав, состоящий в одновременном выполнении опытов «а» и «в», очевидно, обладает большей неопределенностью, чем каждый опыт «а» или «в» в отдельности.
Пример сложного опыта. Пусть в одной урне находится 32 таблички с буквами русского алфавита (е и ё будем считать неразличимыми), а в другой — таблички с арабскими цифрами 0, 1, ..., 9. Опыт «а» состоит в извлечении из первой урны одной буквы, а опыт «в» — в извлечении из второй урны одной цифры. В первом случае у нас 32 равновероятных исхода, а во втором — 10. При этом извлечение какой бы то ни было буквы из первой урны никак не влияет на то, какая будет извлечена цифра. В сложном опыте «а» х «в» = 320 исходов, и степень неопределенности этого опыта больше, чем двух исходных.
Очевидно, что в сложном опыте степень неопределенности опыта «а» дополняется степенью неопределенности «в». Можно считать, что степень неопределенности опыта «а» х «в» равна сумме неопределенностей опытов «а» и «в». Так как опыт «а» х «в» имеет «p» х «q» равновероятных исходов, то мы можем формировать условие, которому должна удовлетворять функция f(k): f(pq) = f(p) + f(q).
Последнее условие вместе с требованием f(1) = 0 и условием монотонного роста наталкивает на мысль, что в качестве меры неопределенности опыта, имеющего к равновероятных исходов, можно взять число logk:. Формально доказывается, что логарифмическая функция является единственной функцией аргумента к, удовлетворяющей условиям f(pq) = f(p) + f(q), f(1) = 0 и f(p) > f(q) при р > q.
При определении конкретной оценки меры неопределенности обычно используют логарифм по основанию два, т.е. f(k) =log2k. Это означает, что за единицу измерения степени неопределенности здесь принимается неопределенность, содержащаяся в опыте, имеющем два равновероятных исхода (как в опыте подбрасывания монеты). Такая единица измерения неопределенности называется бит (bit — binary digit — двоичный разряд). В немецкой литературе ее название очень выразительно — Ja-Nein Einheit (единица «Да-Нет»). В случае использования десятичных логарифмов в качестве единицы степени неопределенности принималась бы неопределенность опыта с десятью равновероятными исходами — дит. Чаще всего именно бит принимается в качестве единицы измерения: мы соглашаемся оценивать неопределенность системы в самых мелких возможных единицах. Неопределенность десятичного набора — гораздо крупнее: дит почти в 3,3 раза больше бита (так как log210 = 3,32).
Клод Шеннон в 1950 г. предложил в качестве меры неопределенности системы «а» с «к» состояниями энтропии Н(а)