Построение для заданного числа качественных признаков вторичного алфавита M оптимального неравномерного кода методом Хаффмена

Преимущество метода Хаффмена сказывается при построении ОНК для вторичных алфавитов с числом качественных признаков m>2 (например, если сообщения передаются с помощью трех или более частот). Большая эффективность достигается за счет более строгого выбора числа L наименее вероятных букв первичного алфавита, объединяемых на первом этапе построения кодового дерева.

Число L этих букв должно удовлетворять условиям

2 L m, (19)

кроме того,

(20)

где f - целое положительное число;

K - число букв первичного алфавита;

m - количество качественных признаков вторичного алфавита.

Хаффмен показал, что для получения минимально возможного значения средней длины кодового слова кода необходимо и достаточно выполнения следующих условий:

- при p(a_i)>p(a_t) длины i-го и t-го кодовых слов должны находиться в отношении n_t n_i;

- L букв первичного алфавита с наименьшими вероятностями имеют кодовые слова одинаковой длины, отличающиеся друг от друга последним символом;

- любая возможная последовательность (n_K-1) кодовых символов должна либо сама быть кодовой комбинацией, либо иметь своим префиксом разрешенную кодовую комбинацию.

Для первичных (кодируемых) алфавитов с числом качественных признаков m₁=12 построение оптимального кода во вторичном (кодовом) алфавите с числом качественных признаков m₂=4 сводится к процедуре построения префиксного кодового дерева.

Приведем ниже алгоритм выполнения задания:

При выполнении алгоритма удобно строить недвоичное кодовое дерево и помечать дуги, входящие в очередную вершину, символами из множества {0, 1,…,m}.

п.1. Объединить

L=2+R_m-1(K-2) (21)

букв с наименьшими вероятностями в некоторую новую букву с вероятностью, равной сумме вероятностей объединяемых букв. В (21) через R_m-1(K-2) обозначен остаток от деления (K-2) на (m-1).

Полагаем, что последний символ буквы a_К-L+1 равен «0», последний символ буквы a_К-L+2 – «1», последний символ буквы a_К-L+3 – «2» и так далее до «L».

п.2. В редуцированном ансамбле определить m букв с наименьшими вероятностями, объединить их в обобщенную букву и присвоить очередному символу каждой из объединяемых букв значения 1, 2,…, m.

п.3. Повторять п.2. до тех пор, пока не получится редуцированный ансамбль из одной буквы, которой соответствует единичная вероятность.

п.4. Для каждой буквы первичного алфавита строим недвоичное кодовое слово, которому соответствует путь на кодовом дереве от корневой вершины к соответствующей концевой вершине по отметкам дуг из множества {0, 1,…, m}.

Р е ш е н и е

Шаг 1: п.1. По формуле (21) вычисляем число букв, объединяемых на первом этапе:

L=2+R_4-1(12-2)=2+ R₃(10)=2+1=3.

Выбираем три буквы с наименьшими вероятностями a_K-2=a_2, a_K-1=a₉ и a_K=a₈:

p(a₂)=0,03;

p(a₉)=0,03;

p(a₈)=0,02.

Последнему символу кода буквы a₂ присваиваем значение «0» (на рисунке 1 дуга, инцидентная концевой вершине а₂, получила отметку «0»), по символу буквы a₉ – значение «1» (дуга, инцидентная концевой вершине а₉, получила отметку «1»), и по символу буквы a₈ – значение «2» (дуга, инцидентная концевой вершине а₈, получила отметку «2»). Объединяем буквы a₂, a₉_,a₈ в одну букву с вероятностью

p(a₂)+p(a₉)+p(a₈)=0,03+0,03+0,02=0,08,

редуцируя исходный ансамбль А.

Шаг 2:Повторяемпункт 2, редуцируя ансамбль , объединяем буквы с наименьшими вероятностями(объединенные на шаге 1 буквы a₂, a₉_,a₈ и буквы a₄_,а₃ и а₅):

p(a₂, a₉_,a₈)+p(a₃)+p(a₅)+p(a₇) =0,08+0,08+0,07+0,04=0,27.

Соответствующие дуги помечаем символами «0» (дуга с весом 0,08) «1» (буква обьединенная на шаге 1, дуга с весом 0,08), «2» (дуга с весом 0,07) и «3» (дуга с весом 0,04).

Шаг 3: п.2.Продолжаем редуцировать ансамбль : объединяем буквы с наименьшими вероятностями:

p(a₆)+p(a₁₀)+p(a₁₁)+p(a₄) =0,12+0,12+0,11+0,09=0,44.

Соответствующие дуги помечаем символами «0» (дуга с весом 0,06) «1» (дуга с весом 0,06), «2» (дуга с весом 0,05) и «3» (дуга с весом 0,04).

Шаг 4:Объединяем четыре буквы – букву объединенную на шаге 3, букву объединенную на шаге 2, букву а₁₂ и букву а₁:

p(a₁₂)+ p(a₁)+ p(a₃, a₅_,a₇, a₂, a₉_,a₈)+ p(a₆, a₁₀_, a₁₁_,a₄)= 0,15+0,14+0,27+0,44=1,00.

На этом редуцирование исходного ансамбля А завершено (на рисунке 1 получена корневая вершина кодового дерева с сумммарной вероятностью, равной 1,0). Завершает построение недвоичного кода Хаффмена (m=4) реализация п.4 (рисунок 1).

Рисунок 1

Результат кодирования представлен в таблице 3.

Таблица 3

Буква	р(а_k)	Код 1		p( )	– p(a_k) log p(a_k)

a₁₂	0,15			0,15	0,4105
a₁	0,14			0,14	0,3971
a₆	0,12			0,24	0,3671
a₁₀	0,12			0,24	0,3671
a₁₁	0,11			0,22	0,3503
a₄	0,09			0,18	0,3127
a₃	0,08			0,16	0,2915
a₅	0,07			0,14	0,2686
a₇	0,04			0,08	0,1858
a₂	0,03			0,09	0,1518
a₉	0,03			0,09	0,1518
a₈	0,02			0,06	0,1129
			=1,79	H(A)=3,3670