Лекция7. Процедуры обработки речи и методы кодирования

Цель лекции: ознакомить студентов с методами кодирования в IP-телефонии .

7.1 Процедуры обработки речи

Для обеспечения качественной передачи речевых сигналов в IP-телефонии необходима их следующая обработка:

а) устранение всех нежелательных компонентов из входного аудиосигнала. После оцифровки речи надо удалить эхо из динамика в микрофон, комнатное эхо и непрерывный фоновой шум, а также отфильтровать шумы переменного тока на низких частотах звукового спектра. Эти функции реализуются аудиокомпонентами персонального компьютера, так что сама система IP-телефонии может их и не иметь;

б) подавление пауз в речи; распознавание остаточного фонового шума (внешних шумов) и кодирование для восстановления на дальнем конце. Паузы лучше полностью подавлять на ближнем конце. Сигналы DTMF и другие сигналы можно заменить на короткие коды для восстановления на дальнем конце. Из-за того, что функция подавления пауз активизируется, когда громкость речи становится ниже определённого порога, некоторые системы обрезают начала и концы слов (в периоды нарастания и снижения энергии);

в) сжатие голосовых данных. Сжать оцифрованный голос можно разными способами. В идеале решения, используемые в IP-телефонии, должны быть быстрыми, сохранять качество речи и давать на выходе небольшие массивы данных;

г) нарезание сжатых голосовых данных на короткие сегменты равной длины, их нумерация по порядку, добавление заголовков пакетов и передача;

д) приём и переупорядочивание пакетов в адаптивном буфере ресинхронизации для обеспечения интеллектуальной обработки потерь или задержек пакетов. Главной целью является преодоление влияния переменной задержки между пакетами. Решение этой проблемы состоит в буферизации достаточного числа поступающих пакетов с тем, чтобы воспроизведение было непрерывным, даже если время между поступлением пакетов разное.

Одним из важных факторов эффективного использования пропускной способности IP канала, является выбор оптимального алгоритма кодирования/декодирования речевой информации кодека.

Все типы речевых кодеков по принципу действия можно разделить на три группы:

а) кодеки с ИКМ и адаптивной дифференциальной ИКМ (АДИКМ), появившиеся в 50х годах и использующиеся сегодня в системах традиционной телефонии. В большинстве случаев представляют собой сочетание АЦП/ЦАП;

б) кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радиотракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих фонемах. Обычно такие кодеки реализованы как аналоговые устройства;

в) комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом посредством специализированных процессоров. Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.

В голосовых шлюзах IP-телефонии понятие кодека подразумевает не только алгоритмы кодирования/декодирования, но и их аппаратную реализацию. Большинство кодеков, используемых в IP-телефонии, описаны рекомендациями семейства «G» стандарта Н.323 (см. рисунок 16).

Рисунок 16– Стандарты для кодирования речевых сигналов

Рекомендация G.711, утверждённая МККТТ в 1984 году, описывает кодек, использующий ИКМ преобразование аналогового сигнала с точностью 8 кГц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя составляет 64 кбит/с (8 бит х 8 кГц). Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню. Кодек G.711 широко распространён в системах традиционной телефонии. Несмотря на то, что рекомендация G.711 в стандарте Н.323 является основной и первичной, в шлюзах IP-телефонии данный кодек применяется редко из-за высоких требований к полосе пропускания и задержкам в канале передачи. Использование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров.

Один из старейших алгоритмов сжатия речи АДИКМ адаптивная дифференциальная ИКМ (стандарт G.726 был принят в 1984 году). Этот алгоритм даёт практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего 16 32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому, если кодировать не саму амплитуду сигнала, а её изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. Кодек предназначен для использования в системах видеоконференций.

Рекомендация G.723.1 описывает гибридные кодеки, использующие технологию кодирования речевой информации MP MLQ (MultyPulse Multy Level Quantization множественная импульсная, многоуровневая квантизация), данные кодеки можно охарактеризовать, как комбинацию АЦП/ЦАП и вокодера. Кодек G.723.1 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 кбит/c (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их и передаёт по IP каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм позволяет снизить скорость до 5,3 6,3 кбит/с без видимого ухудшения качества речи. Процесс преобразования вносит задержку 37 мс. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек уступает по качеству кодирования G.729, но менее требователен к ресурсам процессора и пропускной способности канала.

Кодеки G.729 сокращённо называют CSACELP (Conjugate Structure Algebraic Code Excited Linear Prediction сопряжённая структура с управляемым алгебраическим кодом линейным предсказанием). Скорость кодирования речевого сигнала составляет 8 кбит/с. В устройствах VoIP этот кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.

Гибридный кодек, описанный в рекомендации G.728 в 1992 году относится к категории LDCELP Lowe DelayCode Excited Linear Prediction кодек с управляемым кодом линейным предсказанием и малой задержкой. Кодек обеспечивает скорость преобразования 16 кбит/с, вносит задержку при кодировании 35мс и для реализации необходим процессор с быстродействием более 40 MIPS. Кодек предназначен для использования в системах видеоконференций. В устройствах IP-телефонии данный кодек применяется достаточно редко.