Раздел 2.2. Телефонные сигналы

Для понимания сущности физических параметров речевых, а потом и телефонных сигналов, рассмотрим процесс речеобразования.

В образовании звуков речи принимают участие легкие, гортань с голосовыми связками, образующими голосовую щель, область носоглотки, язык, зубы и губы. В процессе произнесения речи человек вдыхает воздух и наполняет им легкие, которые через бронхи продувают воздух в гортань и далее через вибрирующие голосовые связки в полости рта и носа. Голосовые связки то сжимая, то открывая голосовую щель, пропускают воздух импульсами, частота следования которых называется основным тоном. Частота основного тона лежит в пределах от 50…80 Гц (очень низкий голос-бас) до 200…250 Гц (женские и детские голоса). Импульсы основного тона содержат большое число гармоник (до 40), амплитуда которых убывает с увеличением частоты со скоростью приблизительно 12 дБ на октаву. Например, амплитуда составляющей импульсов основного тона с частотой 100 Гц на 12 дБ больше амплитуды ее второй гармоники – 200 Гц, которая в, свою очередь, на 12 дБ больше соответствующей ей второй гармоники, т.е. 400 Гц, а вторая гармоника частоты 400 Гц будет на 12 Дб больше составляющей с частотой 800 Гц и т.д.

Импульсы воздуха встречают на своем пути систему резонаторов, образуемых объемами полости рта и носоглотки, положением языка, зубов и губ и изменяющихся в процессе произнесения различных звуков. Проходя через эту систему резонаторов, одни гармонические составляющие импульсной последовательности основного тона получают усиление, а другие – ослабление. Картина спектра звука (гласного), выходящего изо рта, принимает вид, изображенный на рис. 2.1, где приняты следующие обозначения: р – уровни спектральных составляющих частоты основного тона; f₀ – основного тона; 1,2,3…n – гармоники частоты основного тона.

Отметим, что частота основного тона меняется в значительных пределах при переходе от гласных звуков к согласным и наоборот.

Рис. 2.1 - Спектр сформированного звука

На рис. 2.1 ясно видны усиленные области частот, характерные для спектра конкретного звука. Эти усиленные области частот называются формантными областями или просто формантами. Звуки речи различаются друг от друга числом формант и их расположением в частотной области. Поскольку форманты значительно мощнее других составляющих, то они главным образом и воздействуют на ухо слушающего.

Разборчивость передаваемой речи зависит от того, какая часть формант доходит до уха слушающего без искажений и какая их часть исказилась или, по тем или иным причинам не была услышана. Представленный на рис. 2.1 вид спектра соответствует произнесению гласных звуков, обладающих заметной периодичностью. Многие согласные звуки непериодичны и их частотные спектры являются либо полностью сплошными, либо содержат в своем составе участки сплошного спектра, штриховая линия рис. 2.1.

Максимально в отдельных звуках замечено до 6 усиленных частотных областей. Некоторые из них никакого значения для распознавания звуков не имеют, хотя и несут в себе довольно значительную энергию. Спектральные исследования отдельных звуков русского языка отмечают наличие максимально четырех формант с условными максимумами на частотах 500 Гц (первая форманта), 1500 Гц (вторая форманта), 3500Гц (третья форманта). Важными являются первые одна-две форманты (на оси частот) и исключение из передачи любой из них вызывает искажение передаваемого звука, превращая его в другой звук, либо вообще потерю им признаков человеческой речи. Первые три форманты звуков речи лежит в полосе частот от 300 до 3400 Гц, что и позволяет считать эту полосу частот вполне достаточной для обеспечения хорошей разборчивости передаваемой речи, сохранения естественности звучания и тембра голоса, узнаваемости говорящего. Следовательно, эффективно передаваемая полоса частот телефонного сигнала может быть принятой равной DF_Т = 0,3…3,4 кГц.

Исследованию по определению минимальной, максимальной и средней мощности телефонного сигнала с учетом характеристик микрофонов телефонных аппаратов, типов и характеристик абонентских и соединительных линий телефонных сетей, особенностей говорящих позволяют сделать следующие выводы:

- при средней активности источника телефонного сигнала h_Т = 0,25…0,35 минимальная мощность телефонного сигнала в точке нулевого относительного уровня равна W_мин_Т = 0,1 мкВт0;

- средняя мощность телефонного сигнала в этой же точке на интервалах активности источника равна W_срТ = 88 мкВт0;

- максимальная мощность телефонного с вероятностью превышения e = 10^-5 в точке нулевого относительного уровня равна W_максТ =2220 мкВт0.

Согласно формулам (2.2 и 2.3), динамический диапазон и пик-фактор будут равны соответственно D_Т = 43 дБ (в практических расчетах принимают D_Т = 40 дБ) и Q_Т = 14 дБ, что и берется при расчетах.

Для оценки количества информации, содержащейся в телефонном сигнале, воспользуемся формулой (2.7), подставив в нее следующие значения h_Т = 0,33 , DF_Т = 3400 – 300 = 3100 Гц, W_срТ = 88 мкВт0 имощность помехи W_п = 0,1 мкВт0 (что вполне реально), получим I_Т = 10000 бит/с.