Лекция_ Кодирование звуковой информации

Представление звуковой информации.

Звук – это волновые колебания давления в упругой среде (в воздухе, воде, металле и т.д.). Для обозначения звука часто используют термин «звуковая волна».

Основные параметры любых волн, и звуковых в том числе, - частота и амплитуда колебаний.

Частоту звука измеряют в герцах (Гц, количество колебаний в секунде). Человеческое ухо способно воспринимать звук в широком диапазоне частот, примерно от 16 Гц до 20Гц. В нетехнических областях (например, в музыке) вместо термина «частота» нередко используют термин «тон».

Амплитуду звуковых колебаний называют звуковым давлением или силой звука, это величина характеризует воспринимаемую громкость звука. Абсолютную величину звукового давления измеряют в единицах давления – паскалях (Па). Самые слабые, едва различимые звуки имеют амплитуду около 20 мкПа (2*10^-5 Па, так называемый порог слышимости). Самые сильные звуки, еще не выводящие слуховые органы из строя, могут иметь амплитуду до 200 Па (так называемый болевой порог). Из-за столь широкого диапазона значений (максимальное и минимальное значение отличается на 6-7 порядков) абсолютными величинами звукового давления пользоваться крайне неудобно, на практике обычно используют логарифмическую шкалу децибелов.

Относительную силу звука или уровень звука измеряют в особых единицах – децибелах (дБ). Формула расчета уровня звука: , где L – уровень звука (в дБ), P_пс- порог слышимости (2*10^-5 Па), P_зв – давление измеряемого звука (в Па).

Замечания:

- весь диапазон слышимых звуков составляет 0-140 дБ: 0 дБ – порог слышимости, 140 дБ –болевой порог;

- человеческое ухо способно уловить различие в громкости, если звуки отличаются по силе не менее, чем на 10%, что соответствует разнице в уровнях примерно на 1 дБ;

- двукратное различие в амплитуде звуков соответствует различию уровней в 6 дБ;

Некоторые значения уровней звука:

Понятие звукозаписи.

Звукозапись – это процесс сохранения информации о параметрах звуковых волн. Способы хранения, или записи, звука разделяются на аналоговые и цифровые.

При аналоговой записи на носителе размещается непрерывный «слепок» звуковой волны. Так на грампластинке пропечатывается непрерывная канавка, изгибы которой повторяют амплитуду и частоту звука, а на магнитной ленте параметры звука сохраняются в виде намагниченности рабочей поверхности, степень намагниченности непрерывно изменяется, повторяя параметры звука.

В ПК применяются исключительно цифровая форма записи звука. При цифровой записи звук необходимо подвергнуть временной дискретизации и квантованию: параметры звукового сигнала измеряются не непрерывно, а через определенные промежутки времени (временная дискретизация); результаты измерений записываются в цифровом виде с ограниченной точностью (квантование).

В компьютер приходит не сам звук, а электрический сигнал, снимаемый с какого-либо устройства: например, микрофон преобразует звуковое давление в электрические колебания, которые в дальнейшем и обрабатываются.

Цифровая запись вносит двойное искажение в сохраняемые параметры сигнала: во-первых, при дискретизации теряется информация об истинном изменении звука между измерениями, а во-вторых, при квантовании сохраняются не точные параметры, а только близкие к ним дискретные значения.

В ПК используется так называемые импульсно-кодовое и частотное представление звуковой информации, для обозначения которых чаще всего используются названия технических способов воспроизведения звука: импульсно-кодовая модуляция и частотная модуляция.

Импульсно-кодовая модуляция.

Импульсно-кодовая модуляция (Pulse Code Modulation, PCM) заключается в том, что звуковая информация хранится в виде значений амплитуды, взятых в определенные моменты времени (т.е. измерения проводятся «импульсами»).

При записи звука в компьютер амплитуда измеряется через равные интервалы времени с некоторой достаточно большой частотой.

При воспроизведении звука компьютер использует сохраненные значения для того, чтобы восстановить непрерывную форму выходного сигнала.

Процесс получения цифровой формы звука называют оцифровкой.

Устройство, выполняющее оцифровку звука, называется аналого-цифровым преобразователем (АЦП).

Устройство, выполняющее обратное преобразование, из цифровой формы в аналоговую, называется цифро-аналоговым преобразователем (ЦАП).

В современных ПК основная обработка звука выполняется звуковыми картами.

Помимо АЦП и ЦАП звуковые карты содержат сигнальный процессор – специализированный микрокомпьютер для обработки оцифрованного звука, выполняющий значительную часть рутинных расчетов при обработке звуков (смешение звуков, наложение спецэффектов, расчет формы выходного сигнала и т.п.; центральный процессор не тратит время на выполнение этих работ).

Моменты измерения амплитуды называются отсчетами. Частоту, с которой производят измерения сигнала, называют частотой дискретизации.

Квантование звука заключается в следующем. Сначала мгновенные значения звукового давления (амплитуда звуковых колебаний) измеряются с ограниченной точностью, затем, как и в случае с квантованием цветов, диапазон значений амплитуды разбивается на подуровни. По измеренному значению определяется подуровень, в который попадает значение, и в компьютере сохраняется только его номер.

Количество бит, используемых для записи номеров подуровней, называется глубиной кодирования звука.

Если сравнить способы представления графической и звуковой информации, то импульсное кодирование звука соответствует растровому представлению изображений:

- структура звука (в графике – изображения) не анализируется;

- время (в графике – пространство) разбивается на небольшие области;

- в пределах этих областей параметры звука (изображения) считаются постоянными.

При сохранении импульсного представления звука достаточно единожды сохранить параметры оцифровки (глубину кодирования, частоту дискретизации и длительность звукового фрагмента), а затем сохранять только номера подуровней единым потоком.

Увеличивая частоту дискретизации и глубину кодирования, можно более точно сохранить и впоследствии восстановить форму звукового сигнала. При этом улучшается субъективное качество оцифрованного звука, однако увеличивается объем сохраняемых данных.

При цифровой записи звука в различных случаях используют разные значения частоты дискретизации и глубины кодирования.

Например, в цифровых автоответчиках используют частоту дискретизации 8-11 кГц и 8 бит для записи амплитуды, а стандарт записи звука на компакт –дисках соответствует частоте дискретизации 44,1 кГц и 16 бит для записи амплитуды на каждый аудио - канал (стерео – 2 канала, моно – один канал).

1. Оценим объем стереоаудиофайла в формате PCM с глубиной кодирования 16 бит и частотой дискретизации 44,1 кГц, который хранит звуковой фрагмент длительностью звучания 1 секунда.

Объем такого звукового фрагмента равен:

V = глубина кодирования * частота дискретизации (Гц) * количество каналов * время звучания (в сек.) = 16 бит * 44100 Гц * 2 * 1 с = 1 411 200 бит = 176 400 байт ≈ 172, 3 Кбайт.

2. Для хранения 5-минутной аудиозаписи CD-качества (частота дискретизации – 48 кГц, глубина звука – 16 бит, режим – стерео) необходимый объем памяти составит:

48.000 Гц´16 бит´2 канала´300 с = 460.800.000 бит = 57.600.000 байт = 56.250 Кбайт ≈ 55 Мбайт.

Вопрос, до какой степени можно уменьшить параметры оцифровки, чтобы при восстановлении звук оставался достаточно близок к исходному?

В 1928 году американский инженер и ученый Гарри Найквист высказал утверждение, что частота дискретизации должна быть в два или более раза выше максимальной частоты измеряемого сигнала.

В 1933 году советский ученый В.А. Котельников и независимо от него американский ученый Клод Шеннон сформулировали и доказали теорему о том, при каких условиях и как по дискретным значениям можно восстановить форму непрерывного сигнала. Эта теорема в России называется теоремой Котельникова, на Западе теоремой Найквиста-Шеннона; есть у нее и «нейтральной» название – теорема об отсчетах.

Приемы и методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной истории кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, но если говорить обобщенно, то можно выделить два основных направления.

Метод FM (Frequency Modulation)основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а, следовательно, может быть описан числовыми параметрами, то есть кодом. В природе звуковые сигналы имеют непрерывный спектр, то есть являются аналоговыми. Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства – аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). При таких преобразованиях неизбежны потери информации, связанные с методом кодирования, поэтому качество звукозаписи обычно получается не вполне удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с окрасом, характерным для электронной музыки. В то же время, данный метод кодирования обеспечивает весьма компактный код, и потому он нашел применение еще в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.

Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Если говорить упрощенно, то можно сказать, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов (хотя не только для них). В технике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые параметры среды, в которой происходит звучание, а также прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, то качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

(Как и в случае с графическими данными (глубина цвета или интенсивность цвета), глубина звука (уровень громкости) представляется определенным количеством бит (8, 16). Кроме того, ещё одной характеристикой при кодировании звука является частота дискретизации непрерывного аналогового сигнала (8; 11,025; 12; 16; 20; 22,05; 24; 32; 44,1; 48 кГц). Человек может воспринимать звуковые колебания в частотном диапазоне примерно 20 Гц – 20 кГц. Поэтому для качественного воспроизведения звука достаточной является частота дискретизации 48 кГц).