русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Устройства распознавания речи


Дата добавления: 2014-11-28; просмотров: 2429; Нарушение авторских прав


 

Название устройства (фирма, страна) Метод анализа и распо­зна­вания Вид распознаваемой речи Объем словаря, слова Надежность распознава­ния, % Допусти­мый уро­вень помех Способ адаптации к директору Наличие телефонного интерфейса Наличие синтеза­тора речи Область применения
РЕЧЬ-121 (СССР) Полос­ный, ДП Изолирован­ные слова (слитная речь) 99 (93 на 200 слов) (1—10)-крат­ное произне­сение Есть Есть САПР, АСУ, АСУПТ
БАРС (СССР) То же Изолирован­ные слова Однократное произнесение То же То же САПР
СИБИРЬ-1 (СССР) » То же То же Нет » Диспет­чер­ские системы
СИРИУС-1 (СССР) Клиппи­ро­ванный сигнал, ДП » » То же » Специаль­ное

 


4.4. Перспективные зарубежные системы
речевого общения

 

Из всего разнообразия зарубежных промышленных СРО рассмотрим системы, которые, на наш взгляд, являются наиболее перспективными в плане реализации в них как новых теоретических моделей, так и достигнутых показателей качества синтеза и распознавания речи.

Примером высококачественного синтезатора, с помощью ко­торого можно воспроизвести близкую к естественной речь различ­ного темпа и оттенков непосредственно по тексту неограниченного словаря, является устройство DES-talk. Устройство DES-talk (см. табл. 1.1) представляет собой блок размером 10 ´ 45 ´ 30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Высокое качество синтезатора DES-talk обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя, качеством аппаратных средств для преобразования речи. Пользователь может выбрать семь различных голосов, в том числе стандартные женский, мужской, детский, а также низкий мужской и голос пожилого человека.



В устройстве DES-talk процесс преобразования текстовой информации в речевую разделяется на три уровня. На первом слова преобразуются в цифровую форму в соответствии с кодом ASCII и разбиваются на фонемы. При этом используются набор правил преобразования букв в звуки и два словаря. Один содержит 6000 слов, другой — около 150 специфических терминов, иностранных слов и аббревиатур, вводимых самим пользователем. Преобразования первого уровня начинаются с поиска эталон­ных слов, соответствующих вводимому орфографическому тексту, в большом словаре. Если эталоны найдены, то текст, преобразованный в фонемную форму, сразу передается на второй уровень обработки. Если эталоны не найдены ни в одном из словарей, то вводимый текст обрабатывается в соответствии с правилами преобразования букв в звуки и затем передается на второй уровень. На втором уровне производится считывание фонем, синтаксический анализ, определяются интонация, продолжительность и ударение в словах, выполняются акустические расчеты. На третьем уровне осуществляются окончательные преобразо­вания входной текстовой информации и синтез речи. Синтезирван­ные цифровые сигналы передаются со скоростью не менее 120 Кбит/с в стандартный цифроаналоговый преобразователь (ЦАП). В синтезаторе DES-talk используются эвристические правила для оценки влияния окружающих слов на произношение, интонацию, продолжительность и ударение в данном слове.

Программное обеспечение для синтезатора DES-talk практически аналогично программному обеспечению для существую­щих алфавитно-цифровых терминалов, работающих в стандарте ASCII, за исключением модулей, определяющих формат данных. Поэтому создание программного обеспечения не вызывает труд­ностей, что открывает синтезатору DES-talk широкие области применения.

Создание перспективных моделей распознавания речи свя­зано со стремлением достичь высокой надежности при работе с большими словарями (свыше 1000 слов) в режиме слитного произнесения. Наиболее близко к такому идеалу подходит система KVS-3000, словарь которой содержит 10 000 слов, а точность распознавания 95 %. Для подготовки устройства к работе весь на­бор эталонных слов должен быть произнесен трижды, поэтому па­мять устройства KVS-30 000 рассчитана на хранение 30 000 слов. Среднее время распознавания — около 500 мс.

Фирма «Verbex» (США) разработала мощную систему распознавания непрерывной речи — модель Verbex-30 000, позво­ляющую распознавать предложения любой длины, состоящие из отдельных или слитно произносимых слов. Эта система ориентирована на голос одного диктора, при смене диктора необходима перезапись в ОЗУ для хранения эталонов слов. Модель Verbex-30 000, построенная по архитектуре «звезды», включает 2—4 таких речевых процессора и может оперировать 120—360 словами. Каждый процессор содержит ЗУ емкостью 0,25 Мбайт для хранения данных, а также ЗУ для хранения 4000 микрокодовых инструкций, каждая длиной 64 бит. Кроме того, гибкость конструкции системы, обеспеченная развитой структурой элементов сопряжения, позволяет использовать память центральной ЭВМ. Быстродействие речевого процессора — 5 млн опер./с.

Микропроцессорная архитектура системы позволяет производить операции с высоким быстродействием, что является необходимым условием для выполнения алгоритма распознавания непрерывной речи. Процесс распознавания, который заключается в подборе последовательности эталонных слов, максимально соот­ветствующей произнесенной пользователем, осуществляется ДП-методом. Входные речевые сигналы усиливаются, фильтруют­ся и кодируются аудипроцессором, а затем передаются в управляющий процессор с интервалом 10 мкс. Управляющий процессор распределяет сигнал между речевыми процессорами, которые выделяют его фонетические характеристики. Разработчики системы определили, что для обеспечения точности распознавания 99 % достаточно 16 таких характеристик. Процесс распознавания в управляющем процессоре и поиск эталона производятся одновременно, т. е. когда процессор «улавливает» окончание речи.

Во избежание влияния на окончательный результат распознавания ошибок, возможных на первом этапе, система постоянно проверяет множество параллельных гипотез, сравнивая ввод данных с грамматически обозначенным набором всех нормальных произношений. Ответ задерживается до момента проверки всех гипотез и совпадения произнесенного с эталоном.

 

4.5. Тенденции применения средств
речевого общения

 

До последнего времени большинство работ, связанных с созданием СРО, базировалось на идее формирования акустических эталонов речевых элементов разных уровней (фонем, слогов, слов). При этом распознавание было реализовано как обнаружение и идентификация в потоке речи этих акустических эталонов. В настоящее время стало очевидным, что такой подход ма­лоперспективен из-за значительной вариативности акустических характеристик речевого сигнала, связанной как с лингвистическими (эффекты коартикуляции, редукции, ассимиляции), так и с экстралингвистическими факторами (индивидуальные особенности голосов дикторов, различия в их произносительных навыках, состояние проводящей среды и др.). Особенно большую вариантность имеют акустические характеристики фонем. Поэтому в большинстве промышленных систем распознавания речи отказались от пофонемного анализа и приняли слово в качестве минимального распознаваемого элемента. Данный подход, хотя и дал на определенном этапе речевых исследований зримые результаты, оказался неплодотворным при решении сложных задач распознавания, таких, как распознавание речи без подстройки под диктора или создание систем с большими словарями. Это заставило вернуться к идее пофонемного анализа речи на новом качественном уровне, который предполагает моделирование различных аспектов процесса переработки информации человеком при восприя­тии речи, использование знаний, накопленных в лингвистике, те­о­­рии восприятия и психологии. При таком подходе одной из карди­нальных задач распознавания речи является задача обнаружения и моделирования тех механизмов восприятия речи человеком, которые обеспечивают устойчивость и стабильность воспри­ни­маемых речевых элементов в условиях их огромной акустической вариативности.

Все большее распространение получает подход к решению задачи распознавания речи, связанный с чтением динамических спектрограмм неизвестного речевого сигнала фонетистом-экспер­том. Интерес к экспериментам по чтению спектрограммы связан, во-первых, с тем, что они демонстрируют богатство фонетической информации, заключенной в речевом сигнале, представленном в виде трехмерной (частота — время — интенсивность) спектральной картины, а во-вторых, с тем, что они позволяют во­плотить знания и процедурные навыки эксперта в системах распознавания речи. Исследования по чтению спектрограммы ведутся в разных странах, и в настоящее время главным в этих исследованиях является проблема выявления и формализации знаний
и процедурных навыков экспертов. Оказалось, что это весьма сложный процесс, т. к. эксперты не всегда способны выразить принципы и правила, которыми они руководствуются в ходе акустико-фонетического декодирования речевых спектрограмм. Одной из существенных проблем является воплощение в алгоритме правил и знаний, которые кажутся эксперту очевидными (например, F 420 не может быть выше 2500 Гц) либо сложно формулируемыми (например, правило определения компактности взрыва смычных). Для преодоления этих трудностей, связанных с извлечением и записью знаний эксперта, используются экспертные системы. Экспертные системы отличаются от обычных компьютерных программ тем, что они могут решать задачи, не имеющие жестких алгоритмических решений, и осуществлять выводы, осно­ванные на неполной или недостоверной информации. Поэтому они гораздо более приспособлены для моделирования гибкой дея­тельности человека, что и было использовано в речевых исследованиях. Необходимо подчеркнуть, что в этих исследованиях ЭС применяются именно как инструмент анализа для накопления ба­зы знаний в процессе взаимодействия системы и эксперта. Исполь­зование ЭС в качестве системы распознавания неэффективно.

Вторая существенная трудность при моделировании деятельности фонетиста-эксперта заключается в том, что визуальный анализ спектрограмм, лежащий в основе декодирующих действий эксперта, не менее сложен, чем слуховая обработка речевого сигнала. При формализации чтения спектрограмм возникает сложная проблема извлечения акустических признаков, легко выделяемых зрительной системой человека. При разработке ЭС многие исследователи эту трудность просто обходят. Однако уже из самого рассмотрения возникшей ситуации логически вытекает представление о наличии некоторого промежуточного уровня кодирования речевой информации при переходе от параметрического описания спектра к его фонетической интерпретации. Более того, необходимость разработки принципов промежуточного описания речевых сигналов выделяется в качестве центральной проблемы автоматического распознавания речи. Отмечается, что только промежуточное описание позволяет перекинуть мост между непосредственно наблюдаемым непрерывным акустическим сигналом и дискретным лингвистическим описанием. Промежуточное представление описывает «поведение» акустических характеристик, которое в значительной степени является инвариантным при переходе от диктора к диктору и зависит, главным образом, от контекстного взаимодействия фонетических единиц. При этом промежуточное представление, как правило, выражается в качественном виде и описывается в терминах наличия — отсутствия определенных акустических объектов, высокого — низкого положения в спектре или сильного — слабого проявления той или иной энергетической составляющей.

Таким образом, в процессе акустико-фонетического декодирования осуществляется вначале переход от количественных изменений к качественному описанию, а затем от качественных описаний к признакам фонем. Как правило, единицы промежуточного уровня представления речевой информации называются акустическими ключами, акустическими признаками или дискрипторами.

В России работы по чтению спектрограмм фонетистами-экспертами, выработке правил их фонемной и словесной интер­претации проводятся с 1980 года. Полученные результаты поз­волили приступить к созданию аппаратно-программной модели анализа речи, в основу которой положены алгоритмы чтения спектрограмм.

 

 

 




<== предыдущая лекция | следующая лекция ==>
Устройства синтеза речи | ПЕРЕВОДА


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.016 сек.