русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Синтезаторы речи


Дата добавления: 2014-11-28; просмотров: 903; Нарушение авторских прав


 

Эти устройства предназначены для преобразования кодовой последовательности, поступающей от ЭВМ, ПЗУ или линии связи, в непрерывный речевой сигнал. Синтезаторы подразделяются на классы и группы по тем же признакам, что и анализаторы речи. Классам анализаторов речевых сигналов и сообщений соответствуют синтезаторы речевых сигналов и сообщений.

Синтезаторы сообщений делятся по аналогичным признакам на синтезаторы ограниченного словаря — компиляторы — и универсальные.

В компиляторах (рисунок 1.2, а) любое сложное речевое
сообщение может быть получено путем компиляции (простого соединения) элементов речи. Элементы речи начитываются диктором, соответствующие им сигналы компрессируются тем или иным способом, кодируются и записываются в ПЗУ. При синтезе речевого сообщения из ПЗУ закодированные речевые элементы считываются в нужной последовательности и одновременно восстанавливается речевой сигнал. Очевидной простотой компи­ляционного метода и его технической реализации объясняется большое количество сообщений о проектируемых и законченных разработках компиляторов и их применении.

Удовлетворительный по качеству компиляционный синтез речи возможен лишь при использовании в качестве элементов речи отдельных фраз либо словоформ, подставляемых в определенное место стандартной фразы.

Попытки добиться высококачественного синтеза произвольного текста простой компиляцией словоформ, слогов или аллофонов не привели к положительным результатам.

При разработке универсальных синтезаторов речевых сообщений стремятся получить функциональную модель речеобразования, адекватную реально существующим языковым и акустическим явлениям. На входе такой модели — орфографический или фонемный текст произвольного содержания, на выходе — звучащая речь (рисунок 1.2, б). По своему существу разрабатываемые в рамках данного подхода синтезаторы являются кибернетической функциональной моделью чтения текста человеком.



 

Рисунок 1.2. Схемы синтезаторов речевых сообщений ограниченного (а) и универсального (б) словаря

 

В базе знаний синтезатора хранится не только информация об элементарных единицах речи (эталоны фонем и интонем), но и алгоритмические правила их модификации в зависимости от конкретного контекста звуковой реализации. Процесс применения этих правил к эталонам фонем и интонем для входного синтезируемого текста реализуется лингвистическим процессором. К настоящему времени качество речи и стоимость универсальных синтезаторов достигли коммерчески приемлемых показателей, и они начинают оказывать серьезную конкуренцию компиляторам в силу простоты применения, малого расхода памяти на элемент речи, неограниченности состава словаря синтезируемых сообщений.

Одним из основных параметров, характеризующих синтезаторы речи, является емкость памяти V, необходимая для хранения 1 с речи, — примерно 1,5—2 слова. Для компиляторов она определяется типом параметрического представления речевого сигнала, для универсальных синтезаторов не зависит от типа используемого синтезатора речевых сигналов, а определяется числом фонем (букв текста), произносимых в 1 с.

В классе компиляторов выделены наиболее распространенные типы, различающиеся методом представления речевого сигнала: ИКМ — импульсно-кодовая модуляция; кодек-дельта-модуляция; полосный — спектрально-полосное; ЛПК — линейное предиктивное кодирование; форматный.

 

4.3. Обзор промышленных систем
речевого общения

 

Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло несколь­ких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.

В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75—80 % до систем понимания речи со словарем в 1000 слов и надежностью 99 %. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX, SRS, VOTAN, KAI), а также крупные компьютерные фирмы (TTI, DES, Intel, IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмы NES, Matsuchiba, Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциум в составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).

Как уже отмечалось, СРО строятся на базе специализи­рованных устройств: синтезаторов и анализаторов (распознава­телей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.

Характеристики отечественных и зарубежных синтезаторов речи приведены в табл. 1.1. Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный.

Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря,
а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.

Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл. 1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK, PROSE-2000 и DES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.

Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефон­ной или иной коммутируемой сети.

Характеристики отечественных устройств распознавания речи приведены в табл. 1.2.

Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корре­ляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.

Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл. 1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.

Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.

Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.


Таблица 1.1



<== предыдущая лекция | следующая лекция ==>
Анализаторы | Устройства синтеза речи


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.074 сек.