Системы машинного перевода облегчают просмотр web страниц в интернете
Структура системного машинного перевода и назначение ее основных блоков
Система МП (машинного перевода) является моделями, которые воспроизводят на ПК речевое поведение чела, переводящего текст с одного языка на другой язык.
Автоматический двуязычный словарь
Синтаксические соответствия
1. Процессы морфологического анализа слов/предложений исходного языка. Каждое слово получает набор лексико-грамматических признаков. ПК формирует эти наборы с опорой на автоматический словарь.
Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.
3. Синтаксический синтез переводного языка:
- создание предложения переводного языка определенной синтаксической структуры, определяемой правилами исходного и переводного языка
- замена слов исходного языка на их переводные эквиваленты
Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужной форме числа, рода, падежа, опираясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.
При создании автоматического словаря решаются следующие задачи:
1. выбор типа лексической единицы для словаря:
а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами
б) в виде квазиосновы (блок #...)
- числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слова
2. выбор типа лексической единицы зависит от:
- от типа языка (для русского, немецкого, белорусского – квазиоснова, для английского, французского – словоформа)
- от объема словаря
- от типа системы машинного перевода (для информативного перевода – квазиоснова, для профессионального – словоформа)
Отбор лексики для входного и подходящие эквиваленты для выходного словаря
Создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков
В словарной статье выделяют четыре зоны:
Зона морфологических сведений
Зона семантических сведений
а) принадлежность к определенному семантическому подклассу
б) переводные эквиваленты
Зона синтаксических сведений (управление глагола или предлога)