Методы автоматического реферирования и аннотирования текстов:
Принадлежность слова, словосочетания к числу ключевых определяется специальным статистическим коэффициентом.
- позиционный – где ключевое предложение – это предложение, входящее в заголовок, подзаголовок, начало и конец некоторого фрагмента текста
- логико-семантический – где ключевое предложение – это предложение с наибольшим функциональным весом, на величину которого влияют разные факторы (связь с левым и правым предложениями, наличие в предложении семантически значимых слов)
- статистический – где ключевое слово – знаменательное слово текста, которое с учетом всех его синонимов встречается в тексте наибольшее число раз. Ключевое предложение – предложение, где два и более ключевых слов.
Составление реферата (аннотации) статистическим методом
Используя для выделения ключевых слов текста, один из вариантов статистического метода = F*m / N*n
F – частота употребления слова в тексте
m – число абзацев, в которых встретилось слово
N – число слов в тексте
n – число абзацев в тексте
а) Составить алгоритм, позволяющий получить аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым словосочетанием – ключ, имя существительное со стоящими перед ним определением, выраженным именем прилагательным или причастием, не относящихся к числу общеупотребительных.
б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым считается предложение, содержащее три и более ключевых слов.
Алгоритм решения задачи
Комп по каждому абзацу текста составляет алфавитно-частотный словарь
Алфавитно-частотные словари объединяются в единый распределительный алфавитно-частотный словарь всего текста
ПК проводит чистку словаря, сжимая его до словаря потенциальных, ключевых словоформ
- удаляется вся служебная и общеупотребительная лексика
- объединяются все грамматические формы одного и того же слова
- объединяются синонимы
- удаляются лексические единицы, которые встретились только в одном абзаце
4. словарь потенциально ключевых слов делится а две части:
- главных опорных слов
- второстепенных опорных слов, что осуществляется на основе статистического коэффициента важности.
Строится аннотация, используется словарь главных опорных слов. Аннотация строится из слов реляторов со следующими за ними словосочетаний
Строится реферат, используется словарь главных и второстепенных опорных слов. Просматривается исходный текст, комп извлекает из него предложения, содержащие три и более опорных слова.
Системы машинного перевода
Перевод – это вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность.