русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

ДЕСКРИПТОР


Дата добавления: 2013-12-24; просмотров: 1937; Нарушение авторских прав


ЯОД – язык описания документа ПОД – поисковый образ документа

ЯОЗ – язык описания запроса ПОЗ – поисковый образ запроса

Релевантность, точность, полнота

Словарь дескрипторов, тезаурус

Основная задача – поиск документов по их содержанию.

Если язык запросов (как и язык самих документов) является обычным (неформализованным) языком (естественным), возможно с профессиональным уклоном, то полное решение задачи поиска требует понимания системой смысла запросов. Эта задача связана с проблемой создания искусственного интеллекта.

Поэтому на практике применяются упрощенные способы поиска. Простейший – использование дескрипторов.

Дескриптор – слово или совокупность слов (в том числе специальный профессиональный термин), которое в наибольшей степени характеризует содержание документа.

В АИС создается фиксированный словарь дескрипторов. Система просматривает текст запроса (на естественном языке) и фиксирует все встречающиеся дескрипторы. Затем просматривает полные тексты всех документов и отбирает те из них, которые содержат все дескрипторы из запроса. Необходимо честь, что и в запросе, и в тексте дескрипторы могут изменяться по падежам, по родам и так далее. Поэтому идентификация дескрипторов должна проводиться с точностью до окончаний (или даже до суффиксов).

Просмотр полных текстов документов требует много времени. Вместо этого просматривают поисковые образы.

Поисковый образ документа – совокупность дескрипторов, описывающая содержание и смысл документа.

Поисковый образ запроса – совокупность дескрипторов из запроса.

Поисковый образ составляется заранее либо вручную, либо автоматически в результате просмотра текстов специальной программой. Поисковые образы хранятся отдельно от текстов самих документов и имеют в своем составе ссылку на адрес соответствующего документа. В процессе поиска сравниваются поисковые образы запроса и документа на основе критерия смыслового соответствия. Этот критерий либо фиксирован для системы, либо указывается в запросе. Если условие сравнения выполняется, документ считается релевантным запросу. В качестве критерия смыслового соответствия может выступать условие совпадения множества дескрипторов поисковых образов, включение множеств друг в друга, пересечение множеств и др.



Наиболее дешевый способ хранения информации – микрофильмы и микрофиши. Их используют для хранения полных текстов документов. Поисковые образы хранятся во внешней памяти ЭВМ. Поисковые образы запросов обычно хранятся в ОП. После поиска и определения адреса документа осуществляется обращение к микрофильму или микрофиши. Можно получить твердую копию на бумаге.

Так как время обращения к хранилищу микрокопий велико, используется промежуточный этап.

Если найдено большое количество релевантных документов, в диалоге уточняется, что выдавать. Могут быть показаны заголовки документов, их полные наборы дескрипторов. В некоторых АИС на внешних ЗУ хранятся краткие рефераты документов, текст которых выдается пользователю на экран. Если пользователь подтвердит необходимость документа, выдается твердая копия.

Документальная АИС с простыми дескрипторными поисковыми образами может рассматриваться как фактографическая с булевыми атрибутами (да-нет), число которых равно полному числу используемых дескрипторов. Но такое представление, вообще говоря, не экономично, если число дескрипторов в словаре велико.

Описать содержание документа простой системой дескрипторов очень сложно, т. к. в естественном языке имеется неоднозначность, выражение смысла различными средствами, синонимичность и так далее.

Поэтому при поиске по дескрипторам могут быть извлечены нерелевантные документы, то есть не имеющие отношения к рассматриваемому запросу, а некоторые релевантные могут быть не найдены.

В первом случае говорят о неточности (информационный шум) АИС, во втором о её неполноте.

Для системы применительно к каждому запросу определяются (экспертным путем) два коэффициента.

Коэффициент полноты – отношение числа выданных по запросу релевантных документов к их общему числу в поисковом массиве.

Коэффициент точности – отношение релевантных (в данной задаче) документов к общему числу выданных (релевантных и нерелевантных документов).

Система характеризуется средним значением этих коэффициентов или минимальными их величинами.

Множество простых дескрипторов дополняется служебными словами (например, предлоги) и строится специальная грамматика (формализованная). Это множество превращается в некоторый формальный язык, что улучшает информационные характеристики системы. Но это усложняет поиск, удорожает систему. Вводится статистика и постоянные запросы.

8. ФАКТОГРАФИЧЕСКИЕ АИС

В фактографической АИС базы данных состоят из форматированных (формализованных) записей (одинаковой длины).

Например, операция в сбербанке: дата, код, сумма; анкета кадрового учета.

Среди атрибутов существует один, который идентифицирует запись. Этот атрибут называется основным (первичным) ключом. По нему определяется (с помощью специальной программы или таблицы) адрес записи во внешней памяти.

Одна из важных задач АИС – быстрый подбор записей, обладающих теми или иными свойствами. Атрибуты, задающие эти свойства, идентифицируют в общем смысле не одну, а несколько записей.

Они называются дополнительными (вторичными) ключами.

ОСНОВНЫЕ ПОНЯТИЯ

Первичный (основной) ключ

Вторичный (дополнительный) ключ

Инвертированный (полностью) файл

Частично инвертированный файл

Поиск разбивается на два этапа. Ищутся значения первичного ключа для записей с заданным значением вторичного ключа. На втором этапе по значениям основного ключа находят адреса записей, а затем сами записи.

Для быстрого поиска используются инвертированные списки. Например,



<== предыдущая лекция | следующая лекция ==>
ЯОД – язык описания данных, ЯМД – язык манипулирования данными | ОСНОВНЫЕ ДАННЫЕ


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.175 сек.