Информационно-поисковые системы

Проблема поиска документа, отвечающего тем или иным критериям, возникает в любом хранилище данных, содержащем более одного документа. Очевидно, что решение этой проблемы так или иначе замыкается на те способы, которые применяются при создании систем хранения. Можно указать два основных способа:

• использование иерархической модели;

• использование гипертекстовой модели.

Использование иерархической модели подразумевает многоуровневую рубрикацию информационных ресурсов. Для выбора пути к нужному документу используются описания, составленные службой поддержки данной системы.

Гипертекстовая модель позволяет связывать документы ссылками, которые располагаются непосредственно в тексте.

Эти две модели имеют очевидные недостатки. Так как и многоуровневая рубрикация, и простановка ссылок выполняется высококвалифицированными специалистами, объем обработанных таким образом документов не может быть очень большим. По этой же причине страдает актуальность описания массива документов. Помимо этого связанные документы ограничены какой-либо одной предметной областью, о которой, к тому же, у пользователя системы может быть иное представление, чем у составителя рубрикатора. И, наконец, для нахождения необходимого документа пользователю таких систем потребуется просмотреть множество документов, полезной информацией в которых будут только ссылки на другие ресурсы.

Эти проблемы становятся особенно острыми при больших объемах информации, высокой скорости их обновления и высокой разнородности потребностей пользователей. Помочь в решении этих проблем призваны информационно-поисковые системы (ИПС). Такие системы, однажды созданные, могут работать автономно. Принцип их взаимодействия с пользователем заключается в выдаче списка указателей па документы, удовлетворяющие запросу. Этот список может быть отсортирован по релевантности (степени соответствия документа запросу). Таким образом, ИПС может обеспечить очень быстрый поиск необходимого документа — при том, что от пользователя требуется лишь ввести запрос.

Первые информационно-поисковые системы были созданы достаточно давно. Большинство открытий в этой области приходится на 70-е и 80-е годы. Сейчас, с развитием Интернета, количество пользователей этих систем исчисляется миллионами, а в скором будущем будет исчисляться миллиардами. Так же стремительно растет количество документов, хранящихся в Интернете, что ставит все более сложные задачи перед разработчиками ИПС.

Основные принципы информационного поиска были сформулированы еще в первой половине этого века. Между 1939 и 1945 годами У. Е. Баттеном была разработана система для отыскания патентов. Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана 800-позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера патента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета.

Основные принципы информационного поиска с тех пор не изменились. На примере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе Баттена использовался предметный указатель, то есть документы классифицировались по понятиям (предметам), которые в них затрагиваются.

Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем.

Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database).

После создания индекса к нему обращаются посредством запросов. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на язык индексирования. В индексе выполняется поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы.

Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области.