Метапоисковые системы: принципы работы, опыты кластеризации поисковых результатов.

Каждая поисковая машина использует собственный алгоритм поиска и индексирования интернет-ресурсов. Поисковых систем много, и, как выясняется, базы данных (или индексы) поисковых систем далеко не так одинаковы, как может показаться на первый взгляд. Совпадений среди проиндексированных документов в них никак не больше половины от веб-документов, обнаруженных на просторах Сети. Поэтому возникла идея для удобства поиска объединить результаты выдачи по тому или иному запросу сразу из нескольких систем в одном интерфейсе. Так появились метапоисковые системы.

Метапоисковые системы не имеют собственной базы данных (за исключением метапоисковой системы Nigma.ru). Их цель заключается в том, чтобы из одного запроса пользователя сгенерировать множество запросов в разные поисковые системы, а затем объединить их в одной ленте выдачи (или облаке ключевых слов, как это делают визуальные метапоисковые системы). В смысле содержания результатов запросов они полностью зависят от тех поисковых систем, на базы данных которых они опираются. Получается, что основная задача метапоиска состоит не в обследовании Сети в поисках обновлений и новых веб-документов, а в обработке результатов поиска по конкретному запросу. Метапоисковые системы призваны удобно объединять результаты поиска: с одной стороны, чтобы одинаковые результаты не повторялись, и с другой стороны, чтобы самые важные результаты оказывались вверху списка выдачи. Таким образом, метапоисковые системы - это своего рода агрегаторы выдачи по запросам на один и тот же поисковый запрос сразу к нескольким поисковым системам.

Метапоисковые системы первого поколения объединяют результаты, полученные у разных поисковых систем (число и качество адресатов переадресации запросов варьируется сильно) и составляют объединённую ленту выдачи. Примерами метапоиска первого поколения могут служить такие системы, как www.dogpile.com, www.search.com, www.info.com.

Метапоисковые системы позволяют взглянуть на результаты поиска по ключевым словам, подобрать новые ключевые слова, исходя из близких тематических кластеров или с помощью облаков связанных понятий. Можно однозначно рекомендовать метапоисковые системы для обзорного поиска. Обзорный поиск полезен при первом подходе к изучению материалов по новой для пользователя теме или же необходим для включения в поле зрения как можно большего числа интернет-источников. Даже одно ключевое слово может в некоторых случаях дать полезный, наводящий результат.

результатов.

Как и в обычном поисковике есть строка запрос (а рядом с ней и возможность расширенного поиска: ). Результаты поиска, часто обильно сдобренные рекламными ссылками, представляются уже в хорошо известном нам формате: название, аннотация, домен, дополнительные и похожие результаты, фактически копия представления результатов Google с некоторой потерей в функциональности (). Немаловажной характеристикой является и указание, из индексов каких поисковых систем была взята информация ).

Но испробовав обощение запросов к различным системам, метапоиск стали обогащать и другими интересными функциями. Прежде всего, следует назвать возможности специальной автоматической группировки результатов, по тематически разделам или кластерам. Также стали развиваться возможности визуализации результатов метапоиска. Все эти задачи призваны сделать поиск более быстрым и эффективным. Суть метапоиска легче всего объяснить на примерах различных метапоисковых систем.

Clusty

Компания Vivisimo проводит исследования о возможностях типологизации веб-документов и запросов к поисковым системам. Первоначально, основным средством поиска с помощью их разработок был сайт Vivisimo.com, но ради роста посещаемости и построения собственного поисковика был реализован проект Clusty.com. Название было выбрано «говорящее», дело в том, что основой классификации сайтов в системе стала кластеризация, т.е. разбиение всех получаемых из разных источников результатов на «грозди» или кластеры. Сегодня метапоиск Clusty объединяет результаты поиска в поисковых механизмах MSN, Ask, Gigablast, Looksmart, Wisenut, Open Directory.

Для простоты примера возьмём однословный запрос - МГУ. Запрос, как и в большинстве систем вводится и может редактироваться в поле запроса, также существует нехитрая форма расширенного поиска (). Самым важным отличие от обычных поисковых систем, которое сразу бросается в глаза, является сфомированная в левой части система кластеров. Можно провести аналогию, что кластеризация в поисковых системах является своеобразной попыткой автоматического построения каталога на основе вычислений по ключевому слову. Большинство кластеров () берутся из названий сайтов, имеющих в названии МГУ или относящихся к нему доменов. Для того, чтобы посмотреть, каким образовам изменится выдача результатов (ссылки, краткие аннотации и источники поиска: ), достаточно нажать на один из кластеров (Рис. 2). Более того, можно осуществлять поиск в найденных кластерах ().

Следует заметить, что в панель кластеров встроены удобные для группировки сайтов вкладки: можно их увидеть в автоматических кластерах (), сгруппировать по источникам сведений о них, т.е. по тем обычным поисковикам, в которых были найдены сведения о них () или же по сайтам, на которых собственна и была найдена информация по ключевым словам ().
Nigma
Интересным примером метапоисковой системы является отечественная разработка, реализованная в МГУ, - интеллектуальная поисковая система Нигма.
Нигма объединяет поисковые результаты таких систем, как Google, Yahoo, MSN, Yandex, Rambler, Altavista, Aport, но её основное отличие от других метапоисковых систем заключается ещё и в том, что она создаёт и свой собственный индекс, который, по мнению создателей должен улучшить результаты поиска даже по самым простым ключевым словам.
Важно заметить, что помимо архитектуры системы, она ещё выгодно отличается качественной формой расширенного поиска (Рис. 4: ), которая позволяет пользоваться традиционными критериями для ограничения поиска. Казалось бы что это достаточно обыкновенное удобство, но следует учитывать, что синтаксис поисковых систем достаточно различен и многие системы оказываются неспособны учесть, например, исключение некоторых слов из выдачи или поиск на конкретном сайте. В Нигме такие удобства функционируют вполне штатно.

В Нигме также есть удобная функция поиска в найденном (), с помощью которой можно уточнять запрос и задавать его к уже сформированной выборке ресурсов. Подобно Clusty, Нигма строит автоматический набор кластеров, к которым относит сайты с найденными ключевыми словами ().
Важно знать, что каждый кластер может выполнять три функции:
а) если кликнуть по ссылке с названием кластера, то Вы откроете все сайты, автоматически включённые в него системой (например, факультеты),
б) если кликнуть метку рядом с названием кластера, то можно его автоматически исключить из поиска (появится красный крестик, что удобно, например, для исключения интернет-магазинов),
в) если же кликнуть по метке два раза, то кластер будет обязательно включён в рассмотрение при поиске в найденном или же при расширенном поиске.
Метапоиск в таком виде первоначально может показаться излишне сложным и запутанным, но стоит привыкнуть к интерфейсу, как метапоисковая система превращается в удобный способ быстрого обзора имеющихся по ключевым словам интернет-ресурсов.

Quintura
В поледнее время разработчики поисковых систем сделали достаточно много для того, чтобы пойти навстречу пользователю, чтобы помочь ему не совершать орфографических ошибок, подсказывать правила синтаксиса и т.д. Следующим шагом стала идея визуализации результатов поиска. Лидером в этой области является на сегодняшний день система Quintura. Цель этой системы к имеющимся уже в запросе пользователя словам добавить связанные и тематически близкие слова и словсочетания, чтобы помочь уточнить запрос, добавив или удалив слова из облака, автоматически созданного системой. Квинтура имеет русскоязычный и англоязычный интерфейсы (Quintura.ru иQuintura.com), которые работаю на основе Яндекса и Yahoo! Search соответственно.

Получая запрос, система формирует две выдачи: слева создаётся облако или карта ключевых слов тематически связанных с запросом в стиле Web 2.0 (), справа же мы видим обычную ленту выдачи в стиле Яндекса (). Самыми близкими к МГУ ключевыми словами являются выделенные жирным имя (это, конечно, информационный шум, потому что, несмотря на то, что МГУ носит имя М.В.Ломоносова, это не делает его важным клюевым словом), факультет (что справедливо, такие же кластеры создавали и Clusty, и Нигма) и выпускники.

Достаточно навести курсор на одно из дополнительных ключевых слов на карте (Рис. 6), как одновременно изменится сама карта, равно как и лента выдачи. Причём, если Вы захотите удалить это слово из числа ключевых, то достаточно кликнуть по крестику, который появляется сразу рядом с этим словом.
Таким образом, система Quintura позволяет на основе выдачи разных поисковых систем получать визуализацию ключевых слов, которые близки к кластерам, но при этом позволют оперировать результатми чуть проще. Тем не менее, объединение результатов из разных поиковых систем в одну ленту выдачи пока только разрабатывается. На настоящий момент систему можно использовать как удобного подсказчика при поиске удачных ключевых слов, равно как оценщика результатов выдачи поисковой системы по разным наборам ключевых слов.
Кроме веб-интерфейса Quintura рзработала и программу, которую можно скачать и загрузить на свой компьютер, для того чтобы осуществлять визуальный поиск по большему количеству систем (Quintura Search).
Copernic
Интересной и работоспособной программной разработкой для метапоиска в Сети является программа Copernic (при желании можно обратиться и к веб-интерфейсу поисковика, но он не так интересен, как программа). Программа Copernic сущетсвует уже достаточно давно, сегодня актуальной является шестая версия, которая доступна в нескольких версиях. Достаточно загрузить базовую версию, которая распространяется бесплатно и обладает неплохим инструментарием, чтобы понять интересна ли и удобна ли Вам такая настольная версия поискового агрегатора (программа распространяется в английском, французском, немецком и испанском интерфейсах).

Программа Copernic - удобное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый и предметный домен, задавать состав глобальных поисковых машин. Бесплатная версия программы хоть и несколько ограничена в возможностях, но вполне работоспособна (главный недостаток этой версии - отсутствие поиска по базе Google). Базовая версия позволяет задавать запросы (), в том числе используя язык запросов, позволяет определять область поиска (), сохранять и группировать ранее вводимые поисковые запросы и собственно результаты поиска (). Функции сохранения весьма полезны, так как позволяют не терять уже однажды найденные материалы.

В информатике

Кластеризация результатов поиска — используется для «интеллектуальной» группировки результатов при поиске файлов,веб-сайтов, других объектов, предоставляя пользователю возможность быстрой навигации, выбора заведомо болеерелевантного подмножества и исключения заведомо менее релевантного — что может повысить юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка.

Clusty[1] — кластеризующая поисковая машина компании Vivísimo

Nigma — российская поисковая система с автоматической кластеризацией результатов

Quintura — визуальная кластеризация в виде облака ключевых слов

Сегментация изображений (англ. image segmentation) — Кластеризация может быть использована для разбиения цифрового изображения на отдельные области с целью обнаружения границ (англ. edge detection) или распознавания объектов.

Интеллектуальный анализ данных (англ. data mining) — Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.

Справочные интернет-ресурсы по истории: типы и примеры.