При изучении этого раздела пособия, содержащего описание принципов работы поисковых систем, необходимо усвоить следующее:
• сервис SE (поисковые системы) - это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу;
• поисковая система включает в себя следующие основные компоненты: паук, путешествующий паук, индексатор, база данных, система выдачи результатов, Web-сервер;
• паук - программа, которая скачивает веб-страницы в html-коде для последующей их обработки;
• путешествующий паук - программа, которая выделяет все ссылки, присутствующие на странице, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе;
• индексатор - программа, которая разбирает страницу на составные части, анализирует (индексирует) их по определенным признакам и формирует index-файл;
• база данных - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страниц;
• система выдачи результатов - занимается ранжированием страниц на соответствие запросу пользователя и определяет порядок выдачи результата поиска;
• Web-сервер – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы;
• архитектура поисковой системы включает в себя две составные части: поисковый робот (паук + путешествующий паук + индексатор), который непрерывно индексирует Web-страницы и заносит их в базу данных в виде index-файлов, и системы выдачи результатов, которая извлекает запрашиваемую пользователем информацию из index-файла;
• для ранжирования страниц в поисковой выдаче используются текстовые критерии, ссылочные критерии и критерии пользовательской оценки;
• для оценки значимости фрагментов текста применяют формулу Г. Луна;
• для выявления ключевых слов обычно использует статистический частотный анализ по методике В. Пурто;
• в основе ссылочного критерия лежит индекс цитирования, определяемый числом и значимостью ссылок на других сайтах на искомый ресурс;
• ссылочный критерий PageRank - это вероятность пользователя попасть на конкретный документ в зависимости от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот документ;
• в качестве критерия пользовательской оценки используется коэффициент популярности, определяемый числом пользователей, которые просматривали данную страницу за последние несколько недель;
• формула релевантности документа в целом учитывает релевантность текста документа, релевантность текста с учетом ссылок с других документов и PageRank этого документа;
• основными международными поисковыми системами являются Google, Yahoo и MSN Search, русскоязычного Internet - поисковые системы Яndex, Google, Rambler.