Все поисковые системы Интернета состоят из следующих базовых компонентов:
· Веб-паук (англ. web spider).
· Индексатор.
· Поисковая машина.
Веб-паук представляет собой программу, которая обходит страницы с заданными URL, скачивает их в базу данных, а затем архивирует и перекладывает в хранилище один раз в сутки. Робот размещается на нескольких машинах, каждая из которых выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не известны поисковой системе, а на другой - страницы, которые были скачены не менее месяца, но и не более года назад. При этом все машины используют одно и то же хранилище.
При необходимости, работу можно распределить другим способом: например, разбив список URL на N частей и раздав их N машинам. Параллельная работа веб-паука на нескольких машинах позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. Данные, которые собирает веб-паук, размещаются в индексной базе.
Индексатор – это программа, которая занимается обработкой страниц, скаченных при помощи веб-паука. Ее задача – «прочесть» все документы, извлечь из них слова и разместить их в специальную базу данных - индекс. Информация, находящаяся в хранилище в сжатом виде, делится на несколько частей. Эти части постепенно распределяются между машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета, а вся обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается при помощи добавления машин в систему.
После того, как вся информация обработана, начинается объединение (слияние) результатов, а также расстановка помет: откуда взят тот или иной документ.
Поисковая машина – обеспечивает точность и корректность обработки данных. От ее особенностей зависит, насколько быстро и точно пользователь найдет то, что его интересует. Когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.
Наиболее популярными в настоящее время являются поисковые системы: Rambler (www.rambler.ru), Yandex (www.yandex.ru), Google (www.google.ru), Altavista (www.altavista.com), Yahoo! (www.yahoo.ru).