русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Структура поисковой системы


Дата добавления: 2013-12-23; просмотров: 1541; Нарушение авторских прав


Все поисковые системы Интернета состоят из следующих базовых компонентов:

· Веб-паук (англ. web spider).

· Индексатор.

· Поисковая машина.

Веб-паук представляет собой программу, которая обходит страницы с заданными URL, скачивает их в базу данных, а затем архивирует и перекладывает в хранилище один раз в сутки. Робот размещается на нескольких машинах, каждая из которых выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не известны поисковой системе, а на другой - страницы, которые были скачены не менее месяца, но и не более года назад. При этом все машины используют одно и то же хранилище.

При необходимости, работу можно распределить другим способом: например, разбив список URL на N частей и раздав их N машинам. Параллельная работа веб-паука на нескольких машинах позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. Данные, которые собирает веб-паук, размещаются в индексной базе.

Индексатор – это программа, которая занимается обработкой страниц, скаченных при помощи веб-паука. Ее задача – «прочесть» все документы, извлечь из них слова и разместить их в специальную базу данных - индекс. Информация, находящаяся в хранилище в сжатом виде, делится на несколько частей. Эти части постепенно распределяются между машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета, а вся обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается при помощи добавления машин в систему.



После того, как вся информация обработана, начинается объединение (слияние) результатов, а также расстановка помет: откуда взят тот или иной документ.

Поисковая машина – обеспечивает точность и корректность обработки данных. От ее особенностей зависит, насколько быстро и точно пользователь найдет то, что его интересует. Когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Наиболее популярными в настоящее время являются поисковые системы: Rambler (www.rambler.ru), Yandex (www.yandex.ru), Google (www.google.ru), Altavista (www.altavista.com), Yahoo! (www.yahoo.ru).



<== предыдущая лекция | следующая лекция ==>
Поисковые системы | Правила поиска


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.003 сек.