русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Назначение сервиса SE


Дата добавления: 2015-01-16; просмотров: 1198; Нарушение авторских прав


Сервис SE (Search Engine) – поисковые системы -это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Установлено, что 85% пользователей Интернет используют поисковые системы, чтобы найти необходимые им товары, услуги и информацию.

Поисковые системы отличаются от тематических каталогов. Они представляют собой серверы с огромной базой URL-адресов, которые автоматически обращаются к Web-страницам по этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц (индексируют страницы). Более того, эти серверы обращаются по всем встречаемым на страницах ссылкам и, переходя к новым страницам, проделывают с ними то же самое. Так как почти любая Web-страница имеет множество ссылок на другие страницы, то при подобной работе поисковая система в конечном результате теоретически может обойти все сайты в Internet.

Поисковая система состоит из следующих основных компонентов:

1. Паук (spider) - программа, которая скачивает Web-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (можно сделать «просмотр html-кода» в браузере, чтобы увидеть «сырой» html-текст).

2. Путешествующий паук (crawler) - программа, которая выделяет все ссылки, присутствующие на странице. Ее задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

3. Индексатор (indexer)- программа, которая разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. Результатом анализа является index-файл.



4. База данных (database) - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страницы. Иногда базу данных называют индексом поисковой системы.

5. Система выдачи результатов (search engine results engine) - занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. С этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче с помощью определенных факторов, влияющих на ранжирование результатов.

6. Web-сервер (Web - server) – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Web-сервертакже отвечает за выдачу результатов пользователю в виде html-страницы.

Детальная реализация поисковых механизмов может отличаться друг от друга. Например, связка spider+crawler+indexer может быть выполнена в виде единой программы, которую называют поисковым роботом. Она скачивает известные Web-страницы, анализирует их, ищет по ссылкам новые ресурсы, индексирует их и заносит в базу данных в виде index-файла. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла. Однако всем поисковым системам присущи описанные общие черты.

 



<== предыдущая лекция | следующая лекция ==>
Методические указания | Критерии ранжирования документов


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.57 сек.