русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Методические указания


Дата добавления: 2015-01-16; просмотров: 624; Нарушение авторских прав


 

При изучении этого раздела пособия, содержащего описание принципов работы поисковых систем, необходимо усвоить следующее:

• сервис SE (поисковые системы) - это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу;

• поисковая система включает в себя следующие основные компоненты: паук, путешествующий паук, индексатор, база данных, система выдачи результатов, Web-сервер;

• паук - программа, которая скачивает веб-страницы в html-коде для последующей их обработки;

• путешествующий паук - программа, которая выделяет все ссылки, присутствующие на странице, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе;

• индексатор - программа, которая разбирает страницу на составные части, анализирует (индексирует) их по определенным признакам и формирует index-файл;

• база данных - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страниц;

• система выдачи результатов - занимается ранжированием страниц на соответствие запросу пользователя и определяет порядок выдачи результата поиска;

• Web-сервер – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы;

• архитектура поисковой системы включает в себя две составные части: поисковый робот (паук + путешествующий паук + индексатор), который непрерывно индексирует Web-страницы и заносит их в базу данных в виде index-файлов, и системы выдачи результатов, которая извлекает запрашиваемую пользователем информацию из index-файла;

• для ранжирования страниц в поисковой выдаче используются текстовые критерии, ссылочные критерии и критерии пользовательской оценки;

• релевантность документа - показатель, отражающий соответствие содержания документа конкретному запросу поисковой системы;



• для оценки значимости фрагментов текста применяют формулу Г. Луна;

• для выявления ключевых слов обычно использует статистический частотный анализ по методике В. Пурто;

• в основе ссылочного критерия лежит индекс цитирования, определяемый числом и значимостью ссылок на других сайтах на искомый ресурс;

• ссылочный критерий PageRank - это вероятность пользователя попасть на конкретный документ в зависимости от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот документ;

 

• в качестве критерия пользовательской оценки используется коэффициент популярности, определяемый числом пользователей, которые просматривали данную страницу за последние несколько недель;

• формула релевантности документа в целом учитывает релевантность текста документа, релевантность текста с учетом ссылок с других документов и PageRank этого документа;

• основными международными поисковыми системами являются Google, Yahoo и MSN Search, русскоязычного Internet - поисковые системы Яndex, Google, Rambler.

 



<== предыдущая лекция | следующая лекция ==>
Поисковая система Rambler | Назначение сервиса IRC


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.141 сек.