русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

ИПС глобальных сетей


Дата добавления: 2014-11-28; просмотров: 1377; Нарушение авторских прав


ИПС глобальной сети имеет отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС в глобальной сети на примере сети Интернет


 

Схематично ИПС для Интернета выглядит так, как показано ниже

 

Запрос Client (клиент) на этой схеме — это программа просмотра конкретного информа­ционного ресурса. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet.

В свою очередь, все эти информационные ресурсы являются объектом поиска ин­формационно-поисковой системы.

User interface (пользовательский интерфейс) — способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотра результа­тов поиска.

Search engine (поисковая машина) — служит для трансляции запроса на ин­формационно-поисковом языке, в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользо­вателю.

Index database (индекс базы данных) — индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса.

Queries (запросы пользователя) — сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот индексирования) — служит для просмотра данных в Интер­нете и поддержания базы данных индекса в актуальном состоянии. Эта програм­ма является основным источником информации о состоянии информационных ресурсов сети.

WWW sites — это весь Интернет, или, точнее, информационные ресурсы, про­смотр которых обеспечивается программами просмотра.

Как мы видим, источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, которая по определенному алгоритму «заходит на различные страницы, «читает» их и индексирует.



Индекс поисковых систем Интернета обновляется с периодичностью около недели. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например, периодических изданий, так как выходят они заведомо чаще, чем об­новляется индекс.

Еще одна проблема заключается в том, что не все документы хранятся в виде фай­лов HTML, с которыми роботу работать легче всего. Если информация хранится в другом формате, может сложиться ситуация, когда адрес страницы, выдаваемой пользователю, содержит параметры, которые робот не знает, и, следовательно, он не может ее идентифицировать.

Объем информации, опубликованной в Интернете, приводит также к ограниче­нию количества терминов, которыми индексируется документ. Современные ИПС в Интернете используют порядка 100 терминов для индексации документа. Выбор терминов, используемых для индексации, зависит от реализации данной системы. Чаще всего первым критерием является отношение частоты употребле­ния термина в документе к частоте употребления этого термина во всех ранее про­индексированных документах. То есть наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко — во всех остальных проиндексированных документах. Термины, которые используются в очень большом количестве документов, при индексировании не исполь­зуются совсем.

Для определения терминов индексирования, используемых для создания поиско­вого образа, робот может также использовать разметку индексируемой страницы. И в индексе присваивать наибольший вес термину, используемому, например, в заголовке. Автор информационного ресурса также может повлиять на индексацию собственной страницы, указав роботу, какие термины надо использовать для ин­дексирования. Но многие поисковые системы отказались от использования описа­ний ресурсов, представленных авторами. Это было сделано по причине недобросове­стности некоторых авторов, которые использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах.

Так как на запрос могут быть выданы ссылки на сотни ресурсов, необходимо пре­доставить пользователю отсортированный список. Наиболее часто используется сортировка по релевантности. Она происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании.

Как уже отмечалась ранее, произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема принима­ет глобальный же характер.

Очень сильно усложняется поиск по причине непрофессионализма как пользова­теля, формулирующего запрос, так и автора информационного ресурса. И если непрофессионализм пользователя метает лишь ему самому (если не считать не­производительной загрузки поискового сервера), то непрофессионализм автора ресурса стоит гораздо больше. Многие отмечают все время растущий уровень шума в результатах, выдаваемых на запрос.

Для уменьшения уровня этого шума может использоваться платная регистрация ресурса, которая подразумевает, что автор ответственно относится к его содержимо­му. Существует, например, система платной регистрации RealNames. База данных этой службы используется некоторыми поисковыми системами. Ресурсы, зареги­стрированные в базе RealNames, будут помещаться в начало списка найденных документов.



<== предыдущая лекция | следующая лекция ==>
Интерфейс системы | Справочно-правовые системы


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.005 сек.