русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Поиск во Всемирной паутине


Дата добавления: 2014-11-28; просмотров: 733; Нарушение авторских прав


В web размещены миллионы сайтов, причем с актуальной информацией соседствует много устаревших ресурсов, мусора и недобросовестной рекламы.

Интернет - это наиболее демократичный источник информации. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В этом одновременно сила и слабость Всемирной сети.

Находить информацию в Интернете, вероятно, было бы очень трудно, если бы не были созданы мощные поисковые инструменты: поисковые машины (поисковики), каталоги-рейтинги (рубрикаторы), тематические списки ссылок, онлайновые энциклопедии и словари.

Для поиска разного рода информации наиболее эффективными оказываются различные инструменты.

Каталоги ресурсов

Каталог имеет иерархическую структуру. Тематические разделы первого уровня определяют максимально широкие темы, такие как "спорт", "отдых", "наука", "магазины" и т.д. В каждом таком разделе могут быть подразделы. Пользователь может уточнять интересующую его область, путешествуя по дереву каталога и постепенно сужая зону поиска. Например, при поиске информации о ноутбуках цепочка поиска может выглядеть так: Информационные технологии -> Компьютеры -> Ноутбуки. Дойдя до нужного подкаталога, пользователь находит в нем набор ссылок.

Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если ведется поиск общей информации по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

Часто каталоги ресурсов одновременно являются и рейтингами, т.е. каталог предлагает зарегистрированным в нем сайтам установить на своих страницах счетчик посещений, и отображает списки ссылок на сайты в соответствии с их популярностью (посещаемостью). Популярность ресурса оценивается по ряду параметров, в том числе по так называемым хостам (количество уникальных посетителей в сутки) и хитам (количество заходов на сайт в сутки).



Одним из наиболее популярных каталогов-рейтингов является Rambler's Top 100. (http://top100.rambler.ru/top100/). Часто бывает интересно оценить состояние не общероссийских, а региональных ресурсов по конкретной тематике. Для обзора web-ресурсов Красноярска и края можно рекомендовать каталоги-рейтинги ресурсов Krasland (http://www.krasland.ru/) и Сталкер (http://www.stalker.internet.ru/).

Поисковые машины

Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу. Современные поисковые машины осуществляют поиск по контексту, т.е. словам, содержащимся в запросе, учитывая вариации словоформ и расширяя запросы синонимами. Но смысла компьютеры не понимают, поэтому в списке ответов на запрос, наряду с релевантными вашему запросу документами, вы можете получить и те, которые вам никоим образом не подходят.

Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.

Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.

Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Иными словами, справочная служба имеет две функции: 1) создание и постоянное обновление данных в базе и 2) поиск информации в базе по запросу клиента.

Аналогично, поисковая машина состоит из двух частей: так называемого поискового робота (или паука), который обходит серверы Сети и формирует базу данных, и механизма поиска релевантных запросу пользователя ссылок в базе.

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренней базой данных (а не пускается в путешествие по Сети). Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет.

Наиболее популярными на сегодня поисковыми системами являются Google (www.google.com, www.google.ru) и Яндекс (www.yandex.ru).

Онлайновые энциклопедии и справочники

В ряде случаев бывает нужно найти не просто документ, содержащий ключевое слово, а именно толкование некоторого слова. При поиске незнакомого термина с помощью поисковой машины вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. Подобный поиск предпочтительнее проводить в онлайновой энциклопедии.

Одной из крупнейших онлайновых энциклопедий является ресурс "Яндекс. Энциклопедии" (http://encycl.yandex.ru/) - этот проект содержит 14 энциклопедий, в том числе статьи из Большой Советской Энциклопедии и "Энциклопедию Брокгауза и Эфрона". К крупным относится и "Энциклопедия Кирилла и Мефодия" (http://www.km.ru).

Помимо переноса в гипертекстовую среду традиционных словарей бурно развиваются энциклопедические wiki-проекты. Ви́ки — веб-сайт для сбора и структуризации письменных сведений. Характеризуется тем, что наполнять и редактировать размещаемую на нем информацию могут все посетители. http://ru.wikipedia.org/ - википедия на русском языке — часть многоязычного проекта, целью которого является создание полной энциклопедии на всех языках Земли.



<== предыдущая лекция | следующая лекция ==>
Web-сайт организации | История Всемирной паутины


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.91 сек.