русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Раздел 1. Поиск информации


Дата добавления: 2014-11-28; просмотров: 2227; Нарушение авторских прав


Тема 1.1
Поисковые инструменты. Организация поиска

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, более 300 миллионов пользователейвсех континентов, и, по разным оценкам, число таких пользователей увеличивается на 15-80% ежегодно. Интернет предоставляет оперативный доступ к огромным объемам информации по любой тематике, помогает осуществлять поиск и интерактивное общение с партнерами, практически, по любой специализации и в любом регионе земного шара. У пользователя появляется необходимость найти сведения по какому-либо вопросу. На языке теории информационного поиска это называется информационной потребностью. Интернет предоставляет такую возможность.

Интернет как информационное хранилище интересен своими материалами, накопившимися за десятки лет его существования. Как сориентироваться в таком колоссальном информационном пространстве, которое предоставляет для нас Интернет?

При решении данной проблемы на помощь приходят поисковые инструменты. Поисковые инструменты (ПИ) – это специальное программное обеспечение, основная задача которого – обеспечить оптимальный поиск информации в Интернете. Размещаются ПИ на специальных серверах, и каждый из них выполняет следующие четыре основные задачи:

1) анализ Web-страниц;

2) занесение результатов анализа Web-страниц на тот или другой уровень базы данных поискового сервера, в зависимости от методов автоматического индексирования, т.е. методов анализа содержимого страниц;

3) поиск документов по запросу пользователя;

4) обеспечение удобного интерфейса для поиска информации и просмотра результатов поиска пользователем.

Приемы работы, используемые при работе с разными поисковыми инструментами, практически одинаковы, при этом используются следующие понятия:

- пользовательский интерфейс поискового инструмента представлен в виде HTML-страницы с активизируемыми URL-ссылками, строкой формирования запроса (строкой поиска) и инструментами активизации запроса;



- индекс поисковой системы – результат анализа Web-страниц, размещенный в базе данных поискового сервера по определенным правилам;

- запрос – фраза или ключевые слова, записываемые пользователем в строке поиска. Для формирования запроса используются специальные символы (&&, ||, "", ~), математические символы (*, +, -), булевы операторы (and, or, not, near).

Для того чтобы объяснить поисковой службе, что ей необходимо найти, пользователь вынужден некоторым образом формализовать свою информационную потребность. Процесс формализации, как правило, сводится к выявлению набора понятий и терминов, характеризующих информационную потребность, и определению отношений между ними. Такие понятия и термины получили название ключевых слов, а выделенное множество ключевых слов с зафиксированными отношениями между ними именуются запросом.

Пользователь, набрав ключевые слова и активизировав поиск, получает список документов по сформулированному (заданному) запросу. Список документов, отобранных информационно-поисковой системой, обычно называют выдачей или откликом, а меру соответствия отклика запросу или информационной потребности – релевантностью отклика. Этот список ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных Web-страниц). Вследствие этого, если вы укажете в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, получите различные результаты поиска.

Для результатов поиска информации в Интернет можно выделить четыре основных характеристики:

- полнота;

- точность;

- актуальность;

- скорость получения.

На каждую их этих характеристик влияет ряд факторов, о которых должен знать пользователь, приступая к поиску. Часть из них являются объективными, т.е. пользователь не может повлиять на них. Однако три основных фактора пользователь должен учитывать при проведении поисковых работ. К ним относятся:

1) выбор информационно-поискового пространства внутри сети;

2) особенности информационно-поисковой системы;

3) качество построения запроса.

Каждый из поисковых инструментов предлагает два способа поиска, простой (Simple Search) и расширенный (Advanced Search), во втором случае – с использованием специальной формы запроса, в первом – без нее.

Освоив критерии уточнения запроса и приемы расширенного поиска, вы можете увеличить эффективность поиска и достаточно быстро найти нужную информацию. Прежде всего, увеличить эффективность поиска можно за счет использования в запросах логических операторов (операций) or(или), and (и), near(близко) not (не), математических и специальных символов. С помощью операторов и/или и символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска.

Ниже приведены таблицы с примерами использования простых и расширенных запросов с использованием булевых операторов:

Простой запрос
образование
образован*
высшее образование
“высшее образование”

 

Во втором примере используется символ звездочка. Это означает, что ищутся все документы по данной маске, т.е. все словообразования от слова «образование» и само это слово в разных падежах.

В третьем примере записаны просто ключевые слова, поэтому в выдаваемом списке документов по такому запросу между данными ключевыми словами могут располагаться и другие слова, союзы и т.д.

В последнем примере использование кавычек – “высшее образование” означает поиск целой фразы.

Простой запрос дает значительное количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание.

Расширенный запрос с использованием булевых операторов.

Расширенный запрос с использованием булевых операторов
высшее and образование
высшее not среднее and образование
высшее near образование

 

Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшит количество найденных документов.

При формировании запроса можно использовать математические знаки. «Плюс» (+), поставленный перед любым словом запроса, заставит поисковик обязательно учесть это слово при обработке запроса. «Минус» (-) соответствует оператору (НЕ) и работает на исключение термина из результатов. Таким образом, оператор НЕ - первое средство уточнения слишком широких запросов. Знаки (+ и -) ставятся в запросе перед нужным словом, при этом они не должны отделяться от него пробелами.

Еще один способ сузить поиск – использовать специальныеключевые слова. Специальным образом записанные ключевые слова представлены в следующей таблице. Однако использовать их надо очень внимательно, так как не все поисковые инструменты поддерживают поиск по перечисленным ключевым словам. Чтобы удостовериться, какие ключевые слова поддерживаются данным поисковым инструментом, следует просматривать его справочную информацию или гиперссылку Помощь.

 

host: <адрес_узла> Выдает список документов с узлов, в имени которых присутствует значение, введенное в параметре <адрес_узла>. Например, по запросу host: www.skags.ruбудет получен список документов, расположенных на сервере, чей адрес www.skags.ru(рис.1.1)
url: <текст> Находит страницы, в адрес которых входит определенное слово или фраза. Указав url: Microsoft, вы найдете все страницы, адреса (URL) которых содержат слово Microsoft (рис.1.2)
link: <URLтекст> Находит документы, на которых есть ссылка на указанный URL. Запрос link: altavista.com поможет найти все страницы, которые содержат ссылку на AltaVista(рис.1.3)
image <текст> Находит документы с изображениями, в название или описание которых входит слово, введенное в качестве параметра текст. Например, по запросу image Russia мы получим список адресов документов, в которых содержится изображение, в состав имени или описания которого входит слово Russia(рис.1.4)
title <текст> Находит документы, в заголовок которых входит указанная фраза (имеется в виду название документа, которое отображается в строке заголовка при открытии документа в браузере). Запрос title Windows 7 поможет найти страницы со словом Windows 7в заголовке.

Примеры использования специальных ключевых слов в разных поисковых системах приведены ниже.

Рис.1.1. Использование специального ключевого слова host

 

Рис.1.2. Использование специального ключевого слова url

Рис.1.3. Использование специального ключевого слова link

Рис 1.4. Использование специального ключевого слова image

Рис 1.5. Использование специального ключевого слова title

Тема 1.2
Поисковые серверы

Путь к огромному информационному багажу человечества, хранящемуся в библиотеках, фонотеках, фильмотеках, лежит через карточки каталогов. В Интернет существуют аналогичные механизмы для нахождения требуемой информации. Это поисковые серверы, служащие отправной точкой для пользователей сети. Поисковые серверы можно разделить на тематические каталоги (поисковые каталоги), роботы индексов(поисковые машины или поисковые системы), системы мета поиска.

Тематические каталоги Интернета аналогичны библиотечным, информация в них имеет иерархическую структуру, классифицирована по темам, охватывающим все сферы деятельности человека: искусство, науку, образование и т.д. Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут, когда предметная область очерчена, но поиск не конкретизирован. Входя в любой раздел, пользователь видит все более и более дробную детализацию. Здесь возможен и поиск информации по ключевому слову.

Каталоги возникли из интересных ссылок, закладок. Они строятся по принципу от общего к частному. Каталоги могут быть:

1) общего назначения (включают ресурсы всех сфер жизнедеятельности человека);

2) специализированные (объединяют ресурсы, посвященные определенной тематике).

Ведение каталогов частично автоматизировано, но до сих пор классификация ресурсов осуществляется вручную. Каталоги не самообновляются.

Рассмотрим наиболее популярные, на наш взгляд, поисковые каталоги: русские и глобальные. Ниже представлены названия каталогов и их адреса в Интернет.

Русские Глобальные
Russia-on-the Net www.ru Yahoo www.yahoo.com
List www.list.ru InfoSeek www.infoseek.com
Up www.up.ru    
@trus www.atrus.ru    

 

Рассмотрим поисковые системы и их особенности. Эти системы еще называют роботами индексов или поисковыми машинами.

Поисковые машины устроены несколько иначе по сравнению с поисковыми каталогами. По сути это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылкам и, переходя к новым страницам, проделывает с ними тоже самое. Все ссылки помещаются в базу данных. Пользователи используют ключевые слова, которые поисковая система ищет по базе данных. Выдача результатов поиска состоит из выдержек рекомендованных пользователю страниц, их адресов (URL), оформленных в виде гиперссылок.

В случае поисковых систем огромный объем информации обрабатывается автоматически. Для поисковых систем характерно самообновление.

Рассмотрим наиболее популярные на наш взгляд поисковые системы: русские и глобальные. Конечно, в Интернете поисковых систем значительно больше, но, на наш взгляд, представленные являются наиболее популярными и востребованными.

 

Русские Глобальные
RAMBLER www.rambler.ru AltaVista www.altavista.com
YANDEX www.yandex.ru LYCOS www.lycos.com
АПОРТ www.aport.ru EXCITE www.exite.com
    HOTBOT www.hotbot.com

 

 

Тема 1.3
Поиск информации в Интернет

Стратегии, применяемые для поиска информации в Интернет, постоянно совершенствуются. ПоисквWebэто во многом искусство, основанное на знании самой сети, возможностях поисковых систем и, в значительно меньшей степени, – на возможностях конкретного браузера. Как правило, браузеры имеют панель, с помощью которой можно выполнять функции по поиску в Web.

Преимущество такой панели состоит в том, что вы можете отправить запрос на несколько серверов с одной страницы, значительно экономя время, потому что не надо загружать заглавные страницы этих поисковых серверов друг за другом. Подобные средства, обеспечивающие доступ сразу к нескольким поисковым системам, называются мета-поисковыми средствами поиска.

К сожалению, подобные средства мета-поиска отнюдь не свободны от недостатков. Главный из них состоит в том, что мета-поиск на поддерживаемых серверах осуществляется по наиболее упрощенной методике (Simple Search). Это связано с тем, что каждая поисковая система имеет свой набор дополнительных опций по сужению области поиска, применению булевых операторов и т. д. Естественно, что в случае простого «поиска» (Simple Search) из поля зрения выпадают документы, которые могли бы быть найдены при более тщательном поиске продвинутыми средствами конкретного сервера.



<== предыдущая лекция | следующая лекция ==>
Введение | Как улучшить результаты поиска?


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.005 сек.