Методы поиска информации в Интернете Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен несколькими методами, значительно различающимися как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит. Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом: - Непосредственный поиск с использованием гипертекстовых ссылок - Использование поисковых машин - Поиск с применением специальных средств - Анализ новых ресурсов
Непосредственный поиск с использованием гипертекстовых ссылок Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей сотни миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска. Использование поисковых машин Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса. Поиск с применением специальных средств Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки. Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен. Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств. Анализ новых ресурсов Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике. Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.
Технология поиска с использованием поисковых машин Рассмотрим основные этапы, которые так или иначе присутствуют при поиске информации с использованием поисковых машин. Определение географических регионов поиска Поскольку проведение информационного поиска преследует практические цели - маркетинговые, производственные, сугубо утилитарные и тому подобные, - практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника. Составление тезауруса Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов. Использование законов Зипфа Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке: С = (частота вхождения слов X ранг частоты) / число слов Это значит, что график зависимости ранга от частоты - равносторонняя гипербола. Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка. Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику. Составление списка ключевых слов Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. К примеру, задав поисковой машине в качестве ключевого слова "МАРП", мы получим список документов, в которых встречается эта аббревиатура (Московское Агентство по Развитию Предпринимательства). Но если нас интересуют документы по более широкой теме, например: развитие предпринимательства, и мы сформируем простой запрос из этих двух слов, то поисковая машина выдаст нам список из сотен тысяч наименований, ориентироваться в котором будет весьма непросто. Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом: - Удаление из текста стоп-слов. - Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты. - Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста. - Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов. Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала. Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно. Отбор поисковых машин Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины. Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов. Составление и выполнение запросов к поисковым машинам Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа. Формирование запросов Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации. Языки запроса различных машин поиска в основном являются сочетанием следующих функций:
Операторы булевой алгебры AND, OR, NOT: AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором; OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
Операторы расстояния - ограничивают порядок следования и расстояния между словами, например: NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY - термины следуют в заданном порядке; ADJ - термины, соединенные оператором, являются смежными.
Возможность усечения терминов - использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
Возможность поиска по словосочетанию, фразе.
Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
Ограничения по дате опубликования документа.
Ограничения на количество совпадений терминов.
Возможность поиска графических изображений.
Чувствительность к строчным и прописным буквам.
Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
ИПС крупным планом: особенности, способности, инструменты Google и Яндекс.
До появления на мировой арене поисковых систем Google, поиск нужной информации в мировой паутине в большинстве случаев основывался на методе научного тыка, долго и нудно приходилось разгребать эту гору информации, вываливаемую на тебя поисковиком. Благодаря идеи сортировки по бэклинкам(backlinks) страниц, выдаваемых при запросе, реализованной в Гугле, шанс “нарваться” на нужную информацию с первых попыток стал гораздо реальней. И это при том, что более 70% пользователей не используют все возможности поиска в Гугле. А возможностей у него предостаточно. В этот статье будет приведен перечень всех наиболее ценных инструментов поиска. Логические операторы В арсенале популярнейшего в мире поисковика всего два логических оператора: AND (поиск по всем словам) либо OR (по каждому в отдельности). Используя эти операторы, можно строить более гибкие запросы. Например: Компьютеры (Новости AND События AND Выставки) Увидев такое, Google отыщет для вас страницы, на которых встречается упоминание слова “компьютеры” в контексте новостей, событий или выставок. Теперь поговорим о минусах. Предположим, вас интересует все, что связано с именем Билл, но совершенно не интересует Билл Гейтс. Что в этом случае вы делаете? Очень просто - используете минус: Билл -Гейтс Приведенная конструкция однозначно даст понять Google, что вас интересуют все страницы, в которых упоминается имя Билл, за исключением тех, где упоминается фамилия Гейтс. Похожие слова Для того, чтобы Google искал слова, похожие на заданное, используйте символ “~” (тильда). Будут найдены синонимы и слова с альтернативными окончаниями. Пример: ~hippo (по запросу будет так же найдено, например, слово hyppopotamus). Кавычки Если вам необходимо найти определенную фразу дословно, можно использовать кавычки. Пример: “Hotel California” (аналогичный запрос без кавычек вернул бы не только ссылки на все упоминания одноименной песни, но и на множество сайтов тур-операторов и гостиниц). Маски Символ “*” можно использовать как маску - условное обозначение произвольного количества любых символов. Это может быть полезно, например, если вы пытаетесь найти текст песни, но не можете при этом точно вспомнить слова. Или отыскать сайт, домен которого запомнился только отчасти. Пример: welcome to the hotel * such a lovely place; *pedia.org. Числовые интервалы Google использует также менее известный оператор массива цифр. Например, поиск с использованием 2000..2005 выдаст результаты, которые будут включать в себя следующие года: 2000, 2001, 2002 и так далее до 2005. Использование того же оператора таким образом ..31 позволит найти страницы, содержащие числа меньше 31, а поиск 31.. найдёт страницы с числами больше 31. Поиск лиц У поисковика картинок есть интересная (и, на сколько мне известно, пока официально недокументированная) возможность - выделять из всего множества найденных изображений лица. Для того, чтобы этим воспользоваться, необходимо добавить к URL результата поискового запроса дополнительный GET-параметр imgtype=face. Пример: http://…/images?q=Audrey+Tautou&imgtype=face Расширенный поиск Если вы забыли какой-либо из перечисленных операторов, всегда можно воспользоваться формой расширенного поиска. Информация о сайте С помощью оператора info: можно получить известную Google информацию об указанном сайте. Пример: info:webostrovok.ru. Калькулятор Одной из полезных и при этом малоизвестных возможностей Google является вычисление арифметических выражений. Во многих случаях это быстрее, чем использование программы калькулятора. В выражениях можно использовать операторы +, -, *, /, ^ (степень), sqrt (квадратный корень), sin, cos, tan, ln, lg, exp (ex), скобки и много чего еще. Пример: sqrt(25 * 25) * 768. Преобразователь единиц измерения Google можно использовать для быстрого преобразования метров в ярды, килограммов в фунты, литров в джоули. Для этого используется абсолютно естественный для человеческого понимания синтаксис. Пример: 16 tons in pounds. По тому же принципу можно выполнять преобразования между суммами в различных валютах. Например: 15 Ruble in USD. Курсы валют Google узнаёт из Citibank N.A. Ответ на главный вопрос жизни, вселенной и всего такого Google знает ответ даже на этот сакраментальный вопрос (если он будет записан по-английски в нижнем регистре). Дополнительные команды Google site: Пожалуй, одна из самых полезных и наиболее употребительных команд. Позволяет ограничить поиск поддоменами указанного домена. Звучит запутанно, но на практике все гораздо проще. Предположим, нас интересуют статьи, которые публиковала gazeta.ru о выборах на Украине. В строке запроса пишем: Выборы на Украине site:gazeta.ru. Можно не ограничиваться конкретным сайтом, а задать, к примеру, область. Выглядеть это будет следующим образом: Программирование site:narod.ru. Тогда Google будет осуществлять поиск во всех поддоменах narod.ru. link: Возвращает список страниц, которые ссылаются на заданный сайт. Для наглядности, введите link:kv.by и получите список страниц, ссылающихся на сайт “КВ”. Это просто незаменимый инструмент мониторинга для тех, кто занимается “раскруткой” сайтов. Да и простым обладателям домашней странички тоже наверняка будет любопытно. cache: Находит копию страницы, проиндексированной Google, даже если эта страница уже недоступна по адресу в интернете или изменила свое содержание. Иными словами - поиск в кэше Google. Пригодится для просмотра страниц, контент которых часто меняется. Выглядит так: cache:www.gazeta.ru. intitle:
Ограничивает ваш поиск только заголовком страницы. Говоря техническим языком -содержимым тэга <title>. Для примера демонстрационный запрос intitle:первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первую полосу русскоязычных интернет-газет. inurl: По этой команде поиск будет проводиться только в URL. Обычно эту инструкцию используют не по одиночке, а вместе с другими, когда хотят отыскать страницу поиска или с хелпом. Например, команда inurl:search выведет список страниц, у которых в адресе встречается слово search, как в этих случаях: search.aol.com или home.netscape.com/home/internet-search.html. Нередко эту команду используют хакеры, чтобы находить скрипты проверки пароля, на которые нет ссылок с главной страницы сайта. intext: При поиске не учитываются заголовки страниц и ссылки, просматривается только текст тела страницы (который заключен в теге <body>. Это бывает полезно, когда вы разыскиваете некий кусочек текста и вам, по большому счету, безразлично, какой у страницы заголовок и какие ссылки. inanchor: Поиск в тексте якоря вы сможете реализовать, пользуясь приведенной командой. Текст якоря - это, по большому счету, описание ссылки. Иллюстрируем на примере HTML-кода <a href=”www.kv.by>Компьютерные Вести</a>, под воздействием команды inanchor: поисковик обработает только текст “Компьютерные Вести”, это и есть текст якоря. filetype: Еще одна чрезвычайно полезная команда. Позволяет искать в интернете файлы с заданным расширением. Однако будьте внимательны, параметры команды понимаются Google слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает некоторые наиболее популярные форматы от Microsoft: PPT, XLS и DOC. Кроме того, вы можете искать даже скрипты, созданные для динамического генерирования контента, такие, как ASP, PHP, CGI и так далее. Кстати, возвращаясь к разговору о хакерах, инструкция filetype: тоже используется ими в неблаговидных целях. К примеру, запись authorisation filetypehp может помочь злоумышленнику найти скрипт проверки пароля. И если написавший его программист был не очень грамотным специалистом, то последствия этого будут плачевны. related: Эта команда приказывает Google выводить список страниц, связанных со страницей, указанной в параметрах. Хотя слово “связанные” не совсем подходит в данном случае, скорее, лучше употребить “похожие, принадлежащие к одной категории”. Вот смотрите, команда related:google.com возвратит ряд ссылок на другие поисковые машины, такие, как Yahoo, AltaVista… Теперь, наверное, стало понятнее. В принципе, related: удобное средство, если вы хотите узнать, к какой категории относит ваш сайт Google. Или, наоборот, если хотите найти, к примеру, авторитетные информационные сайты. Именно авторитетные, потому что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, related:cnn.com, то первые позиции среди результатов будут занимать наиболее весомые издания схожей тематики: The New York Times, Washington Post и т.д. define: Используйте оператор define: для быстрого поиска определений. Пример: define:Дагестан (запрос выдаст ссылки на страницы, информирующих вас о республике Дагестан). movie: Для поиска названий фильмов удобно использовать оператор movie:. Пример: movie:One Flew Over the Cuckoo’s Nest. music: Оператор music: ограничит результаты поиска контентом, который тем или иным образом связан с музыкой. Пример: music:Depeche Mode 101. Команды-одиночки для Google Продолжая тематику интернет-поиска посредством Google, следует отметить, что есть команды, которые никогда не желают работать в паре с другими. Одной из таких является link:, если помните, она отображает все страницы, которые ссылаются на указанный в параметрах URL. Казалось, удобным было бы использовать данную команду совместно с site:, чтобы задавать еще и ограничения на домены. Скажем, разве не интересно узнать, из какой доменной зоны на ваш сайт чаще ссылаются - из .ru или из .net. Однако запрос вида link:mysite.com site:ru не произведет на Google должного эффекта, поскольку link: работает только поодиночке. Как быть в такой ситуации? Обходные пути, естественно, найдутся (недаром ведь в разработке Google принимали участие русские). Для интереса можно поэкспериментировать с такой комбинацией команд: inanchor:mysite.com -inurl:mysite.com site:ru. В данном случае логика такова: сначала мы находим сайты, у которых в описании ссылки встречается адрес нашего сайта. Далее исключаем из результата поиска сам mysite.com и его поддомены (если таковые имеются), а затем отбираем только страницы, принадлежащие к доменной зоне .ru. Этот вариант не безупречен, но главное - идея, доработать этот запрос до конкретных нужд вы сможете самостоятельно.
Несколько слов о комбинациях, которые не должны встречаться в ваших поисковых запросах. Не рекомендуется озадачивать Google взаимоисключающими запросами типа: site:linux.by -inurl:by и все в таком духе. Теперь о разрешенных комбинациях. После ряда испытаний хорошо себя проявили в совместной работе следующие команды: intitle:, site:, inurl:, filetype:. Скажем, нас интересуют архивы электронных книг на английском языке. Составляем такой запрос: books intitle:”index of” inurl:ftp. В результате получим ссылки на весьма приличные ftp-архивы. Что касается запроса, то на человеческий язык перевести его можно так: нас интересуют страницы, где встречается слово book, заголовок страницы должен содержать фразу index of (характерную для списка в ftp-архиве), а также для верности, что мы имеем дело с ftp, URL должен содержать слово ftp. Возможны различные вариации на эту тему. Это должен знать почти каждый - три запрета Google Нельзя использовать маски (*и ?) для замены символов. В поисковых системах, поддерживающих маски, вы можете ввести “мод*” и ожидать, что среди результатов поиска окажутся такие слова, как мода, модель и т.д. В Google так сделать нельзя. Звездочка используется только для замены одного слова, но не символов. Не поддерживаются запросы, состоящие из более чем 10 слов. Все, что будет следовать потом, будет игнорироваться поисковиком. Но обойти ограничение все-таки можно, если заменить наименее важные слова в запросе на символ “*”. В этом случае они учитываться не будут. Не учитывается регистр, которым вы пишете запрос. Для Google не имеет значения, в каком регистре вы будете набирать запрос - в ВЕРХНЕМ или нижнем. Результат будет одним и тем же.
Яндекс — поисковая машина, способная по вашему запросу найти в русскоязычной части интернета наиболее подходящие веб-страницы, новости, картинки, статьи энциклопедий или товары, дать ответ на вопрос о погоде или культурных событиях.