Поиск в различных поисковых системах

Возьмем три основные поисковые системы и рассмотрим механизм поиска каждой из них.

Поисковая система Google

Чтобы ввести запрос, следует напечатать ключевые слова и нажать ENTER, либо щелкнуть кнопку «Поиск в Google». Google использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы в соответствии с запросом. Для этого Google анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей запроса.
Google в настоящее время становится все более популярным поисковым сервисом.

Google реализует алгоритм ранжирования сайтов, который включает в себя более 100 различных критериев. Наиболее важными для Google в настоящее время являются четыре фактора:

• Ранжирование страницы — это абсолютная величина, которая регулярно вычисляется Google для каждой страницы, внесенной в его индекс. Необходимо помнить, что весьма важно количество и качество ссылок, ведущих с других сайтов. Последнее означает, что для увеличения удельного веса сайта, связанные с ним сайты должны иметь высокий уровень ранжирования станицы, быть богатыми контентом и регулярно обновляемыми.

• МиниРенк / Локал Ренк (MiniRank/LocalRank) — это модификация Пейдж Ренк (PageRank), основанная на структуре ссылок единственного сайта. Так как поисковые машины ранжируют страницы, а не сайты, некоторые страницы будут ранжироваться с данными ключевыми словами выше, чем другие. Локал Ренк существенно влияет на общий Пейдж Ренк.

• Текст ссылок (Anchor текст) — это содержимое ссылок, ведущих на страницу.

• Семантика — новый фактор, который приводит к наибольшим различиям в результатах. Это понятие относится к значению слов и их взаимоотношению. Согласно принципам прикладной семантики, краулер пытается определить, какие слова имеют одно и то же значение и какие всегда используются вместе.

Поисковый результат, выдаваемый Google, складывается из следующих факторов:

• Page Rank страницы.

• Ключевые слова в Anchor-тексте (тексте ссылок).

• Плотность ключевых слов на странице.

• Близость ключевых слов друг к другу.

Ключевые слова имеют больший вес, если они выделены полужирным, имеют большой размер либо находятся внутри тэга <Н1>. Здесь следует пояснить значение понятий тэги вообще и тэг <Н1>.

Тэги - это метки, которые используются для указания браузеру, как он должен показывать сайт. Все тэги имеют одинаковый формат: начинаются знаком "<" и заканчиваются знаком sign ">". Тэги позволяют структурировать разрозненную по содержанию информацию. Они представляют собой ключевые слова, связанные с той или иной страницей. Существует несколько основных тэгов, которые должны присутствовать в тексте любой веб-страницы. Каждая веб-страница обязана содержать тэг <HTML>, располагаемый в самом начале. Непосредственно за дескриптором <HTML> обычно следует тэг <HEAD>, который указывает на наличие текста, содержащего наименование страницы и дополнительные сведения о ней. В раздел HEAD обычно вложен тэг <TITLE>, служащий для обозначения наименования страницы. Затем следует тэг <BODY>, который указывает на начало собственно "тела" веб-страницы. Тэги <H1>..<H6> -маркируют заголовки разных уровней.

Вернемся к поисковй системе Google. Google постоянно проверяет качество проиндексированных ресурсов и при нарушении ряда правил исключает их из своей базы, например, если на сайте используется скрытый текст и скрытые ссылки, скрытая переадресация, страницы, субдомены и домены, в значительной степени повторяющие содержание друг друга и т.д.

Поисковая система Yandex

Поисковый робот Yandex индексирует страницы и на основании информации на них формирует поисковый индекс. Поисковая система Yandex содержит в своем индексе следующие сведения о каждом слове текста:

• номер документа;

• номер предложения;

• номер слова в предложении;

• вес каждого слова.

Вся эта информация используется при поиске. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т. д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решить типичную поисковую задачу — искать документ по "неточному цитированию".

Важными тегами для определения релевантности документа являются (в порядке значимости) слова, содержащиеся в тегах <titie>, подписи к рисункам, а также текст документа.

Yandex подсчитывает так называемый ТИЦ — тематический индекс цитирования сайта. Однако этот параметр влияет не на результаты выдачи, а только на позицию сайта в каталоге Yandex. При ранжировании результатов поиска используется ВИЦ — взвешенный индекс цитирования сайта, учитывающий тематический вес ссылающихся сайтов. Робот Yandex хорошо умеет определять кодировку документа, а также индексировать следующие форматы документов: HTML, PDF, DOC, RTF и Flash.

Кроме того, существует ряд особенностей этой поисковой системы:

• Yandex индексирует российскую сеть, поэтому в поисковую машину вносятся серверы в доменах su, ru, am, az, by, ge, kg, kz, md, ua и uz. Остальные серверы вносятся, только если на них найден текст на русском языке.

• Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления.

• Информацию в заголовке (тэг <title>) Yandex отображает в результатах поиска. Слова, находящиеся в тэге <titie>, имеют больший вес, чем все остальные. Если в заголовок включается ключевое слово страницы, появится шанс быть выше в списке при поиске по данному ключевому слову.

Помимо перечисленных способов на релевантность слова влияют частота его использования в заголовках, во всплывающих подсказках и в тексте документа.

Поисковая система Rambler

Rambler обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т.п. для посещаемых сайтов (по данным Top100), а также для сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.

При работе с Macromedia Flash индексируются все гипертекстовые ссылки внутри объекта, но сам текст не индексируется. Rambler не индексирует часть документа, превышающую 200 кбайт. При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Поиск учитывает данные Тор 100. Специальный робот два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100, и разместили счетчик на своих страницах. После изменения информации в рейтинге Тор 100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Тор 100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.

Релевантность к поисковому запросу Rambler повышается при:

•большем числе ссылок с ключевыми словами на определенный документ;

• расположении запроса в названии (тэг <title>);

• близких формах слов запроса (падеж, число, склонение и т д.);

• небольшом расстоянии между частями поискового запроса;

• высокой относительной частоте ключевых слов в документе;

• высокой популярности ресурса (оценивается по значению счетчика Top 100 и числу тематических ссылок с внешних ресурсов);

• высоком ссылочном весе документа (определяется по количеству ссылок с авторитетных источников).

Rambler индексирует сайты в Интернете по собственным правилам, отличающимся от других роботов. Робот системы Rambler называется StackRambler. Робот StackRambler категорически отрицает существование мета-тегов и полностью их игнорирует. Положение в результатах поиска определяется релевантностью запросу всего сайта целиком, поэтому для Rambler более приоритетны сайты с одной тематикой.

Итак, изучив природу поисковых машин, мы можем сделать вывод, что их работа имеет как сходства, так и различия. Очевидно, что для углубленного поиска информации следует обращаться к разным поисковым системам.

Поисковые машины находят миллионы страниц в день, которые заносятся в базу данных и индексируются. База данных должна взаимодействовать с пользовательским запросом. Запросы могут быть простыми, состоящими из одного слова, и сложными - из нескольких слов, связанных логическими операторами. Используя простой запрос, пользователь вводит слово, машина ищет его в списке терминов и выдает все связанные с термином ссылки. Структура такой базы данных проста. Взаимодействие со сложными запросами требует более серьезного подхода.

Вот какие советы по поиску информации дают специалисты поисковой системы Яндекс (http://yandex.ru/info/search2.html):

Проверяйте орфографию.Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах. Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы.Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".

Ищите больше, чем по одному слову.Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуется также сужать область вопроса.

Не пишите большими буквами.Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Заглавные буквы в запросе рекомендуется использовать только в именах собственных.

Используйте ссылку «найти похожие документы».Еслиодин из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы".

Используйте знаки "+" и "-". Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минус. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по Парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы).

А вот что советуют специалисты, в частности известный блоггер и автор нескольких книг Евгений Ющук, по поводу поиска с помощью Google:

Показ ключевых слов в результатах.Каждый раз в списке найденных страниц Google показывает отрывок из текста на странице, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте. Второй способ увидеть ключевые слова – загрузить страницу по ссылке «Сохранено в кэше». Третий способ – традиционный для просмотра текста в браузере – использовать сочетание клавиш CTRL+F. Появится окно «найти», в которое вводятся искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет.

Логическое «И».По умолчанию при написании слов запроса через пробел Google ищет документы, содержащие все слова запроса. Это соответствует оператору AND.

Логическое «ИЛИ». Пишется с помощью оператора OR. Оператор OR должен быть написан заглавными буквами. Относительно недавно появилась возможность написания логического «ИЛИ» в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе.

Google НЕ чувствителен к регистру букв. Все буквы воспринимаются как прописные, вне зависимости от того, как их вводили в поисковую строку

Google, подобно большинству поисковых машин, игнорирует стоп-слова. И, как и многие другие, имеет механизм принудительного включения стоп-слов в результаты поиска. К стоп-словам относятся большинство артиклей английского языка, союзов и предлогов русского языка.

Улучшение запроса во время поиска. Поскольку Google выдает все слова, которые вводятся в поисковом запросе, имеет смысл составлять новые запросы, содержащие те слова, которые забыли ввести в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск. Если же добавлять эти слова к уже имеющемуся запросу, то можно иногда излишне сузить диапазон результатов.

Исключение слов из запроса. Логическое «НЕ». Чтобы удалить «информационный мусор» при составлении запроса, стандартно используются операторы исключения – логическое «НЕ». В Google такой оператор представлен знаком «минус». Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.

Поиск точной фразы. Искать точную фразу на практике требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание.

Чтобы справиться с такой задачей при помощи Google, требуется заключить запрос в кавычки.

Стемминг (а также wildcard). Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.

Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда пользователю неизвестно точное написание конкретного слова, либо когда он хочет включить все возможные варианты слова в свой поиск.
Например, когда по запросу [тарт*] получают как «тарталетку», так и «тартар».

Отметим, что Google эти технологии не поддерживает. Но он поддерживает вариант, когда вместо целого слова вводится звездочка.
Например, по запросу: [красная * площадь] будет выдано:
«Красная и Манежная площади», с подчеркиванием всех этих слов, в том числе буквы "и". В какой-то степени это похоже на поиск с расстоянием между словами.

Дополнительные операторы. Существенно расширяет возможности поиска использование специальных операторов. Рассмотрим их.

Оператор cache: поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины и сопровождается надписью наверху страницы о том, что это страница из кэша.
Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом. Например, запрос: [cache:www.jf.pu.ru] будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние.

Оператор info: позволяет увидеть информацию, которая известна Google об этой странице.

Оператор site:ограничивает поиск конкретным доменом. То есть, если сделать запрос: [учебные программы site:www.pu.ru] результаты будут получены со страниц, содержащих слова «учебные» и «программа» именно в домене «pu.ru», а не в других частях Интернета.

Оператор define: этот оператор выполняет роль своего рода толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора.

Поиск числовых значений.Для тех, кому приходится работать с цифрами, Google предоставляет возможность искать диапазоны между числами. Для того, чтобы найти все страницы, содержащие числа в неком диапазоне «от - до», надо между этими крайними значениями поставить две точки.

Кнопка «Мне повезет».По этой кнопке выдается наиболее релевантный, точки зрения Google, результат. Обычно это помогает при быстром поиске какой-то фактической информации, когда не требуется подробного изучения вопроса.

Расширенный поиск.Для тех, кто в целом понимает, как работает поисковая машина, но не хочет запоминать операторы запросов, и при этом согласен на потерю части информации, подойдет страница расширенного поиска.

Итак, специалист по PR, как пишет Д. Филипс, просто «обязан иметь навыки поиска сайтов». Одной из наиболее важных сфер применения таких навыков будет разработка списков соответствующих онлайновых публикаций точно таким же образом, как профессионал по связям с общественностью делает это в оффлайне.

Существует множество способов найти нужные сайты. Наиболее очевидный путь, как это уже стало понятно – использование поисковых машин. Однако и с помощью мониторинга можно получить много полезной информации.