Поиско́вый ро́бот («веб-пау́к») Как работает робот
Зачетное занятие.
Поиско́вая систе́ма — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах.
Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами.
http://help.yandex.ru/webmaster/?id=995296 — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяется алгоритмами поисковой машины.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
Релева́нтность (англ. relevant) — степень соответствия запроса и найденного, то есть оценка степени соответствия. (купить машину. Какую? стиральную или авто)
Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс», заключающаяся в определении «авторитетности» интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. тИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов. Данный показатель в первую очередь используется для определения порядка расположения ресурсов в рубриках каталога «Яндекса». При этом на соответствующих страницах каталога указываются лишь округлённые значения, которые помогают приблизительно ориентироваться в «авторитетности» ресурсов раздела.
Существует ошибочное мнение, что тИЦ сайта влияет на его ранжирование при выдаче в поисковой машине Яндекса, однако эта величина принята для ранжирования сайтов исключительно в каталоге Яндекса.
Индекс цитированиясайта зависит от количества и авторитетности веб-ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются взаимные ссылки (друг на друга), зачастую также важно, чтобы ссылки были с сайтов схожей тематики, что и раскручиваемый (оптимизируемый) сайт.
Взвешенный индекс цитирования (ВИЦ) Яндекса, учитывающий число страниц, ссылающихся на сайт, и собственный ВИЦ этих страниц. ВИЦ рассчитывается для каждого сайта, известного Яндексу, и обновляется примерно раз в месяц. Является одним из основных факторов, влияющих на положение страницы в результатах поиска Яндекса.
Google PageRank (от Larry Page Rank) (иногда просто PR) — алгоритм расчёта авторитетности страницы, используемый поисковой системой Google.
PageRank — это числовая величина, характеризующая «важность» страницы в Google. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путем подсчета важности ссылок на нее. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google.
Google учитывает не все ссылки. Поисковая система отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут не только не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта (такой эффект называется поисковой пессимизацией). В Google понимают, что вебмастер не в состоянии повлиять на входящие внешние ссылки, но полностью контролирует исходящие ссылки со своего сайта. Поэтому ссылки на сайт не могут повредить ему, но ссылки с сайта — могут. Следует внимательно относиться к сайтам, на которые вы ссылаетесь.
Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.
Это означает, что поиск в Google работает следующим образом:
1. ищутся все страницы, в которых есть слова из запроса пользователя;
2. найденные страницы ранжируются на основе текстовых критериев;
3. учитывается текст ссылок на сайт;
4. результаты корректируются с учетом PageRank каждой страницы.
Шкала PageRank может изменяться от 0 до 10. Разделение на единицы по шкале основано на логарифмической зависимости или на чем-то весьма схожем, но только не на равномерном разделении. Перерасчёт значимости страниц происходит во время так называемого «Google Dance». Можно придерживаться примерно такой градации: PageRank от 4 до 5 — наиболее типичный для большинства сайтов средней «раскрученности». 6 — очень хорошо «раскрученный» сайт. 7 — величина, практически недостижимая для множества сайтов, но иногда встречается. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, в данный момент у сайта русской Википедии PR равен 8, у английской Википедии, gnu.org и у сайта Microsoft — 9. Значение 10 имеют всего несколько десятков сайтов. В их числе сам Google. Ранее это были также http://www.whitehouse.gov, http://www.adobe.com, http://w3c.org и т. д.
Следует отметить, что PageRank — это параметр относящийся к каждой отдельной странице, но не всему сайту в целом. На одном сайте могут находиться страницы с разным PageRank.
Работа по оптимизации включает в себя работу с внутренними факторами (находятся под контролем владельца веб-сайта) — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, стилистическое оформление текста (заголовки, жирный шрифт), улучшение структуры и навигации, использование внутренних ссылок, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации веб-сайтов, называется оптимизатор.
Соответственно, все факторы, влияющие на положение сайта в выдаче поисковой системы, можно разбить на внешние и внутренние. Работа по оптимизации включает в себя работу с внутренними факторами (находятся под контролем владельца веб-сайта) — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, стилистическое оформление текста (заголовки, жирный шрифт), улучшение структуры и навигации, использование внутренних ссылок, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации веб-сайтов, называется оптимизатор.