Файл robots.txt

Как показывать поисковым движкам и посетителям разный контент

Для сегментирования поставки контента имеются самые разные стратегии. Самая простая – предоставлять непредназначенный для поисковых движков контент в недоступном для пауков формате (т. е. размещать текст в изображениях, Flash-файлах, дополнительных модулях и т. д.). Для клоакинга эти форматы использовать не следует. Их нужно применять только в том случае, когда они дают существенную пользу для конечных пользователей (например, улучшают их впечатление). В таких случаях вы, вероятно, захотите показать поисковым движкам тот же самый контент в доступном для пауков формате. Когда вы стараетесь показывать поисковым движкам то, что не хотите показывать посетителям, то можете использовать стили форматирования CSS (но желательно не display: none, поскольку у движков могут иметься фильтры для наблюдения именно за этим), скрипты JavaScript, агента пользователя, куки-файлы или сеансы, а эффективнее всего поставку по IP-адресу (показ контента в зависимости от IP-адреса посетителя).

Будьте очень осторожны при использовании клоакинга (как мы только что предупреждали). Поисковые движки категорически запрещают в своих указаниях такие практики, и несмотря на то, что существует некоторая свобода действий, зависящая от ваших намерений и впечатлений пользователя (например, ваш сайт использует клоакинг для улучшения впечатлений пользователя, а не для обмана поисковых движков), поисковые движки относятся к такой тактике очень серьезно и могут оштрафовать или запретить те сайты, которые реализуют ее неуместно или в целях манипуляции.

Этот файл находится в корневом уровне вашего домена (например, http://www.yourdomain.com/robots.txt) и является чрезвычайно универсальным инструментом для управления тем, к чему разрешается доступ паукам поисковых движков на вашем сайте. Вы можете использовать файл robots.txt для того, чтобы:

• предотвратить доступ пауков к непубличным разделам вашего сайта;

• заблокировать доступ поисковым движкам к скриптам индексирования, утилитам и прочему коду;

• избежать индексирования дублированного контента web-сайта (такого, как версии для печати HTML-страниц или различные сортировки каталогов товаров);

• автоматически обнаружить XML Sitemap.

Файл robots.txt должен находиться в корневом каталоге, название файла должно быть полностью набрано в нижнем регистре (robots.txt, а не Robots.txt или какой-либо другой вариант с использованием букв верхнего регистра). Любое другое название или местоположение поисковыми движками не признается. Файл должен быть в текстовом формате (а не в формате HTML).

Когда вы говорите роботу поисковых движков, что обращаться к данной странице не нужно, он предотвращает доступ паука к странице. На рис. 6.31 показано, что происходит, когда робот поискового движка видит указание в файле robots.txt не просматривать web-страницу.

Рис. 6.31. Влияние файла robots.txt

По существу страница просматриваться не будет, так что ссылки этой страницы не могут передавать свой "сок" другим страницам (поскольку поисковый движок ссылок не видит). Однако страница может находиться в индексе поискового движка. Такое может произойти, если на данную страницу делают ссылки другие страницы Интернета. Конечно, поисковый движок не получит много информации с такой страницы (поскольку он не может ее прочитать) и будет полагаться в основном на якорный текст и прочие сигналы ссылающихся на нее страниц (чтобы определить, о чем может быть данная страница). В результате соответствующие результаты поиска в Google выглядят очень разреженными (рис. 6.32).

Рис. 6.32. SERP для страниц, которые занесены в файл robots.txt

На рисунке показаны результаты для запроса site: news.yahoo.com/topics/ inurl: page в поисковике Google. Это не обычный запрос, который мог бы ввести пользователь, но вы можете видеть, как выглядят результаты. Выдан только список URL, а описаний нет. Это происходит потому, что паукам не разрешается читать страницу, чтобы получить эти данные. При сегодняшних алгоритмах такие страницы не имеют высокого рейтинга, т. к. их релевантность чрезвычайно низка (для любых нормальных запросов).

Google, Yahoo! Bing, Ask и почти все легальные пауки Интернета выполняют сделанные вами в файле robots.txt указания. Команды файла robots.txt в основном используются для предотвращения доступа пауков к страницам и подкаталогам сайта, хотя у них есть и другие опции. Обратите внимание, что для поддомена требуется свой собственный файл robots.txt (точно так же, как и для файлов, находящихся на сервере https:).