Как поисковые движки интерпретируют куки-файлы и идентификаторы сеансов
Примечание
Любой пользователь может отключить использование куки-файлов в настройках своего браузера. Это часто существенно осложняет браузинг в Интернете и многие сайты просто покажут вам страницу с сообщением, что для просмотра их контента необходимо использовать куки-файлы. Кроме того, куки-файлы время от времени пользователями удаляются. Например, исследование компании comServe (http://www.comscore.com/blog/2007/04/cookie_deletion_rates_and_the.html) в 2007 г. показало, что 33 % пользователей удаляли свои куки-файлы по крайней мере раз в месяц.
Они этого не делают. Пауки поисковых движков не хранят и не помнят куки-файлы или идентификаторы сеансов, они работают как браузеры, у которых эта функциональность отключена. Однако, в отличие от пользователей с отключенными куки-файлами, пауки иногда получают доступ к такому изолированному контенту при помощи web-мастеров, которые специально их пропускают. Многие сайты имеют страницы, требующие включения куки-файлов или сеансов, но содержат также и специальные правила для роботов поисковых движков, разрешающие им получать доступ к контенту. Несмотря на то, что формально это получается клоакинг, существует его форма под названием First Click Free, которую поисковые движки обычно разрешают (мы обсудим это подробнее в разд. "Поставка контента и управление поисковыми пауками" данной главы).
Хотя к некоторым ограниченным при помощи куки-файлов (или идентификаторов сеансов) страницам поисковые движки доступ получают, в огромном большинстве случаев при использовании куки-файлов (или идентификаторов сеансов) создается такой контент, ссылки и страницы, которые доступ ограничивают. Web-разработчики могут использовать концепцию First Click Free для создания более интеллектуальных сайтов и страниц, которые работают оптимальным образом и для людей, и для поисковых движков.
Существует множество тактик по использованию куки-файлов и идентификаторов сеансов для управления поисковыми движками. Рассмотрим некоторые основные стратегии, которые вы можете реализовать при помощи этих инструментов (однако, безусловно, существует и бесконечное множество других возможностей).
• Показ множества навигационных маршрутов с одновременным управлением потоком "сока ссылок".
Посетители web-сайта часто имеют несколько способов просмотра или доступа к контенту. Ваш сайт может предлагать для доступа к контенту множество маршрутов (по дате, по теме, по тегу, по связям, по рейтингу и т. д.), но при этом он тратит PageRank или "сок ссылок", которые можно было бы использовать более эффективно, если сфокусироваться на одной (дружественной к поисковым движкам) навигационной структуре. Это важно, поскольку такие различные порядки сортировки могут рассматриваться как дублированный контент.
Вы можете потребовать использования куки-файлов для доступа пользователей к альтернативным сортировкам страниц и предотвратить индексирование поисковыми движками нескольких страниц с одинаковым контентом. Альтернативное решение – использовать тег canonical. Таким образом дается информация поисковому движку о том, что эти альтернативные сортировки на деле являются тем же самым контентом, что и оригинальная страница.
• Старайтесь исключать из индексов поисковых движков некоторые фрагменты контента страницы.
Многие страницы могут содержать такой контент, который вы хотели бы показать поисковым движкам, а также и такие фрагменты, которые вы предпочли бы продемонстрировать только людям (это может быть реклама, ограниченная регистрацией информация, ссылки и даже мультимедийная реклама). Возможность показывать пользователям, не использующим куки-файлы, простую версию, а пользователям, использующим куки-файлы, расширенную, может быть просто бесценной. Обратите внимание, что это часто применяется в сочетании с регистрацией, чтобы доступ ко всему контенту имели только зарегистрированные пользователи (как это сделано на сайтах типа Facebook и LinkedIn). Для Yahoo! вы можете также использовать тег robots-nocontent, который позволяет указывать те части вашей страницы, которые Yahoo! должен игнорировать (Google и Bing этот тег не поддерживают).
• Предоставляйте доступ к страницам, требующим регистрации.
Так же, как и с фрагментами информации, на сайте часто существуют целые страницы или разделы, доступ к которым для поисковых движков вы хотели бы ограничить. Сделать это несложно при помощи куки-файлов или идентификаторов сеансов, причем это может даже помочь получить поисковый трафик, который будет конвертироваться в зарегистрированного пользователя. Например, если у вас есть хороший контент, доступ к которому вы хотите ограничить, то можно создать страницу с коротким его фрагментом и предложить продолжить чтение после регистрации (которая позволит получить доступ к данному контенту по этому же URL).
• Избегайте проблем дублирования контента.
Одна из самых многообещающих областей использования куки-файлов (или идентификаторов сеансов) – это блокирование доступа паукам к множественным версиям одного и того же контента (при одновременном разрешении для посетителей получать желаемую версию). Например, на сайте SEOmoz зарегистрировавшиеся пользователи могут видеть полные элементы содержимого блога на его начальной странице, а поисковые движки и незарегистрированные пользователи увидят только их фрагменты. Это мешает контенту попадать на некоторые страницы (начальную страницу блога и страницы конкретных постов) и создает положительное впечатление для членов сообщества.