Недостаточно "сока ссылок" для того, чтобы остаться в основных индексах
Идентификаторы сеансов
Требуется предоставление формы
Отсутствие прямых ссылок
Вы можете обнаружить, что какой-то элемент контента не имеет ссылок или что все ссылки на этот контент имеют атрибут NoFollow. Вы можете сделать ссылки невидимыми для поисковых движков (показывать их только тем посетителям, которые имеют поддержку JavaScript или куки-файлов, либо каким-то образом зашифровать ссылки на контент). Решение здесь такое: убедитесь, что у вас реализованы только простые текстовые (или в виде изображений) ссылки на контент. Еще лучше, если вы сможете получить ссылки на контент с посторонних web-сайтов.
Требование входа под регистрационной записью или предоставление формы какого-то другого типа для просмотра контента – это еще одна часто встречающаяся причина отсутствия просмотра пауками. Поисковые движки не будут пытаться заполнить форму для того, чтобы увидеть, что же находится за ней. Самое простое решение – убрать требование формы (если вы хотите, чтобы поисковые движки проиндексировали этот контент).
Однако некоторые сайты продают свой контент на условиях подписки и не хотят предлагать свой контент бесплатно. В октябре 2008 г. компания Google объявила концепцию First Click Free (http://googlewebmastercentral.blogspot.com/2008/10/first-click-free-for-web-search.html), в которой для Google предусматривалась возможность просмотра и индексирования контента сайтов, работающих на принципе подписки, в то время как издатель при этом по-прежнему мог требовать от посетителей платы за контент. Более подробно о концепции First Click Free написано в разд. "Поставка контента и управление поисковыми пауками" главы 6.
Идентификаторы сеансов запутывают пауков поисковых движков. При каждом появлении на вашем сайте они видят другую страницу. Например, один раз они видят http://www.yourdomain.com?SessID=2143789, а в другой раз http://www.yourdomain.com?SessID=2145394. Даже если вашим намерением было отслеживание сеанса конкретного пользователя и вы считаете эти страницы одной и той же страницей, то поисковые движки так не считают. Подробнее об идентификаторах сеансов вы можете прочитать в главе 6.
Иногда проблема не имеет ничего общего с тем, о чем мы только что говорили. Поисковые движки могут хорошо видеть страницу, но на нее попадает недостаточно "сока ссылок", чтобы она заслужила включение в основной индекс. Это случается чаще, чем принято считать, но поисковые движки и не пытаются проиндексировать все web-страницы в мире.
Например, тот контент, который Google считает имеющим низкую важность (т. е. недостаточное количество "сока ссылок"), будет исключен из основного индекса и помещен во вспомогательный индекс Google (или вовсе не будет проиндексирован). Это происходит потому, что Google хочет выделить в Интернете наиболее важные страницы, она не хочет снижать производительность, с которой выдает результаты поиска, из-за непопулярных страниц.
Решение проблемы заключается в том, чтобы сделать страницы более важными в глазах поисковых движков. В этом случае можно добавить внутренние ссылки и провести компании по получению внешних ссылок на этот контент. Еще одна похожая ситуация – когда поисковые движки считают страницы дублированными. Лучшее решение здесь – добавить на эти страницы уникальный контент.
Скрытый текст – это одна из проблем, с которой сталкиваются web-мастера и поисковые движки. Спамеры продолжают использовать скрытый текст для фаршировки своих страниц ключевыми словами (с целью искусственного завышения своих рейтингов). Поисковые движки стараются обнаружить это и затем предпринимают соответствующие меры. Есть много вариантов нечаянного создания скрытого текста, но никто не хочет быть наказанным за то, чего не собирался делать. Чтобы лучше это понять, полезно прочитать руководство Google’s Webmaster Guidelines (http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=66353), где, в частности, сказано:
"Если ваш сайт воспринимается как содержащий скрытый текст и имеющий ссылки, которые сделаны с мошенническими намерениями, то ваш сайт будет удален из индекса Google и не появится на страницах с результатами поиска".
В ветке Google Groups по адресу http://groups.google.com/group/Google_Webmaster_Help-Indexing/browse_thread/thread/928aa76a1226cf89/32b089e3248cef78 сотрудница компании Google госпожа Susan Moskwa сказала следующее:
"Конечно, как и во многих других технологиях, между явно мошенническим и абсолютно приемлемым есть много оттенков серого. Matt Cutts (глава подразделения Web Spam компании Google) сказал, что сокрытие текста перемещает нас на один шаг ближе к серой зоне. Но если вы имеете совершенно законный сайт, то вам не стоит об этом беспокоиться. Если же ваш сайт уже демонстрирует целый букет других теневых технологий, то скрытый текст тоже начинает выглядеть как один из элементов этого списка. Это подобно тому, как 1 грамм песка незаметен, но большое количество песка напоминает пляж".
На эту тему имеется также и пост Matt Cutts на Threadwatch (http://www.threadwatch.org/node/4313#comment-26883):
"Если вы откровенно используете CSS для сокрытия текста, то не удивляйтесь, если это назовут спамом. Я не утверждаю, что наведение мыши или текст DHTML являются спамом. Но представьте себе, как это выглядит для посетителя, для конкурента или для проверяющего отчет по спаму. Если вы показываете название вашей компании Expo Markers вместо логотипа Expo Markers, то все должно быть хорошо. Но если вы решаете показать текст "Expo Markers cheap online discount buy online Expo Markers sale…", то тогда я буду более осторожен, потому что это выглядит плохо".
Понятно, что вы хотели бы избежать этого. Обратите внимание на использование слова "воспринимается" в отрывке из руководства Google Webmaster Guidelines. Это не простая проблема "черное-белое", не так ли? (Поскольку существует много способов для создания скрытого текста.)