Последствия дублированного контента

Проблемы дублированного контента

Дублированный контент может получиться по многим причинам, в том числе благодаря лицензированию контента вашего сайта, дефектам архитектуры сайта (из-за недружественной к оптимизации системы CMS) или благодаря плагиату. В последние пять лет спамеры, испытывающие чрезвычайную необходимость в контенте, начали "выцарапывать" контент из легальных источников, переставлять слова посредством множества сложных процессов, размещать полученный текст на своих страницах, чтобы привлечь операции поиска из длинного хвоста и продемонстрировать контекстуальную рекламу, а также и для прочих бесчестных целей.

Таким образом, сегодня мы живем в мире "проблем дублированного контента" и "штрафов за дублирование контента". Приведем некоторые определения, которые будут полезны для данного обсуждения:

• Уникальный контент.

Написан человеком, полностью отличается от любой другой комбинации букв, символов и слов в Интернете, не подвергался воздействию компьютерных алгоритмов обработки текста (таких, как инструменты спамеров, использующие цепи Маркова).

• Фрагменты.

Это небольшие куски контента (такие, как цитаты), которые часто копируются и используются многократно. Они почти никогда не являются проблемой для поисковых движков, особенно когда включаются в более крупный документ с большим количеством уникального контента.

• Шинглы.

Поисковые движки ищут относительно небольшие сегменты фраз (пять-шесть слов) на других страницах в Интернете. Когда два документа имеют слишком много общих шинглов, то поисковые движки могут интерпретировать эти документы как дублированный контент.

• Проблемы дублированного контента.

Это понятие обычно используется для обозначения дублированного контента, который не влечет за собой штрафа для web-сайта, а просто является копией существующей страницы, что заставляет поисковые движки выбирать версию для показа в индексе (это фильтрация дублированного контента).

• Фильтрация дублированного контента.

Это когда поисковый движок удаляет существенно похожий контент из результатов поиска, чтобы обеспечить улучшение впечатления пользователя.

• Штраф за дублированный контент.

Штрафы применяются редко и только в очевидных ситуациях. Поисковые движки могут уменьшить рейтинг или запретить страницу сайта (и другие страницы тоже), могут даже запретить весь web-сайт.

Предположим, что ваш дублированный контент является результатом безобидного недосмотра со стороны ваших разработчиков. Тогда поисковый движок, скорее всего, отфильтрует все дублированные страницы (кроме одной), поскольку он хочет показать в SERP только одну версию данного контента. В некоторых случаях поисковый движок может отфильтровать результаты до включения их в индекс, а в других случаях движок может допустить страницу в индекс и отфильтровать ее при подготовке SERP в ответ на конкретный запрос. В этом последнем случае страница может быть отфильтрована в ответ на некоторые определенные запросы и не отфильтрована для других.

Пользователи хотят видеть в результатах разнообразие (а не одни и те же результаты снова и снова). Поэтому поисковые движки стараются отфильтровывать дублированный контент и это имеет следующие последствия:

• робот поискового движка приходит на сайт с определенной сметой просмотра, выражающейся в количестве страниц, которые он планирует просмотреть в каждом конкретном сеансе. Каждый раз, когда он попадает на дублированную страницу, которая просто должна быть отфильтрована из результатов поиска, вы позволяете роботу потратить впустую некоторую часть его сметы на просмотр. Это означает, что будет просмотрено меньше ваших "хороших" страниц и приведет к тому, что меньше ваших страниц будет включено в индекс поискового движка;

• ссылки на страницы дублированного контента приводят к потере "сока ссылок". Дублированные страницы могут получить рейтинг PageRank или "сок ссылок", а поскольку он не помогает им в рейтинге, то этот "сок" теряется впустую;

• ни один из поисковых движков не дал четкого объяснения, как его алгоритм выбирает ту версию страницы, которую показывает. Иначе говоря, если он обнаруживает три копии одного и того же контента, то какие две из них он отфильтрует? Какую покажет? Зависит ли это от поискового запроса? В итоге поисковый движок может показать не ту версию, которая вам нужна.

Несмотря на то, что отдельные специалисты по оптимизации могут поспорить с некоторыми из вышеприведенных положений, общая структура практически ни у кого не вызывает возражений. Однако по границам этой модели имеется несколько проблем.

Например, на вашем сайте есть группа товарных страниц, а также версии этих страниц для распечатывания. Поисковый движок может выбрать для показа в своих результатах именно версию для печати. Такое иногда случается, причем это может произойти даже тогда, когда страница для распечатывания имеет меньше "сока ссылок" и более низкий рейтинг, чем основная страница товара.

Для исправления такого положения надо применить тег canonical ко всем версиям страницы, чтобы указать оригинальную версию.

Второй вариант может появиться тогда, когда вы синдицируете контент сторонним организациям. Проблема состоит в том, что поисковый движок может выкинуть из результатов поиска вашу копию и предпочесть ей версию, используемую тем человеком, который перепечатывает вашу статью. Лучшим средством исправления такой ситуации (кроме пометки тегом NoIndex той копии, которую использует ваш партнер) является реализация партнером обратной ссылки на оригинальную страницу на вашем сайте. Поисковые движки практически всегда интерпретируют это правильно и выделяют вашу версию контента.