Авторитет является предметом множества исследований. Один из самых знаменитых докладов, написанный Apostolos Gerasoulis и другими авторами в университете Rutgers University и озаглавленный "DiscoWeb: Applying Link Analysis to Web Search" (http://www.cse.lehigh.edu/~brian/pubs/1999/www8/), стал основой алгоритма Teoma, который позднее был куплен компанией AskJeeves и стал частью алгоритма Ask.
Уникальным его делает оценка ссылок по их релевантности целевой странице. Исходный алгоритм PageRank компании Google не содержал понятия тематической релевантности и несмотря на то, что сегодня алгоритм Google безусловно это делает, Teoma был фактически первым алгоритмом, который предложил коммерческую реализацию релевантности ссылок.
Алгоритм Teoma ввел понятия хабов (это сайты, которые ссылаются на большинство важных сайтов, релевантных данной конкретной тематике) и авторитетов (это сайты, на которые есть ссылки с большинства сайтов, релевантных данной теме).
Ключевая концепция заключается в том, что каждая тематическая область, по которой пользователь может делать поиск, имеет сайты-авторитеты, специфичные для данной тематической области. Сайты-авторитеты по подержанным машинам отличаются от сайтов-авторитетов по бейсболу.
На рис. 7.12 показана разница между сайтами-хабами и сайтами-авторитетами.
Рис. 7.12. Хабы и авторитеты
Если издатель имеет сайт о подержанных машинах, то он стремится получить ссылки от таких web-сайтов, которые поисковые движки считают авторитетами по подержанным машинам (или просто по машинам). Однако поисковые движки не скажут вам, какие сайты они считают авторитетными, и от этого работа издателя становится гораздо труднее.
Модель организации Интернета в тематические сообщества, выявление хабов и авторитетов – это важная модель, которую следует понимать (подробности читайте в докладе Mike Grehan под названием "Filthy Linking Rich!" по адресу http://www.search-engine-book.co.uk/filthy_linking_rich.pdf). Лучшие мастера по сбору ссылок понимают эту модель и используют ее в своих интересах.
Доверие отличается от авторитета. Авторитет недостаточно учитывает, насколько легко спамеры могут внедриться в тот домен (или страницу), который делает ссылку. Доверие это учитывает.
Оценка доверия web-сайта включает в себя просмотр всех его соседей по ссылкам, чтобы увидеть, какие другие доверенные сайты делают сюда ссылки. Большее количество ссылок с других доверенных сайтов дает больше доверия.
В 2004 г. компания Yahoo! и университет Stanford University опубликовали доклад под названием "Combating Web Spam with TrustRank" (http://www.vldb.org/conf/2004/RS15P3.PDF). Доклад предлагал при выполнении анализа PageRank начинать с некого доверенного начального набора страниц (выбранных человеком вручную), а не со случайного набора страниц (как предлагал исходный документ по рейтингу PageRank).
Использование такой тактики ликвидирует риск использования (для определения доверия сайта) чисто алгоритмического подхода и возможного получения неверных положительных/отрицательных результатов.
Уровень доверия сайта будет основан на расстоянии (количестве кликов мышью) от начальных сайтов. Сайт на расстоянии одного клика получает максимум доверия; двух кликов – чуть меньше; трех кликов – еще меньше (и т. д.). На рис. 7.13 показана эта концепция рейтинга TrustRank.
Рис. 7.13. Иллюстрация рейтинга TrustRank
Авторы доклада по TrustRank опубликовали также еще один доклад, описывающий концепцию массы спама (http://ilpubs.stanford.edu:8090/697/1/2005-33.pdf). Этот доклад посвящен оценке эффекта спамерских ссылок на рейтинг сайта (нескорректированный). Чем выше влияние таких ссылок, тем больше вероятность того, что и сам сайт спамерский. В качестве индикатора спама рассматривается также наличие большого количества купленных ссылок. Существует также понятие обратного TrustRank, когда ссылки на спамерские сайты снижают TrustRank сайта.
Похоже, что движки Google, Yahoo! и Bing используют какие-то формы измерения доверия (для оценки сайтов) и что этот показатель доверия может быть весьма существенным фактором ранжирования. Для специалистов по оптимизации получить замеры доверия может быть сложно. В настоящее время mozTrust из комплекта Linkscape сайта SEOmoz является единственным публично доступным инструментом для оценки рейтинга TrustRank страницы.