Вы можете задать адреса IP (или их диапазоны), чтобы заблокировать конкретных роботов. Большинство основных поисковых движков ведет просмотр с определенных адресов IP, что делает возможным их выявление и ограничение доступа. Этот способ популярен у тех web-мастеров, которые ошибочно считают, что пауки поисковых движков – это спамеры, пытающиеся украсть их контент. Поэтому такие web-мастера блокируют диапазоны IP-адресов для ограничения доступа и экономии полосы пропускания. Будьте осторожны при блокировании роботов и убедитесь, что вы не блокируете доступ пауку, который может принести вам выгоду (как от поискового трафика, так и от атрибуции ссылок).
На уровне сервера можно определить агента пользователя и ограничить ему доступ к страницам или web-сайтам (на основе его идентификации). Например, если web-сайт обнаружил нестандартного робота, то вы можете дополнительно проверить его подлинность перед тем, как разрешить доступ. Все поисковые движки используют одинаковый протокол для проверки их агентов пользователя через Интернет: обратный запрос DNS, за которым следует соответствующий прямой запрос DNS. Пример для Google выглядит следующим образом:
> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Обратного запроса DNS может быть недостаточно, поскольку паук мог установить обратный DNS на xyz.googlebot.com или любой другой адрес.
Иногда на web-странице имеется некоторый фрагмент контента, который вы хотели бы скрыть от поисковых движков. Как мы уже говорили ранее в этой же главе, здесь может помочь умелое использование i-фреймов (рис. 6.38).
Рис. 6.38. Использование i-фреймов для предотвращения индексирования контента
Концепция проста: при помощи использования i-фреймов вы можете вставить контент из другого URL в любую страницу (по вашему выбору). Затем вы блокируете доступ паука к i-фрейму (при помощи файла robots.txt), чем обеспечиваете тот факт, что поисковые движки не увидят этот контент на вашей странице. Web-сайты могут делать это по разным причинам, в том числе и во избежание проблем с дублированием контента, с целью уменьшения размера страниц для поисковых движков, для снижения количества просматриваемых ссылок страницы (чтобы управлять потоком "сока ссылок").