В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальных роботов (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).
[править]Масштаб
Размер глубокой паутины неизвестен и в целом трудно оценим, в первую очередь, в силу размытости самого понятия. Тем не менее, существуют относительно достоверные оценки общего числа сайтов, ведущих к онлайн базам данных: около 300 тысяч таких сайтов во всем Вебе в 2004 году и около 14 тысяч в Рунете в 2006 году[3].
[править]Ключи к решению
В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов.
Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.
[править]Специальные поисковые машины
Yahoo! Subscriptions
QProber: Классификация и поиск по «скрытым» базам данных
MetaQuerier: Обследуя и интегрируя глубокую паутину
CompletePlanet: Поиск по базам данных и специальным движкам
WebInsight: Поиск по государственным базам данных России и СНГ