Мультимедиа становится индексируемой

Поисковые движки получают новые источники контента

Как мы уже упоминали ранее, миссия Google состоит в том, чтобы "организовать мировую информацию и сделать ее полезной и доступной отовсюду". Это сильное заявление, особенно в свете того факта, что очень много информации еще не попало в Интернет.

Частью усилий компании Google по переносу данных в Интернет стала запущенная в 2004 г. инициатива по сканированию книг (чтобы их можно было включить в поисковый движок Book Search (http://books.google.com/)). Это стало объектом судебного преследования со стороны авторов и библиотек, однако в конце 2008 г. было достигнуто соглашение (http://books.google.com/googlebooks/agreement/). Это соглашение еще должно быть полностью ратифицировано сторонами. Помимо книг, стоит также сканировать и другие исторические документы. Google не единственная организация, которая занимается такими задачами (например,http://www.recaptcha.net).

Точно так же и у владельцев контента имеется большое количество собственной информации, которая обычно недоступна публике. Часть этой информации закрыта учетными записями (предоставляется по принципу подписки). Чтобы владельцам такого контента создать стимул с целью сделать его доступным для поиска, Google выдвинула свою концепцию First Click Free (уже обсуждавшуюся в главе 6), которая позволяет Google просматривать предоставляемый на условиях подписки контент.

Однако значительное количество контента в Интернете отсутствует вовсе, и именно эту информацию поисковые движки хотят проиндексировать. Для доступа к ней они могут обратиться к владельцам контента и заключить сделки на предоставление контента. Этой деятельностью занимаются все поисковые движки.

Изображения, аудио и видео в настоящее время поисковыми движками не индексируются, но все основные движки работают над решением этой проблемы. Для изображений уже много лет применяется технология оптического распознавания символов. Главная проблема ее применения в области поиска состоит в том, что это весьма трудоемкий вычислительный процесс. Но по мере того, как вычислительная технология становится все более дешевой, эта проблема становится все более простой.

Тем временем появляются и более креативные решения. Google уже призывает пользователей аннотировать изображения при помощи Google Image Labeler (http://images.google.com/imagelabeler/). В этой игре пользователи пишут метки для тех элементов, что показаны на изображении. Участники работают парами и каждый раз, когда у них получаются одинаковые метки, они зарабатывают баллы (за более подробную метку дается большее количество баллов).

Или рассмотрим http://recaptcha.net. Этот сайт помогает выполнить оцифровку книг из архива Internet Archive и старых выпусков New York Times. Они уже были частично оцифрованы при помощи сканирования и программного обеспечения для оптического распознавания символов. Оптическое распознавание – это не вполне совершенная технология, есть много случаев, когда программное обеспечение не может определить слово со 100 %-й уверенностью. Однако сайт Recaptcha.net помогает в этом плане, он использует людей для определения таких слов и внесения их в базу данных оцифрованных документов.

Сначала Recaptcha.net берет неустановленные слова и помещает их в базу данных. Затем эти слова передаются в те блоги, которые для обеспечения безопасности применяют решение CAPTCHA – это те поля, которые вы видите в блогах и на экранах создания учетных записей, где вы должны ввести изображенные там символы) (рис. 13.3).

Рис. 13.3. Экран решения CAPTCHA

В этом примере пользователь должен ввести слово morning. При этом Recaptcha.net использует ввод с этого экрана для того, чтобы определить, что это было за слово, которое не удалось определить при помощи технологии оптического распознавания символов. Сайт использует эту информацию CAPTCHA для повышения качества оцифровки книги.

Аналогичным же образом для извлечения данных из аудио– и видеофайлов можно применять решения по преобразованию речи в текст. Эта технология тоже требует интенсивных вычислений (и поэтому она пока в поиске не применяется). Но и такая проблема также решаема, и мы сможем увидеть ее использование в поисковых движках уже в следующем десятилетии.

Бизнес-проблема поисковых движков состоит в том, что потребность в информации и контенте с такими сложными для индексирования форматами растет экспоненциально. Поисковые результаты, которые не включают данных таких типов, скоро начнут считаться нерелевантными и неправильными.

Выход YouTube в конце 2008 г. на вторую позицию среди поисковых движков (с опережением Yahoo! и Microsoft) – это мощный предупредительный сигнал. Пользователи хотят получать этот альтернативный тип контента, и хотят получать его много. Спрос на альтернативные формы контента будет править миром и пользователи получат то, чего хотят. По этой причине работа над улучшением технологий индексирования альтернативных типов контента является внеочередным приоритетом для поисковых движков.

Количество интерактивного контента в Интернете также возрастает. Ведущими являются технологии Flash и AJAX. Несмотря на проблемы, которые эти технологии создают поисковым движкам, их использование продолжается, поскольку учитывается то впечатление, которое они производят на пользователей, имеющих широкополосный доступ в Интернет.

Поисковые движки усердно работают над решениями, которые позволят лучше понять заключенный в этих технологиях контент.

С течением времени наше мнение относительно "интерактивности" радикально меняется. Двух– или трехмерные игры-"стрелялки" от первого лица и фильмы будут продолжать трансформироваться и станут еще более интерактивными. В отдаленном будущем они могут стать технологиями "полного погружения", похожими на Holodeck из фильма "Star Trek". Можно также ожидать появления интерактивных фильмов, в которых аудитория будет влиять на сюжет (и где будут сниматься как виртуальные, так и реальные актеры). Все эти достижения не являются сегодняшней заботой специалиста по поисковой оптимизации, но необходимо быть в курсе всего того, что происходит (чтобы чувствовать перспективу).