русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Чего не могут видеть поисковые движки


Дата добавления: 2014-03-21; просмотров: 965; Нарушение авторских прав


Примечание

Ключевые слова пользователя обычно показаны в результатах поиска жирным шрифтом. Иногда жирным шрифтом показываются и близкие синонимы. На рис. 2.20 есть такой пример: TripAdvisor в начале описания выделен жирным шрифтом.

Четвертый элемент, который читают поисковые движки, – это атрибут alt для изображений. Этот атрибут первоначально использовался для отображения хоть чего-нибудь в том случае, когда просмотр изображения был невозможен. Это было предназначено для двух групп пользователей:

• плохо видящих людей, не имеющих возможности просматривать изображения;

• тех людей, которые отключают изображения для ускорения просмотра страниц (но это актуально только для тех, у кого нет высокоскоростного подключения к Интернету).

Поддержка плохо видящих людей остается основной причиной использования атрибута alt. Вы можете прочитать об этом на странице Web Accessibility Initiative по адресу: http://www.w3.org/WAI/.

Поисковые движки также читают и текст, содержащийся в атрибуте alt тега image. Этот тег используется для того, чтобы дать указание web-странице показать изображение. Вот пример тега изображения с сайта Alchemist Media:

<img src="/storage/public/books/41/2e/412e5ff0-b449-4495-bb6c-d9f7f37367ee/http://www.alchemistmedia.com/img/btob2009.jpg" alt="BtoB Interactive Marketing Guide" border="0" />

Часть "src="/storage/public/books/41/2e/412e5ff0-b449-4495-bb6c-d9f7f37367ee/ – это местонахождение того изображения, которое нужно показать. Та часть, которая начинается с alt и за которой следует BtoB Interactive Marketing Guide, считается атрибутом alt.

Атрибут alt – это то, что читает поисковый движок. Движок интерпретирует его, чтобы определить, о чем это изображение, и чтобы лучше понять, о чем эта страница.



Последний элемент, который читают поисковые движки – это тег noscript. В общем случае поисковые движки не пытаются интерпретировать код JavaScript, который может присутствовать на web-странице (хотя это уже начинает меняться). Однако некоторые пользователи не разрешают выполнять код JavaScript при загрузке страниц (по данным авторов, таких пользователей примерно 2 %). Для этих пользователей в том месте, где на web-странице имеется JavaScript, не будет показано вообще ничего (если страница не содержит тега noscript).

Вот очень простой пример JavaScript, который это демонстрирует:

<script type="text/javascript">

document.write("It is a Small World After All!")

</script>

<noscript>Your browser does not support JavaScript!</noscript>

Тег noscript содержит текст "Your browser does not support JavaScript!". Поисковый движок прочитает этот текст и расценит его как информацию о web-странице. В этом примере вы могли также вставить в тег noscript текст типа "it is a Small World After All!" (Мир тесен в конце концов!).

Тег noscript следует использовать только для того, чтобы обозначить содержимое JavaScript. (Размещение здесь другого контента или ссылок может быть интерпретировано поисковым движком как спам.) Кроме того, это предупреждение браузера может превратиться в поисковый фрагмент (а это уже будет плохо).

Целесообразно также сделать обзор тех типов контента, которые поисковые движки не могут видеть.

Например, несмотря на то, что поисковые движки могут обнаружить, что вы показываете изображение, но они не могут определить, изображение чего именно вы показываете (если не учитывать ту информацию, которую вы им даете в атрибуте alt). Однако они способны определить цвет пиксела и (во многих случаях) установить порнографический характер изображения по количеству телесного цвета в изображении JPEG. Поэтому поисковый движок не может сказать, что показано на изображении – Барт Симпсон, лодка, дом или торнадо. Кроме того, поисковые движки не распознают содержащийся в изображении текст. Поисковые движки экспериментируют с технологиями оптического распознавания символов (optical character recognition, OCR), чтобы извлекать текст из изображений, но эти технологии еще не имеют широкого применения при поиске.

Кроме того, обычный здравый смысл оптимизации всегда подсказывал, что поисковые движки не умеют читать Flash-файлы, но это несколько преувеличено. Поисковые движки уже начинают извлекать информацию из Flash-файлов, как это показано в объявлении компании Google по адресуhttp://googlewebmastercentral.blogspot.com/2008/06/improved-flash-indexing.html. Однако поисковому движку нелегко определить, что именно содержится во Flash. Одна из самых больших проблем состоит в том, что когда поисковые движки смотрят внутрь Flash, то они по-прежнему ищут текстовый контент, но Flash – это изобразительное средство и у дизайнера нет никаких причин (кроме поисковых движков), чтобы встраивать внутрь него текст. Здесь нет также никаких семантических подсказок, которые присутствуют в HTML-тексте (таких, как теги заголовков страниц, жирный текст и т. д.) даже тогда, когда HTML используется совместно с Flash.

Третий тип контента, который поисковые движки видеть не могут, – это изобразительные элементы всего того, что содержится во Flash, поэтому этот аспект Flash ведет себя точно так же, как изображения. Например, когда текст преобразуется в векторную форму (визуализируется графически), то текстовая информация (которую могут читать поисковые движки) теряется. Мы обсудим методы оптимизации Flash в главе 6.

Аудио– и видеофайлы поисковым движкам тоже читать непросто. Как и в случае изображений, эти данные анализировать нелегко. Есть несколько исключений, когда поисковые движки могут извлечь некоторое ограниченное количество данных (таких, как теги ID3 из файлов МР3 или текстовые примечания, изображения и маркеры глав из расширенных подкастов формата ААС). Однако в конечном итоге отличить видеоизображение игры в футбол от лесного пожара невозможно.

Поисковые движки не могут также прочитать никакого контента внутри программы. Поисковому движку нужно найти в исходном коде web-страницы текст, который удобочитаем для человеческого глаза (как мы уже говорили ранее). То, что вы можете видеть его после загрузки страницы в браузер, не помогает – он должен быть видим и читаться в исходном коде этой страницы.

Пример технологии, которая предоставляет значительное количество читаемого человеком (но не видимого поисковыми движками) контента, – это AJAX. AJAX (основанный на JavaScript метод динамического отображения контента на web-странице после извлечения данных из базы данных (без необходимости обновления всей страницы целиком)). Этот метод часто используется в инструментальных средствах, когда посетитель сайта может сделать ввод данных, а инструмент AJAX затем извлекает и отображает правильный контент.

Проблема возникает потому, что контент извлекается скриптом, работающем на клиентском компьютере (машине пользователя), после ввода информации пользователем. Это может привести к получению множества вариантов вывода. Кроме того, до этого ввода данных контент в коде HTML данной страницы отсутствует, так что поисковый движок его видеть не может.

Аналогичные проблемы возникают и с другими формами JavaScript, которые до выполнения действия пользователем не визуализируют контент в HTML.

В пятой версии HTML была создана конструкция, известная как тег embed, чтобы дать возможность встраивать в HTML-страницы дополнительные модули (программы, находящиеся на компьютере пользователя, а не на web-сервере вашего web-сайта). Этот тег часто используется для встраивания видео– и аудиофайлов в web-страницы. Тег embed говорит дополнительному модулю, где он должен искать используемый файл с данными. Встраиваемый при помощи дополнительных модулей контент совершенно невидим для поисковых движков.

Фреймы и плавающие рамки – это метод встраивания содержимого другой web-страницы в вашу web-страницу. Плавающие рамки используются чаще (чем обычные фреймы) для встраивания контента с другого web-сайта. Вы можете очень просто сделать плавающую рамку при помощи примерно такого кода:

<iframe src ="http://accounting.careerbuilder.com" width="100 %" height="300"> <p>Your browser does not support iframes.</p>

</iframe>

Фреймы обычно используются для подразделения контента web-сайта, но их можно использовать и для встраивания контента с других web-сайтов, как это представлено на рис. 2.21 с сайтом http://accounting.careerbuilder.com на web-сайте Chicago Tribune.

Рис. 2.21. Визуализированная в браузере страница с фреймами

Это пример хорошей работы по втягиванию контента (при условии, что у вас есть разрешение на это) с другого сайта и размещению его на вашем сайте. Однако поисковые движки распознают фрейм для втягивания контента другого сайта и соответственно игнорируют контент внутри фрейма (поскольку это контент другого издателя). Иначе говоря, они не считают втянутый с другого сайта контент частью уникального контента вашей web-страницы.



<== предыдущая лекция | следующая лекция ==>
Какой контент поисковые движки могут видеть на web-странице | Анализ документа и семантическая связность


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.09 сек.