При поиске в интернете важны две составляющие – полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом – релевантность, то есть соответствие ответа вопросу.
Охват и глубина. Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.
Скорость обхода и актуальность ссылок . Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.
Качество поиска (субъективный показатель). Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.
Кроме релевантности, существуют важные пользовательские характеристики.
Скорость поиска. Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.
Поисковые возможности (работа с языком документа, язык запросов). Еще один пункт сравнения – что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).
Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии – это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д.
Дополнительная возможность языка запросов – естественно-языковый запрос, который не требует знания операторов.
По умолчанию поиск осуществляется по всем проиндексированным документам, по содержимому html тэгов <title>, <description>, <keywords>, <author> и по текстовой части документов с логикой "and" для всех слов запроса.
По умолчанию поисковый запрос расширяется с учетом морфологии русского языка.