Исследование Интернет-аудитории сайта при помощи технологий интернет-статистики
Каждый пользователь сети Интернет, так или иначе, сталкивался с различными статистическими системами и сервисами. С их помощью он получает информацию о своем ресурсе или ищет нужные сайты в каталогах и рейтингах.
Для web-мастера счетчик системы интернет-статистики — это небольшая часть html-кода, который ставится на страницу сайта. Размер такого счетчика, например, в системе SpyLOG, составляет около двух килобайт. Счетчик фиксирует загрузку страницы сайта пользователем с той секунды, когда часть страницы, где находится код самого счетчика, загружается пользователем. Есть и другое решение, когда на страницу устанавливается не сам код счетчика, а лишь ссылка на него, но при таком варианте значительно увеличивается нагрузка на систему и существует риск потери статистики при сбое в работе сервера.
Основная погрешность любого механизма сбора статистики состоит в том, что если пользователь ушел со страницы до того, как загрузился код счетчика, то это посещение не будет зафиксировано. После загрузки счетчик посылает сигнал серверу системы статистики, который фиксирует это в первичной форме, как событие — event, которое поступает в базу данных системы статистики для последующей обработки. Переходя на следующую страницу, где есть счетчик той же системы статистики, пользователь снова учитывается и информация о новом событии посылается в базу данных системы. Таким образом, для полноценного сбора статистики счетчик рекомендуется устанавливать на все страницы сайта.
События, которые счетчики посылают в базу данных, фиксируются там именно как действия этого пользователя. Это происходит потому, что у каждого компьютера в сети есть уникальный IP-адрес. Благодаря ему, компьютер пользователя считается уникальным для системы, которая может впоследствии восстановить последовательность загрузок веб-страниц пользователем этого компьютера. Таким образом, получаются данные о путях пользователя по сайту и по Сети.
Сопоставляя данные IP-адреса по времени, система устанавливает частоту посещений пользователем сайта. Сам IP-адрес состоит из двух частей — идентификатора сети (network ID) и идентификатора хоста (host ID), который присваивается сетевым администратором. Это своеобразный «виртуальный паспорт» пользователя, благодаря которому его компьютер идентифицируется как уникальный узел сети, и действия, производимые пользователем с этого компьютера, учитываются в статистике именно этого IP. Система статистики позволяет интернет-компаниям получать данные об аудитории сайта вплоть до действий конкретного пользователя. Однако с помощью отчетов интернет-статистики достаточно сложно выяснить личную информацию самого пользователя: кто он, где живет, его адрес и телефон. При подключении к Сети каждому пользователю присваивается IP-адрес. При этом провайдер, как правило, фиксирует номер телефона, с которого производилось подключение и присвоенный IP. Лог-файлы с этой информацией обычно хранятся не менее нескольких недель. Таким образом, зная IP и имея возможность уточнить необходимую информацию у провайдера вполне возможно определить и физическое месторасположение пользователя. Однако адреса тех пользователей, кто использует анонимные прокси, узнать, таким образом, практически невозможно.