Информация, собранная с сайта посредством счетчика хранится в базе данных, где благодаря специальной технологии эти данные обрабатываются и выводятся пользователям в виде отчетов. Счетчик, база данных и даже технология обработки инфорации являются частью системы интернет-статистики. Рассмотрим одну из подобных систем на примере SpyLOG — крупнейшего российского разработчика решений в области интернет-статистики.
Система сбора и обработки интернет-статистики компании SpyLOG была создана в 1999г., а в конце 2001 г. выдерживала уже 75 миллионов обращений. С ростом нагрузок на систему изменялась и ее конфигурация, и программное обеспечение серверов. Чтобы запись в базу данных продолжала идти с должной скоростью, количество ответственных за это серверов было увеличено с одного до трех. Три сервера стали показывать кнопки и рейтинги, делать первичную обработку данных. Пришлось столкнуться и с такой проблемой, что при определенном количестве обращений статистика не успевала обрабатываться и система переставала показывать кнопки пользователям. Это было решено с вводом серверов-форвардеров, которые принимали все запросы, идущие к системе, фиксировали их и выстраивали в очередь. Таким образом, даже если большинство серверов системы вдруг по какой-то невероятной причине выйдут из строя, и останутся только форвардеры (а они используют достаточно простые программы — вероятность сбоя очень мала), статистика все равно будет собираться, и данные пользователей потеряны не будут. На данный момент система принимает 1,5 тысячи запросов в секунду и успешно справляется с такой нагрузкой.
Тестовые исследования отдела разработки SpyLOG показали, что, погрешность при обсчете Рунета с серверов западных систем статистики составляет от 20 до 35 процентов. Соответственно, и западный пользователь, установивший счетчик, данные с которого будут считаться на российских серверах, получает подобную погрешность. Серверы-форвардеры решают эту проблему. У SpyLOG, помимо серверного центра в Москве, есть машины в нескольких российских регионах, на Украине, в Чехии, в Германии, строится серверная площадка в США.
На сегодняшний день система статистики SpyLOG обслуживается 50 серверами, и их число постоянно растет. В день система получает около 50 Гбайт новых данных, а весь объем данных, хранящийся на серверах SpyLOG составляет более 1,5 Тбайт.
Через серверы-форвардер и сервер-аккаунтер, производящие первичную обработку данных (для вывода кнопок), информация о событиях — загрузках страниц пользователями — попадает в базу данных статистики. Получаемые события обрабатываются и хранятся в виде логов. Некоторые системы интернет-статистики обрабатывают поступающие данные «на лету» — такой способ исключает возможность последующей работы со статистикой. Фиксация полученного объема информации в виде логов, как это делает система SpyLOG, позволяет гибко работать с полученными данными и в дальнейшем.
Также в базе присутствуют так называемые «полуобработанные данные». Из этих данных пользователи и получают ту информацию, которая выводится в отчетах статистики.