Иногда требуется решить задачу, обратную построению баз данных. Имеются массивы разрозненных данных, и требуется обнаружить в них скрытые закономерности. Типичный пример - уже упомянутая статистика покупок в интернет-магазине. Кто бы мог подумать, что покупатели клюшек для гольфа также часто интересуют ся дорогими игровыми приставками? Оказывается, многие состоятельные бизнесмены любят делать своим внукам хорошие подарки...
В таких случаях на помощь приходят методы, известные как машинное обучение или извлечение знаний из баз данных. Эти методы способны обнаружить в данных глубинные зависимости и представить их в форме знаний: правил, сетей, групп объектов и т.д. Далее эти знания могут быть использованы в составе базы знаний или интерпретироваться людьми для получения более подробной информации.
Рассмотрим основные методы, используемые в машинном обучении совместно с базами данных. К сожалению, многие интересные современные методы нам не удастся даже упомянуть (к примеру, извлечение структуры web-сайтов и web-сооб-ществ, эволюционное обучение, применение методов машинного обучения к анализу текстов, фильтрации спама и др.).
АНАЛИЗ ДАННЫХ И OLAP-ТЕХНОЛОГИИ
Часто обнаружить какие-либо ценные закономерности в полученных данных только с помощью средств автоматики сложно или организация (она же – заказчик БД) не имеет в штате сотрудников соответствующей квалификации. В этом случае прибегают к технологиям ручного анализа данных, среди которых наиболее распространена технология OLAP (On-Line Analytical Processing). Суть этой технологии - в рассмотрении различных срезов данных с целью выявления закономерностей.
Например, имеется таблица данных о совершенных покупках и о покупателях (рис. 3). Можно сгруппировать суммарную стоимость покупок, с одной стороны, по возрастной категории, а с другой – по категории покупки. Такая группировка позволит выявить тот факт, что покупатели старшего поколения предпочитают книги, в то время как люди моложе отдают предпочтение компакт-дискам. Группируя данные различным образом и оперируя с различными суммарными показателями (среднее, сумма, процент от общего значение и т.д.), аналитик может выявлять различные статистические закономерности, которые потом можно будет применять на практике.
Для использования OLAP-технологий существует множество специализированных программных средств, однако базовые возможности имеются в стандартной офисной программе Microsoft Excel в виде сводных таблиц Pivot Table и графиков Pivot Chart.