Наиболее распространенными являются следующие технологии управления данными: OLTP, OLAP и Data Mining. Их характеристики приведены в Табл. 3. К OLTP относят системы с часто меняющейся информацией – биллинговые системы, склад, бухгалтерию. Системы OLAP позволяют обрабатывать большие объемы информации и работают с агрегированными данными, предназначенными для аналитиков организации. Так, например, аналитика не интересуют данные по каждой конкретной сделке, ему интересны сводные данные по месяцам. Системы Data Mining, в отличие от относительно простых алгоритмов OLAP, применяют сложные алгоритмы обработки данных, позволяющие из кажущегося беспорядочного набора данных извлечь практически полезные закономерности – знания.
Табл. 3. Технологии управления данными
Техн.
OLTP
OLAP
Data Mining
Описание технологии
OLTP– системы оперативной обработки транзакций.
OLAP– системы аналитической обработки.
Data Mining(буквально – добыча данных) – интеллектуальный анализ данных – обнаружение в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний (закономерностей), необходимых для принятия решений.
Данные, транзакции
Данные часто изменяются. Короткие транзакции. Пользователи активно конкурируют друг с другом
Данные запоминаются навсегда в хранилищах данныхи не изменяются. Сложные статистические запросы.
Длинные транзакцииприменяются в научных исследованиях. Интеллектуальная информационная система может обрабатывать транзакции месяцы. Пример – расшифровка генома человека.
Типы баз данных
Различные БД, в основном – реляционные
Из больших хранилищ выбираются данные под нужды групп заказчиков – витрины данных. Данные упорядочиваются в многомерные кубы с возможностью разных уровней агрегации.
Фреймовые модели
Семантические сети
Продукционные системы
Экспертные системы
Дедуктивные БД
Интеллектуальные БД
(рассматриваются в курсе «Представление знаний в информационных системах»)
Пример
База данных «Продажи», схема которой представлена на Рис. 3
OLAP-куб, показанный на Рис. 4. Он представляет собой трехмерный куб с измерениями «продавцы», «товары» и «время» с несколькими уровнями агрегации (например, число, месяц, год).
Запросы
Выбрать товары, средняя стоимость продаж которых > 10
Построить график скользящего среднего кол-ва продаж товара по месяцам (окно – три месяца).
Data Mining позволяет находить закономерности следующих видов:
Ассоциация– определяет взаимосвязанность событий. Например, товары, которые покупают одновременно.
Последовательность– события взаимосвязаны во времени.
Классификация– выявить признаки, по которым объекты объединяются в группу.
Кластеризация– группы заранее не заданы, разделить множество на группы и предложить признаки разделения.
Прогнозирование– экстраполяция временных рядов
Алгоритмы этих закономерностей рассматриваются в курсе «Интеллектуальные информационные системы»
Рис. 4. OLAP-куб
Четвертая технология управления данными – это неструктурированныеи слабоструктурированные данные. К ним относятся текст и гипертекст, например, технологии HTML и XML. Запросы на поиск документа, содержащего нужную информацию, ранжирование таких документов (запросы в Интернет-поисковиках).
Д/З 2. Для предметной области из Д/З 1 придумайте многомерный куб и 2 примера запросов OLAP и Data Mining.
Вопросы для самопроверки:
1. В каких технологиях управления данными данные не изменяются?
2. В каких технологиях управления данными существуют длинные транзакции?
3. В каких технологиях управления данными пользователи активно конкурируют друг с другом?