Первые три используются главным образом для предвидения, в то время как последние удобны для описания существующих закономерностей в данных.
Классификация -самая распространенная модель интеллектуального анализа данных. С ее помощью обнаруживаются признаки, характеризующие группу, к которой принадлежит тот или другой объект. Это делается с помощью анализа уже классифицированных объектов и формулирования некоторого набора правил.
Во многих видах бизнеса проблемой является потеря постоянных клиентов.
Классификация помогает обнаружить характеристики "неустойчивых" покупателей и создать модель, предвидящую, кто именно склонен пойти к другому поставщику. Используя ее, можно определить эффективные виды скидок и другие выгодные предложения, действующие для разных покупателей. Благодаря этому, можно удержать клиентов, израсходовав столько денег, сколько необходимо.
Один раз определенный эффективный классификатор используется для классификации новых записей в базе данных в уже существующие классы и в этом случае он приобретает характер прогноза. То есть, классификатор используется для прогнозирования какой либо вероятности.
Регрессионный анализ используется, когда отношения между переменными могут быть выражены количественно в виде некоторой комбинации этих переменных. Полученная комбинация используется для предвидения значения, которое может принимать целевая (зависимая) переменная, вычисляемая на заданном наборе значений входных (независимых) переменных.
В простейшем случае, для этого используются стандартные статистические методы, такие как линейная регрессия, но большинство реальных моделей не укладываются в ее рамки. Например, размеры продаж или фондовые цены сложны для предвидения, так как могут зависеть от комплекса взаимоотношений переменных.
Прогнозирование временных последовательностей. Основой для любых систем прогнозирования служит историческая информация, хранимая в информационных хранилищах в виде временных рядов. Если можно построить математическую модель и найти шаблоны, адекватно отображающие эту динамику, есть вероятность, что с их помощью можно предвидеть и поведение системы в будущем. Прогнозирование временных последовательностей позволяет на основе анализа поведения временных рядов оценивать будущие значения прогнозируемых переменных. Эти модели должны включать в себя особые признаки времени: иерархия периодов (месяц-квартал-год), особые отрезки времени (пяти- шести или семидневная рабочая неделя), сезонность, праздники и др.
Кластеризацияотличается от классификации тем, что классы заранее не заданы и с помощью модели кластеризации средства интеллектуальных вычислений самостоятельно создают однородные группы данных.
Ассоциация относится к анализу структуры и применяется, когда несколько событий связаны между собой.
Классический пример анализа структуры покупок относится к представлению приобретения какого-нибудь количества товаров как одиночной экономической операции (транзакции). Поскольку большое количество покупок происходит в супермаркетах, а покупатели для удобства используют корзины, куда и складывается весь товар, то для нахождения ассоциаций служит анализ содержимого корзины. Целью подхода является нахождение трендов (одинаковых участков) среди большого числа транзакций, которые можно использовать для объяснения поведения покупателей. Такая информация может быть использована для регулирования запасов, изменения размещения товаров на территории магазина и принятия решения по проведению рекламной кампании для увеличения продаж или для продвижения определенного вида продукции. Например, исследования, проведенное в супермаркете, может показать, что 65% покупающих картофельные чипси, берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Имея такие данные, менеджерам легко оценить, насколько действующая предоставленная скидка.
Хотя этот подход пришел исключительно из розничной торговли, он может также применяться в технической сфере для анализа услуг и выпускаемой продукции, которые клиенты часто приобретают вместе. Это может использоваться для создания некоторого набора продукции, как части кампании по стимулированию продаж.
Последовательностьимеет место, если существует цепочка связанных во времени событий. Традиционный анализ структуры выпуска продукции имеет дело с набором товаров, которые представляют один транзакцию. Вариант такого анализа встречается, если существует дополнительная информация для связывания разных выпусков продукции в единую временную серию. В такой ситуации важно не только сосуществование данных внутри одной транзакции, но и порядок, в котором эти данные появляются в разных транзакциях и время между этими транзакциями. Правила, устанавливающие эти отношения, могут быть использованы для определения типового набора выпуска продукции, которые могут повести за собой следующие продажи определенного товара.
После покупки дома в 45% случаев в продолжение месяца покупается и новая кухонная плита, а в течении следующих двух недель 60% новоселов обзаводятся холодильником.