ИНДУКЦИЯ ПРАВИЛ И ДЕРЕВЬЯ РЕШЕНИЙ

В то время как OLAP-технологии являются лишь инструментом аналитика, существуют методики, позволяющие автоматически находить в данных закономерности и формулировать их в виде правил. Применение алгоритмов извлечения знаний позволяет получать в результате правила следующего вида:

ЕСЛИ дата покупки приходится на декабрь И покупатель приобрел подарочное издание книги ТО покупатель также приобрел подарочную открытку КОЭФФ. УВЕРЕННОСТИ: 80%, ПОКРЫТИЕ: 10%

Указанный коэффициент уверенности 80% означает, что правило выполняется в 80% случаев, а в 20% ситуаций его заключение при истинных посылках оказывается неверным. Покрытие показывает, какой процент данных из общего количества удовлетворяет этому правилу.

Индукция правил по массивам данных может стать альтернативой ручному способу построения баз знаний (рис. 2). Однако полученные в результате правила не всегда правильно отражают закономерности предметной области, поэтому методы машинного обучения скорее подходят для анализа данных в такой последовательности: обработка данных машинными методами, затем изучение полученных результатов экспертами или инженерами по знаниям.

Для индукции правил существуют известные алгоритмы ID3 и C4.5, реализованные во многих специализированных системах для анализа данных и машинного обучения (Orange, iDA и другие). Эти алгоритмы основаны на построении деревьев решений – древовидных диаграмм, наглядно показывающих ход решения задачи (см. рис. 4).

Другой важной задачей, решаемой в рамках машинного обучения, является кластеризация и классификация, в ходе которых множество объектов разбивается на некоторые характерные классы. В случае с интернет-магазином имеет смысл разбивать потребительскую аудиторию по классам интересов (научная фантастика, философия и т.д.) с учетом совершенных ими покупок и затем предлагать каждой категории соответствующую литературу. Более сложная задача классификации – с учетом текста книги относить ее к той или иной смысловой категории.

Задача кластеризации может решаться как на основании обучения с учителем (когда мы заранее задаем множество классов и примеров объектов, попадающих в эти классы), так и путем обучения без учителя, когда задается только число классов, а множества похожих объектов выделяются и группируются алгоритмом самостоятельно. Например, можно попросить алгоритм разбить все множество на три класса, тем самым обнаружив наиболее явные группы покупателей автоматически (это могут быть, к примеру, "техническая литература и фэнтези", "любовные романы и эзотерика" и "поэзия и искусство").

Еще одна разновидность обучения - группа статистических методов, известная как коллаборативная фильтрация. Вполне закономерно, что если большинство покупателей учебника по искусственному интеллекту также приобретают какой-либо носитель с фильмом "Матрица", то новым покупателям подобных книг можно в ненавязчивой форме предлагать и этот товар. Простейшим примером коллаборативной фильтрации являются подсказки интернет-магазинов "вместе с этим товаром также покупают". Отличительной особенностью коллаборативной фильтрации является то, что генерирования знаний по данным не происходит, а список объектов получают с учетом исходных данных чисто статистическими методами .

ХРАНИЛИЩА ДАННЫХ И КОРПОРАТИВНАЯ ПАМЯТЬ

Накопленные в ходе работы фирмы данные исключительно ценны. Необходимо как-то изолировать накопленные данные с целью минимизации риска испортить их в процессе работы: утрата такой ценности недопустима. Кроме того, превышение объема информации общей базы данных неизбежно приводит к снижению производительности.

Условно разделяют рабочую базу данных, отвечающую за текущее функционирование предприятия, и хранилище данных (data warehouse), назначение которого – накопление всего массива данных с целью дальнейшего анализа. Как правило, от рабочей базы данных требуется высокая производительность с поддержкой транзакций. Хранилище данных, в свою очередь, может иметь несколько другую структуру и быть доступным только на чтение для аналитиков. Данные из рабочей базы данных периодически заносятся в хранилище. При этом может происходить проверка данных на непротиворечивость, преобразование структуры данных в вид, удобный для анализа и т.д. Архитектура хранилища данных показана на рис. 5. Использовать хранилища данных имеет смысл даже тогда, когда планируется применять простейшие методы анализа данных типа OLAP.

Многие знания, существующие только в нематериальном виде (в головах сотрудников), никак не отражаются в базах данных предприятия или вообще не преобразуются в электронный вид. Более широкое понятие, корпоративная память, относится к централизованному накоплению всех возникающих при работе документов: формуляров, служебных инструкций и т.д. Хранилище документов, определенным образом организованное ручной или автоматической категоризацией, зачастую также называют корпоративной базой знаний. Хотя с точки зрения ИИ такое название является не совсем корректным (база знаний такого рода не может быть использована

компьютером для получения логических выво дов и для решения задач). Корпоративная па мять играет важнейшую роль в увековечении опыта сотрудников.