Процес класифікації

Ціль процесу класифікації полягає в тому, щоб побудувати модель, що використовує прогнозуючі атрибути як вхідні параметри та одержує значення залежного атрибута. Процес класифікації полягає в розбивці безлічі об'єктів на класи за певним критерієм.

Класифікатором називається деяка сутність, що визначає, якому з визначених класів належить об'єкт по вектору ознак.

Для проведення класифікації за допомогою математичних методів необхідно мати формальний опис об'єкта, яким можна оперувати, використовуючи математичний апарат класифікації. Таким описом у нашому випадку виступає база даних. Кожен об'єкт (запис бази даних) несе інформацію про деяку властивість об'єкта.

Набір вихідних даних (або вибірку даних) розбивають на дві множини: навчальну і тестову.

Навчальна множина (training set) – множина, що включає дані, які використовуються для навчання (конструювання) моделі.

Така множина містить вхідні і вихідні (цільові) значення прикладів. Вихідні значення призначені для навчання моделі.

Тестова (test set) множина також містить вхідні і вихідні значення прикладів. Тут вихідні значення використовуються для перевірки працездатності моделі.

Процес класифікації складається з двох етапів [21]: конструювання моделі і її використання.

Конструювання моделі: опис множини визначених класів.

Ø Кожен приклад набору даних ставиться до одного визначеного класу.

Ø На цьому етапі використовується навчальна множина, на ньому відбувається конструювання моделі.

Ø Отримана модель представлена класифікаційними правилами, деревом рішень або математичною формулою.

Використання моделі: класифікація нових або невідомих значень.

Ø Оцінка правильності (точності) моделі.

1. Відомі значення з тестового приклада порівнюються з результатами використання отриманої моделі.

2. Рівень точності – відсоток правильно класифікованих прикладів у тестовій множині.

3. Тестова множина, тобто множина, на якій тестується побудована модель, не повинна залежати від навчальної множини.

Ø Якщо точність моделі допустима, можливе використання моделі для класифікації нових прикладів, клас яких невідомий.

Процес класифікації, а саме, конструювання моделі і її використання, представлений на рис. 5.2. – 5.3.

Рис. 5.2. Процес класифікації. Конструювання моделі

Рис. 5.3. Процес класифікації. Використання моделі