Мета|ціль| процесу класифікації полягає в тому, щоб побудувати|спорудити| модель, яка використовує прогнозуючі атрибути як вхідні параметри, і набуває значення залежного атрибуту. Процес класифікації полягає у розбитті безлічі об’єктів на класи за певним критерієм.
Класифікатор |сутність,єство| визначає, якому із|із| класів належить об’єкт за вектором ознак.
Для проведення класифікації за допомогою математичних методів необхідно мати формальний опис об’єкту, яким можна оперувати, використовуючи математичний апарат класифікації. Таким описом в нашому випадку виступає|вирушає| база даних. Кожен об’єкт (запис бази даних) несе інформацію про деяку властивість об’єкта.
Набір початкових|вихідних| даних (або вибірку даних) розбивають на дві множини|безліч|: навчальну і тестову.
Навчальна множина|безліч| (training set) - множина|безліч|, яка включає дані, що використовуються для навчання|вчення| (конструювання) моделі.
Така множина|безліч| містить|утримує| вхідні і вихідні (цільові) значення прикладів|зразків|. Вихідні значення призначені для навчання|вчення| моделі.
Тестова (test set) множина|безліч| також містить|утримує| вхідні і вихідні значення прикладів|зразків|. Тут вихідні значення використовуються для перевірки працездатності моделі.
Процес класифікації складається з двох етапів: конструювання моделі і її використання.
Процес класифікації складається з двох етапів: конструювання моделі і її використання.
1. Конструювання моделі (опис множини класів):
- кожен приклад|зразок| набору даних відноситься до одного зумовленого класу. На цьому етапі використовується навчальна множина|безліч|, на ньому відбувається|походить| конструювання моделі.
- одержана|отримана| модель представлена|уявлена| класифікаційними правилами, деревом рішень|розв'язань,вирішень,розв'язувань| або математичною формулою.
2. Використання моделі (класифікація нових або невідомих значень):
- оцінка правильності (точність) моделі.
- відомі значення з|із| тестового прикладу|зразка| порівнюються з|із| результатами використання одержаної|отриманої| моделі.
Рівень точності - відсоток|процент| правильно класифікованих прикладів|зразків| в тестовій множині|безлічі|.
Тестова множина|безліч|, тобто множина|безліч|, на якій тестується побудована|споруджена| модель, не повинна залежати від навчальної множини|безлічі|.
Якщо точність моделі допустима, можливо використання моделі для класифікації нових прикладів|зразків|, клас яких невідомий.