Методи, що застосовуються для вирішення задач класифікації

Для класифікації використовуються різні методи. Основні з них:

Ø класифікація за допомогою дерев рішень;

Ø байєсовська (наївна) класифікація;

Ø класифікація за допомогою штучних нейронних мереж;

Ø класифікація методом опорних векторів;

Ø статистичні методи, зокрема, лінійна регресія;

Ø класифікація за допомогою методу найближчого сусіда;

Ø класифікація CBR-методом;

Ø класифікація за допомогою генетичних алгоритмів.

Схематичний розв'язок задачі класифікації деякими методами (за допомогою лінійної регресії, дерев рішень і нейронних мереж) наведені на мал. 5.4 – 5.6.

Рис. 5.4. Розв'язок задачі класифікації методом лінійної регресії

if X > 5 then grey

else if Y > 3 then orange

else if X > 2 then grey

else orange

Рис. 5.5. Розв'язок задачі класифікації методом дерев рішень

Рис. 5.6. Розв'язок задачі класифікації методом нейронних мереж

Точність класифікації: оцінка рівня помилок

Оцінка точності класифікації може проводитися за допомогою крос-перевірки. Крос-перевірка (Cross-validation) – це процедура оцінки точності класифікації на даних з тестової множини, що також називають крос-перевірочною множиною. Точність класифікації тестової множини рівняється з точністю класифікації навчальної множини. Якщо класифікація тестової множини дає приблизно такі ж результати по точності, як і класифікація навчальної множини, вважається, що дана модель пройшла крос-перевірку.

Поділ на навчальні і тестові множини здійснюється шляхом розподілу вибірки в певній пропорції, наприклад навчальна множина – дві третини даних і тестова – одна третина даних. Цей спосіб варто використовувати для вибірок з більшою кількістю прикладів. Якщо ж вибірка має малі обсяги, рекомендується застосовувати спеціальні методи, при використанні яких навчальна і тестова вибірки можуть частково перетинатися.