Оцінювання методів варто проводити, виходячи з наступних характеристик [21]: швидкість, робастність, інтерпритуємість, надійність.
Швидкість характеризує час, який потрібний на створення моделі і її використання.
Робастність, тобто стійкість до яких-небудь порушень вихідних передумов, означає можливість роботи із зашумленими даними і пропущеними значеннями в даних.
Інтерпритуємість забезпечує можливість розуміння моделі аналітиком.
Властивості класифікаційних правил:
Ø розмір дерева рішень;
Ø компактність класифікаційних правил.
Надійність методів класифікації передбачає можливість роботи цих методів при наявності в наборі даних шумів і викидів.
Завдання кластеризації
Тільки що ми вивчили завдання класифікації, що відноситься до стратегії "навчання із вчителем".
У цій частині лекції ми введемо поняття кластеризації, кластера, коротко розглянемо класи методів, за допомогою яких вирішується задача кластеризації, деякі моменти процесу кластеризації, а також розберемо приклади застосування кластерного аналізу.
Задача кластеризації подібна з задачею класифікації, і є її логічним продовженням, але її відмінність у тому, що класи досліджуваного набору даних заздалегідь не визначені.
Синонімами терміна "кластеризація" є "автоматична класифікація", "навчання без вчителя" і "таксономія".
Кластеризація призначена для розбивки сукупності об'єктів на однорідні групи (кластери або класи). Якщо дані вибірки представити як крапки в признаковому просторі, то завдання кластеризації зводиться до визначення "згущення крапок".
Ціль кластеризації – пошук існуючих структур.
Кластеризація є описовою процедурою, вона не робить ніяких статистичних висновків, але дає можливість провести розвідницький аналіз і вивчити "структуру даних".
Саме поняття "кластер" визначено неоднозначно: у кожному дослідженні свої "кластери". Переводиться поняття кластер (cluster) як "скупчення", "гроно".
Кластер можна охарактеризувати як групу об'єктів, що мають загальні властивості.
Характеристиками кластера можна назвати дві ознаки:
Ø внутрішня однорідність;
Ø зовнішня ізольованість.
Питання, що задається аналітиками при вирішенні багатьох задач, полягає в тому, як організувати дані в наочні структури, тобто розгорнути таксономії.
Найбільше застосування кластеризація спочатку одержала в таких науках як біологія, антропологія, психологія. Для вирішення економічних задач кластеризація тривалий час мало використалася через специфіку економічних даних та явищ.
У таблиці 5.2 наведене порівняння деяких параметрів задач класифікації і кластеризації.
Таблиця 5.2. Порівняння класифікації і кластерзації
Характеристика
| Класифікація
| Кластеризація
|
Контрольованість навчання
| Контрольоване навчання
| Неконтрольоване навчання
|
Стратегія
| Навчання з вчителем
| Навчання без вчителя
|
Наявність мітки класу
| Навчальна множина супроводжується міткою, що вказує клас, до якого відноситься спостереження
| Мітки класу навчальної множини невідомі
|
Підстава для класифікації
| Нові дані класифікуються на підставі навчальної множини
| Дано множину даних з метою встановлення існування класів або кластерів даних
|
На рис. 5.7 схематично представлені задачі класифікації і кластеризації.

Рис. 5.7. Порівняння задач класифікації і кластеризації
Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), і пересічними (overlapping) [22]. Схематичне зображення непересічних і пересічних кластерів дано на рис. 5.8.

Рис. 5.8. Непересічні і пересічні кластери
Слід зазначити, що в результаті застосування різних методів кластерного аналізу можуть бути отримані кластери різної форми. Наприклад, можливі кластери "ланцюгового" типу, коли кластери представлені довгими "ланцюжками", кластери подовженої форми і т.д., а деякі методи можуть створювати кластери довільної форми.
Різні методи можуть прагнути створювати кластери певних розмірів (наприклад, малих або великих) або припускати в наборі даних наявність кластерів різного розміру.
Деякі методи кластерного аналізу особливо чутливі до шумів або викидів, інші – менш.
У результаті застосування різних методів кластеризації можуть бути отримані неоднакові результати, це нормально і є особливістю роботи того або іншого алгоритму.
Дані особливості варто враховувати при виборі методу кластеризації.
Докладніше про всі властивості кластерного аналізу буде розказано в лекції, присвяченій його методам.
На сьогоднішній день розроблено більше сотні різних алгоритмів кластеризації. Деякі, найбільш часто використовуваних, будуть докладно описані в другому розділі курсу лекцій.
Приведемо коротку характеристику підходів до кластеризації [21].
Ø Алгоритми, засновані на поділі даних (Partitioning algorithms), у т.ч. ітеративні:
Ø поділ об'єктів на k кластерів;
Ø ітеративний перерозподіл об'єктів для поліпшення кластеризації.
Ø Ієрархічні алгоритми (Hierarchy algorithms):
Ø агломерація: кожен об'єкт спочатку є кластером, кластери, з'єднуючись один з одним, формують більший кластер і т.д.
Ø Методи, засновані на концентрації об'єктів (Density-based methods):
Ø засновані на можливості з'єднання об'єктів;
Ø ігнорують шуми, знаходження кластерів довільної форми.
Ø Грід-методи (Grid-based methods):
Ø квантування об'єктів у грід-структури.
Ø Модельні методи (Model-based):
Ø використання моделі для знаходження кластерів, найбільш відповідним даним.