русс | укр

Мови програмуванняВідео уроки php mysqlПаскальСіАсемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование


Linux Unix Алгоритмічні мови Архітектура мікроконтролерів Введення в розробку розподілених інформаційних систем Дискретна математика Інформаційне обслуговування користувачів Інформація та моделювання в управлінні виробництвом Комп'ютерна графіка Лекції


Оцінювання класифікаційних методів


Дата додавання: 2014-06-06; переглядів: 1335.


Оцінювання методів варто проводити, виходячи з наступних характеристик [21]: швидкість, робастність, інтерпритуємість, надійність.

Швидкість характеризує час, який потрібний на створення моделі і її використання.

Робастність, тобто стійкість до яких-небудь порушень вихідних передумов, означає можливість роботи із зашумленими даними і пропущеними значеннями в даних.

Інтерпритуємість забезпечує можливість розуміння моделі аналітиком.

Властивості класифікаційних правил:

Ø розмір дерева рішень;

Ø компактність класифікаційних правил.

Надійність методів класифікації передбачає можливість роботи цих методів при наявності в наборі даних шумів і викидів.

 

Завдання кластеризації

Тільки що ми вивчили завдання класифікації, що відноситься до стратегії "навчання із вчителем".

У цій частині лекції ми введемо поняття кластеризації, кластера, коротко розглянемо класи методів, за допомогою яких вирішується задача кластеризації, деякі моменти процесу кластеризації, а також розберемо приклади застосування кластерного аналізу.

Задача кластеризації подібна з задачею класифікації, і є її логічним продовженням, але її відмінність у тому, що класи досліджуваного набору даних заздалегідь не визначені.

Синонімами терміна "кластеризація" є "автоматична класифікація", "навчання без вчителя" і "таксономія".

Кластеризація призначена для розбивки сукупності об'єктів на однорідні групи (кластери або класи). Якщо дані вибірки представити як крапки в признаковому просторі, то завдання кластеризації зводиться до визначення "згущення крапок".

Ціль кластеризації – пошук існуючих структур.

Кластеризація є описовою процедурою, вона не робить ніяких статистичних висновків, але дає можливість провести розвідницький аналіз і вивчити "структуру даних".

Саме поняття "кластер" визначено неоднозначно: у кожному дослідженні свої "кластери". Переводиться поняття кластер (cluster) як "скупчення", "гроно".

Кластер можна охарактеризувати як групу об'єктів, що мають загальні властивості.

Характеристиками кластера можна назвати дві ознаки:

Ø внутрішня однорідність;

Ø зовнішня ізольованість.

Питання, що задається аналітиками при вирішенні багатьох задач, полягає в тому, як організувати дані в наочні структури, тобто розгорнути таксономії.

Найбільше застосування кластеризація спочатку одержала в таких науках як біологія, антропологія, психологія. Для вирішення економічних задач кластеризація тривалий час мало використалася через специфіку економічних даних та явищ.

У таблиці 5.2 наведене порівняння деяких параметрів задач класифікації і кластеризації.

 

Таблиця 5.2. Порівняння класифікації і кластерзації

Характеристика Класифікація Кластеризація
Контрольованість навчання Контрольоване навчання Неконтрольоване навчання
Стратегія Навчання з вчителем Навчання без вчителя
Наявність мітки класу Навчальна множина супроводжується міткою, що вказує клас, до якого відноситься спостереження Мітки класу навчальної множини невідомі
Підстава для класифікації Нові дані класифікуються на підставі навчальної множини Дано множину даних з метою встановлення існування класів або кластерів даних

 

На рис. 5.7 схематично представлені задачі класифікації і кластеризації.

 

Рис. 5.7. Порівняння задач класифікації і кластеризації

 

Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), і пересічними (overlapping) [22]. Схематичне зображення непересічних і пересічних кластерів дано на рис. 5.8.

 

Рис. 5.8. Непересічні і пересічні кластери

 

Слід зазначити, що в результаті застосування різних методів кластерного аналізу можуть бути отримані кластери різної форми. Наприклад, можливі кластери "ланцюгового" типу, коли кластери представлені довгими "ланцюжками", кластери подовженої форми і т.д., а деякі методи можуть створювати кластери довільної форми.

Різні методи можуть прагнути створювати кластери певних розмірів (наприклад, малих або великих) або припускати в наборі даних наявність кластерів різного розміру.

Деякі методи кластерного аналізу особливо чутливі до шумів або викидів, інші – менш.

У результаті застосування різних методів кластеризації можуть бути отримані неоднакові результати, це нормально і є особливістю роботи того або іншого алгоритму.

Дані особливості варто враховувати при виборі методу кластеризації.

Докладніше про всі властивості кластерного аналізу буде розказано в лекції, присвяченій його методам.

На сьогоднішній день розроблено більше сотні різних алгоритмів кластеризації. Деякі, найбільш часто використовуваних, будуть докладно описані в другому розділі курсу лекцій.

Приведемо коротку характеристику підходів до кластеризації [21].

Ø Алгоритми, засновані на поділі даних (Partitioning algorithms), у т.ч. ітеративні:

Ø поділ об'єктів на k кластерів;

Ø ітеративний перерозподіл об'єктів для поліпшення кластеризації.

Ø Ієрархічні алгоритми (Hierarchy algorithms):

Ø агломерація: кожен об'єкт спочатку є кластером, кластери, з'єднуючись один з одним, формують більший кластер і т.д.

Ø Методи, засновані на концентрації об'єктів (Density-based methods):

Ø засновані на можливості з'єднання об'єктів;

Ø ігнорують шуми, знаходження кластерів довільної форми.

Ø Грід-методи (Grid-based methods):

Ø квантування об'єктів у грід-структури.

Ø Модельні методи (Model-based):

Ø використання моделі для знаходження кластерів, найбільш відповідним даним.

 


<== попередня лекція | наступна лекція ==>
Методи, що застосовуються для вирішення задач класифікації | Оцінка якості кластеризації


Онлайн система числення Калькулятор онлайн звичайний Науковий калькулятор онлайн