Класифікація – це віднесення об’єкта до його класу. Методи класифікації поділяють на два тири:
а) з навчанням – групи заздалегідь визначені;
б) без навчання – утворення таких груп на основі парметричних чи непараметричних критеріїв.
Чисельна класифікація. Чисельна таксономія встановлює класифікацію або неіснуючу раніше, або ігноруючи існуючу, створює нову. Її мета в спрощенні матриці даних. Дані, як правило, складаються з множини елементів, індивідів, об’єктів, кожен з яких визначається набором ознак. Множина даних вважається неоднорідною в тому сенсі, що її корисно розглядати, як складену з невідомого числа підмножин, які необхідно знайти. Причому елементи однієї множини є більш подібні між собою, ніж до елементів з інших підмножин. Тут термін “подібні” може бути визначений різними математичними виразами.
Є два типи інтересів користувача:
1) вияснити з якою мірою впевненості при використанні даної чисельної моделі можна вважати існування разних підмножин;
2) є підозра, що істинної відмінності між підмножинами немає, але для полегшення аналізу дуже великого числа елементів варто мати такі підмножини, отримавши їх шляхом штучного розчленування.
Інколи бажано транспонувати матрицю даних і класифікувати ознаки за їх значенням для різних об’єктів – зворотня класифікація.
Типи ознак:
Поліноміальні – (ознаки з невпорядкованими станами) визначаються станами (пр.: піщаник, граніт, базальт, крейда), хоча, можлива нумерація станів. Номер не несе ніякого змістового навантаження. Частинним випадком є бінарні (якісні) ознаки з двома станами.
Порядкові – (ознаки з впорядкованими станами) мають впорядкований ряд станів: рідкісний, порядковий, звичайний, багатющий. Хоча порядок має зміст, але відстані між станами невизначені.
Чисельні – (інколи метричні чи кількісні) вимірювані чи обчислювані кількості. Вимагають вибору шкали. В програмах обробки даних слід передбачити пропущені значення ознак.
Зчеплені – набір ознак, що представляють по суті одну ознаку. Вимагає спеціальеої математичної обробки.
Серіально-залежні – умовно визначувані, коли попадання деякої ознаки в певний стан робить неможливим визначення іншої.
Типи класифікацій.Чисельні класифікації включають різні числові процеси, з яких вибирають найбільш відповідні. Послідовність вибору показано на рисунку:
Виключаючі / не виключаючі. Виключаючі – кожен елемент може бути лише в одній підмножині. Не виключаючі – один елемент може бути в різних підмножинах.
Внутрішні / зовнішні. Внутрішні – класифікація основана лише на заданому наборі ознак і всі ознаки на початковому етапі вважаються рівнозначними. Зовнішні – одна з ознак є зовнішньою і задача полягає в тому, щоб, використовуючи лише інформацію про рушту внутрішніх ознак, отримати класифікацію, яка найкращим чином відображає зовнішню ознаку.
Ієрархічні / не ієрархічні. Ієрархічні – групи розглядають попарно як можливі кандидати для об’єднання, при критарії найменшого збільшення неоднорідності. Не ієрархічні – групи вибираються так, щоб кожна була при можливості більш однорідною але відношення між групами невіяснені.
Агломеративні / дивізивні. Агломеративні – об’єкти об’єдуються в множини зростаючого об’єму, поки не відбудеться об’єднання в одну множину. В дивізівному – вихідна множина поступово ділиться, поки не буде досягнуте бажане розділення.
Монотетичні і політетичні. Монотетичні – поділ здійснюється на основі однієї ознаки, яка має максимальну інформативність. В політетичній всі ознаки враховуються однаковою мірою.
На початку класифікації всі ознаки вважаються рівноправними, але після класифікації може виявитись, що вклад в отриманий результат різних ознак – різний. Виникає потреба в діагностичній системі, яка б слідкувала за ходом класифікації і видавала б впорядкований список вкладів ознак для кожного чергового об’єднання чи розділення.
Міри подібності і відмінності. На практиці всі сучасні системи мають справу з мірами відмінності об’єктів. Виділяють два головних класи:
1. -міри, що можуть бути обчислені для двох елементів чи груп елементів до їх об’єднання, якщо відомі їх характеристики.
2. Включає -міри, які зв’язують характеристики груп до і після об’єднання.
Для стандартного набору програм класифікації на практиці використовують наступні:
коефіцієнт кореляції;
міри, основані на Евклідовій метриці;
міри, основані на Манхеттенській метриці;
інформаційні статистики.
Введемо позначення: , – значення та ознак для двох об’єктів , . У випадку бінарних ознак використовують – позначення, де – число ознак, які мають обидва об’єкти; – число ознак, які не зустрічаються ні в одному з об’єктів; – числа ознак, які має лише один з об’єктів.
Коефіцієнт кореляції. Нехай і - значення для -ої з -ознак -го та -го об’єктів, а , - середнє для ознак цих об’єктів.
.
Якщо ознаки представлені дихотомічно, тобто, коли і - рівні “0” чи “1”, то в цьому випадку використовують позначення , а для обчислення коєфіцієнта кореляції використовують формулу -коєфіцієнта Пірсона
. (8)
При цьому порядкові змінні можуть опрацьовуватись так само, як числові. У випадку, коли мають номінальні і числові ознаки, номінальну ознаку з станами розглядають як набір з незалежних бінарних ознак з станами “0” та “1” і вважають дійсними числами.
Евклідова метрика, тобто метрика Мінковського другого порядку визначається співвідношенням
. (9)
Для того, щоб стратегії класифікації були адитивними по відношенню до ознак, використовують квадрат відстані поділений на число його ознак.
У випадку числових ознак при різних фізичних одиницях їх необхідно привести до безрозмірних і стандартизувати. У випадку порядкових ознак значення станів вважаються рівновіддаленими і проводять обробку, як з числовими змінними.
Для номінальних ознак, коли серед об’єктів, з яких знаходиться в стані номінальної ознаки, як показник розсіювання, обчислюють дисперсію за формулою
,
а у випадку повністю бінарних ознак (не стандартизовану) Евклідова відстань обчислюють як
.
Манхеттенська метрика. Ця метрика є частинним випадком метрики Мінковського порядку 1
.
Значення часто ділять на число ознак. Для числових ознак переважно використовують
метрику Брея-Кертиса
,
причому , при цьому використовують стандартизовані додатні дані та
Канберівську метрику
.
Канберівська метрика автоматично стандартизована і при невід’ємних знаходиться в межах 0,1. Вона нечутлива до значень, які сильно різняться між собою і є доброю для сильно асиметричних даних. При її значення рівне 1 і не залежить від , тому нульові значення замінюють меншими від найменших в матриці даних. У випадку від’ємних даних знаменник замінюють виразом . Проте тоді міра приймає максимальне значення рівне 1 у всіх випадках, коли і приймають протилежні знаки.
Інформаційна статистика. В основі цієї статистики використовується Шеннонівське поняття інформації, основане на .
Бінарні ознаки. Нехай маємо групу з елементів, які описуються присутністю чи відсутністю ознак, і нехай елементів мають ознаку . В цьому випадку інформаційний зміст такої групи визначається виразом
. (1)
Нехай інформаційний зміст двох груп і А відповідно рівний та , і нехай обидві ці групи об’єднано в одну групу С з інформаційним змістом . Тоді можна визначити інформаційний виграш від об’єднання двох груп за формулою
. (2)
Інформаційний зміст одного елемента чи групи однакових елементів в цій моделі завжди рівний нулю. Процедура обчислень виглядає так.
Нехай окремий елемент, що підлягає класифікації, представляє популяцію (групу, множину) з елементів, які розділені на категорії (види рослин чи тварин) так, що в -у категорію попадає індивідів, причому . Визначимо інформаційний зміст повної категорії, який також називається різноманіттям, як
. (3).
Тоді інформаційний виграш цієї категорії визначається виразом (1). Запишемо його в явному виді. Нехай два елементи, які об’єднуються, представляються стрічками-векторами і , - суми по стрічках , – сума по стовпчику і – загальна сума, тоді
. (4)
Ця величина називається переданою інформацією. Наступний приклад пояснює суть інформаційної статистики.
Нехай необхідно знайти повну інформацію для випадку п’яти об’єктів, коли кожен з них характеризується чотирьома бінарними ознаками, причому, три об’єкти мають першу ознаку, два – другу, четверо – третю і всі п’ять – четверту. Позначимо таку групу таким чином: ( 3 – 2 – 4 – 5 ). Інформація, що відповідає першій ознаці рівна
.
Для другої ознаки маємо таку саму величину:
.
Для – третьої:
.
Для – четвертої:
.
Зауважимо, що якщо або , то інформаційний зміст є рівний нулю, таким чином, інформаційний зміст одного об’єкта чи групи повністю ідентичних об’єктів також рівний нулю. Крім того, вважається що і .