Якщо відстань між об’єктами природно трактувати як міру відмінності об’єктів, то обернену величину можна розглядати як міру подібності (близькості) об’єктів.
1. Найчастіше відстань між об’єктами вимірюють в евклідовій матриці, яка найбільш узгоджена з нашими інтуїтивними представленнями про близькість об’єктів і визначається
, (4)
де та – значення компонент в опису 1-го та 2-го об’єктів, – розмірність простору ознак .
2. Широко використовується лінійна метрика (метрика міських кварталів або манхетенська метрика) яка задає відстань
, (5)
а також sup- норма , яка визначає чебишевську відстань
. (6)
На рис. 1. показано зміст цих відстаней.
- довжина відрізка АС;
- сума довжин відрізків АВ і ВС;
- довжина більшого з відрізків АВ і ВС, тобто АВ.
Рис.1. Ілюстрація змісту відстаней .
Очевидно, що з ростом розмірності манхетенська відстань підкреслює, а чебишевська злагоджує відмінності між об’єктами. Відстані визначаються для тих описів , в яких ознаки виражені кількісними шкалами і є по-суті частинними випадками узагальнення степеня відстані
Мінковського , для яких отримуються при . Існує досить велика різноманітність мір, але на практиці ці міри є найуживанішими.
Евклідова відстань ефективна при дослідженні слабокореляційних сукупностей об’єктів (кулеподібні класи), а манхетенська тоді, коли об’єкти утворюють плоскі витягнені класи, ортогональні будь-яким координатним осям простору ознак. Тому обробка однієї і тієї ж сукупності даних одним і тим же методом або алгоритмом, але з використанням різних метрик може дати різні, інколи кардинально протилежні, результати.
Наприклад. При використанні манхетенської метрики утворені класи витягнуті вздовж осі абсцис, а при використанні евклідової відстані об’єкти будуть згуртовані в два більш-менш рівні класи (пунктир). Отже, до вибору метрики слід підходити дуже продумано і обережно співставляючи результати використання різних метрик між собою із цілями здійснюваної обробки даних.
Якщо ознаки представляються в якісних шкалах, зокрема в шкалах найменувань та порядку, використовують відстань Хеммінга
для якої відмінності виражаються числом неспівпадінь властивостей порівнюваних об’єктів. У випадку якісних шкал ознаки розглядаються як бінарні, тобто такі, що можуть приймати лише два значення “ 0 “ та “ 1 “. Відстань Хеммінга є максимальною і рівна 1 для об’єктів з протилежними за значеннями описами, тобто елементи одного опису є протилежними до відповідних елементів опису другого об’єкту. Для об’єктів, всі ознаки яких (з числа включених в опис) співпадають, .