v n - подлежащих классификации наблюдений, заданных матрицей X, размерности nxp.
v Отсутствует априорная информация о характере распределения наблюдений Xi (i=1,2,…,n)
v Отсутствуют обучающие выборки
Общая постановка задачиавтоматической классификации
Всю анализируемую совокупность объектов , представленную в виде матрицы наблюдений X «объект-свойство», либо матрицы парных расстояний R
разбить на сравнительно небольшое число однородных, в определенном смысле, групп или классов.
При этом априорная информация о количестве кластеров и их характеристиках отсутствует
Решение задачи заключается в определении естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.
Наиболее трудным и менее формализованным является определение понятие однородности объектов.
Для этого вводят понятие расстояния между объектами dij = d (Оi,Оj) – расстояние между Оi и Оj объектами и степень близости (сходства) dij i-го объекта к j-му
Выбор метрики или меры близости является узловым моментом исследования, от которого зависит окончательный вариант разбиения объектов на классы.
Выбор метрики или меры близости в каждом конкретном случае должен производиться в зависимости от: целей исследования, физической и статистической природы вектора наблюдений Х, априорных сведений о характере вероятностного распределения Х.
Однородность группы => генеральная совокупность с одновершинной плотностью распределения (полигоном частот). Если при этом известно, что наблюдения Xi извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций ∑, то естественным является расстояние махаланобисного типа.
1.Обобщенное (взвешенное) расстояние Махаланобиса
- вектор-столбец, соответствующий i – му наблюдению
Xij - значение j-го показателя для i-го объекта;
- симметричная неотрицательно-определенная матрица «весовых коэффициентов», которая обычно выбирается диагональной
- ковариационная матрица, соответствующая р -мерному вектору наблюдений Xi
2. Обычное Евклидово расстояние
Получается из метрики Махаланобиса в предположении, чтоэлементы вектора Xiвзаимно независимы и имеют одну и туже дисперсию , то есть Все показатели одинаково важны для классификации, то есть
Использование этого расстояния оправдано в следующих случаях:
а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение (т.е. компоненты Х взаимно независимы и имеют одну и ту же дисперсию)
б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;
в) признаковое пространство совпадает с геометрическим пространством.
3.Взвешенное Евклидово расстояние
где wl, “вес” пропорционально степени важности признака. Обычно принимают 0£w£1, где l=1,2,...р.
Определение “весов”, как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений.
Попытки определения весов только по информации, содержащейся в выборке, как правило, не дают желаемого успеха
4. Хеммингово расстояние
Используется как мера различия объектов, задаваемых дихотомическими (атрибутивными) признаками и равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах.