Проблема расчета расстояний между группами объектов (кластеров). Возможные алгоритмы. Методы кластерного анализа.

Непосредственные данные – матрица различий между всеми парами объектов. Результат – дендрограмма.

{ Метод одиночной связи(метод ближайшего соседа) алгоритм начинается с поиска двух наиболее близких объектов, которые образуют первичный кластер, каждый следующие объекты присоединяются к кластеру, к одному из объектов которого он ближе. Метод образует небольшое число крупных кластеров. Результат не всегда даёт возможность определить, как много кластеров находится в данных.

{ Метод полной связи(метод дальнего соседа) Новый объект присоединяется к тому кластеру, самый далёкий элемент которого находится ближе всего к новому объекту, чем самые далёкие элементы других кластеров. Тут наблюдается тенденция к выделению большого числа компактных кластеров, состоящих из наиболее похожих элементов.

{ Метод средней связи(метод межгрупповой связи) На каждом шаге вычисляется среднее арифметическое расстояние между каждым объектом из одного кластера и каждым объектом из другого. Объект присоединяется к кластеру, если среднее расстояние с ним меньше, чем с любым другим кластером. Метод должен давать более точные результаты кластеризации, чем остальные методы.

Опыт и литературные данные свидетельствуют, что метод средней связи даёт наиболее близкую к реальной группировку. Но при этом метод одиночной связи «сжимает» пространство, образуя минимально возможное количество больших кластеров, а метод полной связи расширяет его образуя максимально возможное количество компактных кластеров.

Общий алгоритм проведения иерархического кластерного анализа. Проблема определения количества кластеров. Интерпретация результатов проведения кластерного анализа. Возможные содержательные результаты, получаемые с помощью этого метода.

v Отбор объектов для кластеризации (испытуемые - объекты, которые оцениваются испытуемыми - признаки измеренные на выборке испытуемых).

v Определение множества переменных, по которым будут различаться объекты кластеризации (набор измеренных признаков – субъекты оценки – испытуемые).

v Определение меры различия между объектами кластеризации.

v Выбор и применение метода классификации для создания групп сходных объектов.

v Проверка достоверности разбиения на классы (не всегда нужен)

Сложность определения количества классов состоит в том, что не существет формальных критериев для определения оптимального количества классов. В конечном итоге это определяется самим исследователем. Для предварительного определения числа классов можно обратиться к таблице последовательности агломерации.

Кластерный анализ позволяет избавиться от несгруппированных переменных и выявить иерархические кластеры, к которым факторный анализ не чувствителен( или вообще отпадает потребность в факторном анализе, кроме тех случаев, когда искомый результат – переход к новым переменным).
Стоит помнить, что корреляция является мерой сходства, а не различия, и для анализа следует использовать только абсолютные значения корреляций( они бывают так же и отрицательными, что тоже свидетельствует о сходстве)