// Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения ( задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались).
Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:
не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.
число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием.
результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.
Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.
В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.
Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.
править задачи кластерного анализа
Задачи кластерного анализа можно объединить в следующие группы:
1. Разработка типологии или классификации.
2. Исследование полезных концептуальных схем группирования объектов.
3. Представление гипотез на основе исследования данных.
4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.