Кластерный анализ - Краткий обзор
Основная цель
Термин “Кластерный анализ” фактически охватывает ряд различных алгоритмов классификации. Общий вопрос, стоящий перед исследователями в фактически всех областях запроса - как организовать наблюдаемые данные в значимые структуры.
Например, биологам требуется выделить различные разновидности животных прежде, чем делать значимое описание различий между животными. Согласно современной классификации, используемой в биологии, человек принадлежит к приматам, млекопитающим, живородящим, позвоночным, и животным. Обратите внимание, что в этой классификации, чем выше уровень родства, тем менее подобными являются члены соответствующего классе. Человек имеет больше общего с другими приматами (например, обезьянами), чем с более "отдаленными" представителями млекопитающих (например, собаками), и т.д.
Статистическая оценка правдоподобия
Обратите внимание, что вышеупомянутые обсуждения относятся к алгоритмам кластеризации и ничего не говорят относительно статистической проверки значений. Фактически, кластерный анализ является не статистическим тестом, а совокупностью различных алгоритмов которые группируют объекты в кластеры.
Главное здесь - то, что, в отличие от многих других статистических процедур, методы кластерного анализа обычно используются, когда мы не имеем никаких априорных гипотез, но все еще находимся в исследовательской фазе нашей работы. В известном смысле, кластерный анализ находит "наиболее значимое из возможных решений". Следовательно, статистическая проверка гипотез действительно неприемлема в данном случае и даже в случаях, когда p-уровни известны (как в k-групповых средних).