Cluster Membership (Принадлежность к кластеру)

Case (Случай)	5 Clusters (5 кластеров)	4 Clusters (4 кластера)	3 Clusters (3 кластера)	2 Clusters (2 кластера)
1:ALBA
2: BELG
3:BULG
4:DAEN 5:DEUT
6:DDR
7:FINN			-3
8:FRAN			-3
9:GRIE
10:iGROS
11:IRLA
12:ISLA			о
13:ITAL
14:JUGO
1 5:LUXE
16:NIED
17:NORW
18:OEST
19:POLE
20:PORT
21:RUMA
22:SCHD 23:SCHZ
24:SOWJ			i
!25:SPAN
26:TSCH
27:TUER 28:UNGA

назад :: оглавление :: дальше

Иерархический кластерный анализ с предварительным факторным анализом

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная

Значение

land

Страна

Процент городского населения

lem

Средняя продолжительность жизни мужчин

lew

Детская смертность на 1000 новорожденных

Количество часов ясной погоды в году

Количество дней пасмурной погоды в году

tjan

Средняя дневная температура в январе

tjul

Средняя дневная температура в июле

Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)

Они выглядят следующим образом:

Case Summaries a (Итоги по наблюдениям)

LAND (Страна)

Lebenserwartung (Ожидаемая продолжительность жизни)

Klima (Климат)

ALBA

-1,78349

,57155

BELG

,55235

-,57937

BULG

-,43016

-,13263

DAEN

,97206

-,23453

DDR

,26961

-,3351 1

DEUT

,19121

-,44413

FINN

-,30226

-1,28467

FRAN

1,05511

1,04870

GRIE

,12794

2,65654

GROS

,75443

-,05221

IRLA

,16370

-,66514

ISLA

1,75315

-,97421

ITAL

,40984

1,68933

JUGO

-2,63161

-,44127

LUXE

-.16469

-,98618

NIED

1,31001

-,29362

NORW

,96317

-,46987

OEST

-,20396

-,31971

POLE

-,65937

-,92081

PORT

-1,10510

1,59478

RUMA

-1,32450

,09481

SCHD

1,22645

-,20543

SCHZ

, 56289

-,45454

SOWJ

-,67091

-1,32517

SPAN

, 83627

1,91193

TSCH

-,59407

-,40632

TUER

-,52049

1,04424

UNGA

-,75761

-,08695

Total N

a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).

Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).

После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.

Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.

Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

Agglomeration Schedule

(Порядок агломерации)

Stage (Шаг)

Cluster Combined (Объединение в кластеры)

Coefficients (Коэф-фициенты)

Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)

Next Stage (Следу-ющий шаг)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

1,476

1,569

1,803

5,546

8,487

8,617

,108

,118

,129

,148

,164

,183

,228

,231

,254

,438

,645

,648

,810

,939

1,665

1,793

1,839

2,229

4,220

5,925

6,957

Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.

Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).

Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.

Cluster Membership (Принадлежность к кластеру)

Case (Случай)

5 Clusters (5 кластеров)

4 Clusters (4 кластера)

3 Clusters (3 кластера)

2 Clusters (2 кластера)