Cluster Membership (Принадлежность к кластеру)

Case (Случай)	5 Clusters (5 кластеров)	4 Clusters (4 кластера)	3 Clusters (3 кластера)	2 Clusters (2 кластера)
1:ALBA
2:BELG
3:BULG
4:DAEN 5:DEUT
6:DDR
7:FINN			-3
8:FRAN			-3
9:GRIE
10:iGROS
11:IRLA
12:ISLA			о
13:ITAL
14:JUGO
1 5:LUXE
16:NIED
17:NORW
18:OEST
19:POLE
20:PORT
21:RUMA
22:SCHD 23:SCHZ
24:SOWJ			i
!25:SPAN
26:TSCH
27:TUER 28:UNGA

Пример 4. Классификация стран по уровню жизни населения

В 53.4 представлены значения следующих шести показателей, характеризующих условия жизни населения двадцати стран в 1994 г.:
x1 — потребление мяса и мясопродуктов на душу населения (кг);
х2 — смертность населения по причине болезни органов кровообращения на 100 тыс. человек;
х3 — оценка валового внутреннего продукта по паритету покупательной способности в 1994 г. на душу населения (в % по отношению к США);
x4 — расходы на здравоохранение (в % от ВВП);
x5 — потребление фруктов и ягод на душу населения (кг);
x6 — потребление хлебопродуктов на душу населения (кг).
Провести классификацию стран по уровню жизни населения и дать содержательную интерпретацию полученных результатов.

53.4
Макроэкономические показатели уровня жизни населения (1994 г.)

Решение. В условии задачи не оговорены число классов разбиения и вид законов распределения, а также не даны обучающие выборки. В этой связи при классификации использовались методы кластерного анализа.
Исходная информация ( 53.4) показывает, что в рассматриваемую совокупность входят страны бывшего СССР, Восточной Европы и промышленно развитые страны. Поэтому можно предположить, что искомое разбиение стран по уровню жизни населения будет состоять из трех или четырех кластеров.
Классификация проводилась по различным алгоритмам кластерного анализа, но наилучшими в содержательном плане оказались результаты, полученные при разбиении стран на четыре класса.
В первый кластер вошли одиннадцать (n1 =11) стран: Австралия, Австрия, Бельгия, Великобритания, Германия, Греция, Дания, Ирландия, Испания, Италия, Канада. Наиболее удалена от центра этого кластера Италия, которая характеризуется самым высоким для кластера уровнем потребления фруктов (х5) и хлебопродуктов (x6).
Во второй кластер вошли четыре (п2 = 4) страны: Россия, Белоруссия, Казахстан и Киргизия.
В третий кластер вошли две (n3 = 2) страны: Болгария и Венгрия.
В четвертый кластер вошли три (п4 = 3) страны: Азербайджан, Армения и Грузия.
Средние значения показателей для четырех кластеров представлены на 53.3 и в 53.5.

53.3. Средние значения показателей для каждого кластера (цифры у кривых соответствуют номерам кластеров)

53.5
Средние значения показателей

Кластер S1, в который входят промышленно развитые страны Запада, характеризуется ( 53.3) самыми высокими значениями: ВВП по паритету покупательной способности (x3), расходов на здравоохранение (х4), потребления мяса (x1) и фруктов (х5), а также самым низким значением смертности (х2).
Самое высокое потребление хлебопродуктов на душу населения (х6) у стран, входящих в кластеры S2 и S4.
В кластер S4 вошли страны, на территории которых происходили в рассматриваемый период вооруженные конфликты. Этот кластер характеризуется самыми низкими средними значениями показателей х3 и х4, а также x1 — среднедушевым потреблением мяса.
Заслуживает внимания матрица расстояний между центрами четырех кластеров:
Из матрицы следует, что кластеры S2, S3 и S4 примерно одинаково удалены друг от друга. Евклидово расстояние между ними равно соответственно 60,7; 53,0 и 55,5. Наиболее выделяется по уровню жизни населения кластер S1. Расстояния между S1 и кластерами S2, S3 и S4 равны соответственно 126,8; 83,3 и 120,6.

Пример 5

Поясним суть кластерного анализа, не прибегая к строгой терминологии:
допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом. То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать иерархический кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания:

Кластер	Муж	30-50 лет	>50 лет	Рук.	Мед	Льготы	з/п	стаж	Образов.
	80%	90%	5%	70%	10%	12%	95%	30%	30%
	40%	35%	45%	13%	60%	70%	60%	40%	20%
	50%	70%	10%	5%	30%	20%	70%	20%	50%

Поясним, как сформирована приведенная выше таблица:

В первом столбце расположен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера.

Первая группа - в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет (MED, LGOTI, TIME-своб время) их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.

Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей "в возрасте", занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.

Третья группа наиболее "молодая". В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

Пример 6 (Попов О.А.)

Мы будем классифицировать людей на основе шкал теста FPI. Для примера, попробуем классифицировать выборку из 45-ти человек. В конце процедуры мы узнаем какие существуют типы людей в данной выборке. Не исключено, что некоторые шкалы теста не различают людей, поэтому они будут удалены.

Первое, что нам нужно узнать - сколько типов в выборке целесообразно выделять. Для этого используем метод древовидной классификации.

Метод древовидной классификации – это пошаговый метод разбиения выборки на отдельные группы. Его принцип достаточно прост.

Шаг 1. Каждый человек признаётся единственным представителем своего кластера (типа). Количество типов равно объёму выборки.

Шаг 2. Находится несколько человек, которые наиболее похожи на первого. Теперь эти люди составляют один кластер. Количество кластеров уменьшается.

Шаг 3. Продолжаем искать кластеры, наиболее похожие друг на друга и объединять их. Теперь вся выборка разделена на некоторое количество групп, внутри которых люди очень схожи по своим характеристикам. Это продолжается, пока объединение не закончится и наступит последний шаг.

Шаг 4. Вся выборка объединяется в один кластер. Этот шаг не является информативным, так же как и первый шаг, но неизбежен в связи с процедурой.

Итак, у нас есть данные теста FPI и выборка 45 человек. Отобразим график древовидной классификации. Стрелки и подписи сделаны автором статьи.

Читаем этот график слева направо. Изначально каждый испытуемый обозначен чертой. Затем происходит объединение по два человека в наиболее похожие группы, затем группы объединяются, пока мы не получаем один общий кластер – нашу выборку.

Сколько же кластеров нам необходимо выделить? Это зависит от наших задач. Мы можем выделить:

Наибольшее количество кластеров (А1-А8)
Среднее количество (В1-В4)
Наименьшее количество кластеров (С1, С2).

Слишком мельчить – значит терять достоверность. 2-5 человек в кластере – это слишком мало. При большом количестве кластеров характеристики людей в них будут слишком размыты, не исключено, что некоторые шкалы теста окажутся одинаковыми для обеих кластеров и тогда мы потеряем эти шкалы. Слишком большое количество кластеров чревато потерей информативности. Мы выбераем средний вариант (В1-В4).

На этом основная функция древовидной классификации окончена. Мы можем узнать сколько людей входит в каждый кластер, и узнать подробности самого процесса разбиения на кластеры. Но главный результат этого метода – количество кластеров.

Когда мы знаем сколько кластеров можно выделить в выборке мы применяем