К л а с т е р н ы й а н а л и з

1.Проведем по исходным данным классификацию 20 стран.

Перед выполнением процедур кластерного анализа стандартизуем исходные данные — перейдем от переменных x(1), x(2), x(3), x(4), x(5) к новым переменным z(1), z(2), z(3), z(4), z(5) по правилу . Для этого обратимся к программе «Descriptives».

2.а)Перейдем к рассмотрению результатов работы программы .В матрице расстояний (таблица «Proximity Matrix») указаны евклидовы расстояния между объектами, например, евклидово расстояние между первым объектом (Бангладешем) и вторым (Беларусью) равно

Наблюдение	Матрица близостеи евклидовых расстояний
1:Бангладеш	2:Беларусь	3:Бельгия	4:Бразилия	…	20:Колумбия
1:Бангладеш	,000	2,986	3,852	2,720	…	2,813
2:Беларусь	2,986	,000	1,137	1,116	…	1,630
3:Бельгия	3,852	1,137	,000	1,382	…	1,936
4:Бразилия	2,720	1,116	1,382	,000	…	,929
…	…	…	…	…	…
20:Колумбия	2,813	1,630	1,936	,929	…

Все страны , кроме Индии и Китая вошли в первый кластер. Такое разбиение представляется бесполезным.

Стандартизированные переменные и принадлежность стран к кластерам.

Метод средней связи

Судя по дендрограмме, полученной в результате иерархического кластерного анализа стран с объединением кластеров по методу дальнего соседа, исходную совокупность стран имеет смысл разбить на два кластера:

• в первый кластер вошли Бангладеш,Буркина-Фасо,Вьетнам,Гаити,Гондурас,Египет,Замбия;

• во второй кластер вошли Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия.Эта информация содержится в новой переменной «clu2_2», появившейся в окне ввода исходных данных.Судя по дендрограмме, полученной в результате иерархического кластерного анализа стран с объединением кластеров по методу средней связи,исходную совокупность стран имеет смысл разбить на два кластера:

• в первый кластерБеларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия, Бангладеш,Вьетнам, Гондурас,Египет,Замбия;

• во второй кластер вошли Замбия, Буркина-Фасо ,Гаити,.Эта информация содержится в новой переменной «clu2_3», появившейся в окне ввода исходных данных.

Такие разбиения представляются нам бесполезными.

4.Для реализации кластерного анализа этих же стран по методу K-средних обратимся к программе «K-Means Cluster Analysis».

В результате работы программы получено разбиение исходной совокупности стран на два кластера:

• в первый кластер вошли Бангладеш ,Буркина-Фасо,Гаити,Замбия,Индия;

• во второй кластер вошли Беларусь,Бельгия,Бразилия,Великобритания,Вьетнам,Германия,Гондурас,Гонконг,Египет,Ирландия,Испания,Италия,Канада,Китай,Колумбия.

Эта информация содержится в новой переменной «qcl_1», появившейся в окне ввода исходных данных.

В результате кластерного анализа стран по этому методу было полцчено такое же разбиение стран .

6. Поскольку при выполнении п. 5 не удалось выявить общие факторы, классифицировать страны по общим факторам невозможно.

7. Рассчитаем внутрикластерные средние и дисперсии каждого из пяти признаков. Для этого обратимся к программе «Means». Результаты работы программы для первого разбиения :

Внесем средние значения и исправленные выборочные дисперсии в табл и вычислим для каждого варианта разбиения сумму внутриклассовых дисперсий признаков. Эта сумма минимальна для первого варианта разбиения стран на кластеры.

Метод разбиения	Номер кластера	Страны,вошедшие в кластер	Внутриклассовые средние значения признаков	Внутриклассовые дисперсии признаков
Дальнего соседа		Бангладеш,Буркина-Фасо,Вьетнам,Гаити,Гондурас,Египет,Замбия			152428822165,55
	Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия.
Средней связи		Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия, Бангладеш,Вьетнам, Гондурас,Египет,Замбия			116622870494,91
	Замбия, Буркина-Фасо ,Гаити
K-средних		Бангладеш ,Буркина-Фасо,Гаити, Замбия,Индия			246700345908,77
	Беларусь,Бельгия,Бразилия,Великобритания, Вьетнам,Германия,Гондурас,Гонконг,Египет, Ирландия,Испания,Италия,Канада,Китай,Колумбия.

8.В таблице «ANOVA Table», полученной в результате работы программы «Means» для первого варианта разбиения содержатся данные для проверки гипотез о равенстве математических ожиданий признаков в двух кластерах (при альтернативных гипотезах о различии математических ожиданий признаков). В последнем столбце («Sig») содержится

рассчитанный уровень значимости (P-значение).

Рассчитанный уровень значимости меньше 0,05 для третьего, второго,четвертого и пятого признаков, поэтому есть основания отвергнуть гипотезы о равенстве математических ожиданий признаков x(3), x(2), x(4), x(5) в двух кластерах, а оснований отвергнуть гипотезу о равенстве математических ожиданий признака x(1) в двух кластерах нет.

Таким образом, можно заключить, что математические ожидания смертности (x(3)), рождаемости (x(2)), среднего числа детуй в семье(x(4)) и процента городского населения (x(5)) в двух кластерах различны, а математические ожидания численности населения (x(1)) в двух кластерах одинаковы.

Это дает основания назвать первый кластер (Бангладеш,Буркина-Фасо,Вьетнам,Гаити,Гондурас,Египет,Замбия) группой менее развитых стран, а второй кластер(Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия) — группой более развитых стран.

Для второго варианта разбиения :

Рассчитанный уровень значимости меньше 0,05 для третьего, второго,четвертого признаков, поэтому есть основания отвергнуть гипотезы о равенстве математических ожиданий признаков x(3), x(2), x(4),) в двух кластерах, а оснований отвергнуть гипотезу о равенстве математических ожиданий признаков x(1) и x(5 в двух кластерах нет.

Таким образом, можно заключить, что математические ожидания смертности (x(3)), рождаемости (x(2)), среднего числа детуй в семье(x(4)) в двух кластерах различны, а математические ожидания численности населения (x(1)) и процента городского населения (x(5)) в двух кластерах одинаковы.

Это дает основания назвать первый кластер (кластерБеларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия, Бангладеш,Вьетнам, Гондурас,Египет,Замбия) группой более развитых стран, а второй кластер(Замбия, Буркина-Фасо ,Гаити) — группой менее развитых стран.

Для третьего варианта разбиения :

Это дает основания назвать первый кластер (Бангладеш ,Буркина-Фасо,Гаити,Замбия,Индия) группой менее развитых стран, а второй кластер(Беларусь,Бельгия,Бразилия,Великобритания,Вьетнам,Германия,Гондурас,Гонконг,Египет,Ирландия,Испания,Италия,Канада,Китай,Колумбия.) — группой менее развитых стран.

9.Результатом регрессионного анализа (с исключением) признака Y на признаки x(1), x(2), x(3), x(4), x(5) для первого кластера (по методу дальнего соседа)стало уравнение

Это уравнение и все его коэффициенты значимы, оценка нормированного коэффициента детерминации равна 0,903.

Анализ этого уравнения позволяет сделать следующие выводы:

• увеличение на единицу смертности в семье x(3)

сопровождается увеличением средней продолжительности

жизни мужчины в странах из первого кластера на 0,536 года (в целом по

52 странам увеличение смертности на единицу, как

было показано при выполнении п. 6 задания 1, сопровождается увеличением средней продолжительности жизни мужчины на 2,195 года);

Результатом регрессионного анализа (с исключением) признака Y на признаки x(1), x(2), x(3), x(4), x(5) для второго кластера стало уравнение

Анализ этого уравнения позволяет сделать следующие выводы:

• увеличение на единицу рождаемости x(2)

сопровождается уменьшением средней продолжительности

жизни мужчины в странах из второго кластера на 2,696 года (в целом по 52 странам увеличение рождаемости на единицу, как

было показано при выполнении п. 6 задания 1, сопровождается уменьшением средней продолжительности жизни мужчины на 4,346 года);