1.Проведем по исходным данным классификацию 20 стран.
Перед выполнением процедур кластерного анализа стандартизуем исходные данные — перейдем от переменных x(1), x(2), x(3), x(4), x(5) к новым переменным z(1), z(2), z(3), z(4), z(5) по правилу . Для этого обратимся к программе «Descriptives».
2.а)Перейдем к рассмотрению результатов работы программы .В матрице расстояний (таблица «Proximity Matrix») указаны евклидовы расстояния между объектами, например, евклидово расстояние между первым объектом (Бангладешем) и вторым (Беларусью) равно
Наблюдение
Матрица близостеи евклидовых расстояний
1:Бангладеш
2:Беларусь
3:Бельгия
4:Бразилия
…
20:Колумбия
1:Бангладеш
,000
2,986
3,852
2,720
…
2,813
2:Беларусь
2,986
,000
1,137
1,116
…
1,630
3:Бельгия
3,852
1,137
,000
1,382
…
1,936
4:Бразилия
2,720
1,116
1,382
,000
…
,929
…
…
…
…
…
…
20:Колумбия
2,813
1,630
1,936
,929
…
Все страны , кроме Индии и Китая вошли в первый кластер. Такое разбиение представляется бесполезным.
Стандартизированные переменные и принадлежность стран к кластерам.
3.
Метод средней связи
Судя по дендрограмме, полученной в результате иерархического кластерного анализа стран с объединением кластеров по методу дальнего соседа, исходную совокупность стран имеет смысл разбить на два кластера:
• в первый кластер вошли Бангладеш,Буркина-Фасо,Вьетнам,Гаити,Гондурас,Египет,Замбия;
• во второй кластер вошли Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия.Эта информация содержится в новой переменной «clu2_2», появившейся в окне ввода исходных данных.Судя по дендрограмме, полученной в результате иерархического кластерного анализа стран с объединением кластеров по методу средней связи,исходную совокупность стран имеет смысл разбить на два кластера:
• в первый кластерБеларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия, Бангладеш,Вьетнам, Гондурас,Египет,Замбия;
• во второй кластер вошли Замбия, Буркина-Фасо ,Гаити,.Эта информация содержится в новой переменной «clu2_3», появившейся в окне ввода исходных данных.
Такие разбиения представляются нам бесполезными.
4.Для реализации кластерного анализа этих же стран по методу K-средних обратимся к программе «K-Means Cluster Analysis».
В результате работы программы получено разбиение исходной совокупности стран на два кластера:
• в первый кластер вошли Бангладеш ,Буркина-Фасо,Гаити,Замбия,Индия;
• во второй кластер вошли Беларусь,Бельгия,Бразилия,Великобритания,Вьетнам,Германия,Гондурас,Гонконг,Египет,Ирландия,Испания,Италия,Канада,Китай,Колумбия.
Эта информация содержится в новой переменной «qcl_1», появившейся в окне ввода исходных данных.
В результате кластерного анализа стран по этому методу было полцчено такое же разбиение стран .
6. Поскольку при выполнении п. 5 не удалось выявить общие факторы, классифицировать страны по общим факторам невозможно.
7. Рассчитаем внутрикластерные средние и дисперсии каждого из пяти признаков. Для этого обратимся к программе «Means». Результаты работы программы для первого разбиения :
Внесем средние значения и исправленные выборочные дисперсии в табл и вычислим для каждого варианта разбиения сумму внутриклассовых дисперсий признаков. Эта сумма минимальна для первого варианта разбиения стран на кластеры.
8.В таблице «ANOVA Table», полученной в результате работы программы «Means» для первого варианта разбиения содержатся данные для проверки гипотез о равенстве математических ожиданий признаков в двух кластерах (при альтернативных гипотезах о различии математических ожиданий признаков). В последнем столбце («Sig») содержится
рассчитанный уровень значимости (P-значение).
Рассчитанный уровень значимости меньше 0,05 для третьего, второго,четвертого и пятого признаков, поэтому есть основания отвергнуть гипотезы о равенстве математических ожиданий признаков x(3), x(2), x(4), x(5) в двух кластерах, а оснований отвергнуть гипотезу о равенстве математических ожиданий признака x(1) в двух кластерах нет.
Таким образом, можно заключить, что математические ожидания смертности (x(3)), рождаемости (x(2)), среднего числа детуй в семье(x(4)) и процента городского населения (x(5)) в двух кластерах различны, а математические ожидания численности населения (x(1)) в двух кластерах одинаковы.
Это дает основания назвать первый кластер (Бангладеш,Буркина-Фасо,Вьетнам,Гаити,Гондурас,Египет,Замбия) группой менее развитых стран, а второй кластер(Беларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия) — группой более развитых стран.
Для второго варианта разбиения :
Рассчитанный уровень значимости меньше 0,05 для третьего, второго,четвертого признаков, поэтому есть основания отвергнуть гипотезы о равенстве математических ожиданий признаков x(3), x(2), x(4),) в двух кластерах, а оснований отвергнуть гипотезу о равенстве математических ожиданий признаков x(1) и x(5 в двух кластерах нет.
Таким образом, можно заключить, что математические ожидания смертности (x(3)), рождаемости (x(2)), среднего числа детуй в семье(x(4)) в двух кластерах различны, а математические ожидания численности населения (x(1)) и процента городского населения (x(5)) в двух кластерах одинаковы.
Это дает основания назвать первый кластер (кластерБеларусь,Бельгия,Бразилия,Великобритания,Германия,Гонконг,Индия,Ирландия,Испания,Италия,Канада,Китай,Колумбия, Бангладеш,Вьетнам, Гондурас,Египет,Замбия) группой более развитых стран, а второй кластер(Замбия, Буркина-Фасо ,Гаити) — группой менее развитых стран.
Для третьего варианта разбиения :
Рассчитанный уровень значимости меньше 0,05 для третьего, второго,четвертого и пятого признаков, поэтому есть основания отвергнуть гипотезы о равенстве математических ожиданий признаков x(3), x(2), x(4), x(5) в двух кластерах, а оснований отвергнуть гипотезу о равенстве математических ожиданий признаков x(1) в двух кластерах нет.
Таким образом, можно заключить, что математические ожидания смертности (x(3)), рождаемости (x(2)), среднего числа детуй в семье(x(4)) и процента городского населения (x(5)) в двух кластерах различны, а математические ожидания численности населения (x(1)) в двух кластерах одинаковы.
Это дает основания назвать первый кластер (Бангладеш ,Буркина-Фасо,Гаити,Замбия,Индия) группой менее развитых стран, а второй кластер(Беларусь,Бельгия,Бразилия,Великобритания,Вьетнам,Германия,Гондурас,Гонконг,Египет,Ирландия,Испания,Италия,Канада,Китай,Колумбия.) — группой менее развитых стран.
9.Результатом регрессионного анализа (с исключением) признака Y на признаки x(1), x(2), x(3), x(4), x(5) для первого кластера (по методу дальнего соседа)стало уравнение
Это уравнение и все его коэффициенты значимы, оценка нормированного коэффициента детерминации равна 0,903.
Анализ этого уравнения позволяет сделать следующие выводы:
• увеличение на единицу смертности в семье x(3)
сопровождается увеличением средней продолжительности
жизни мужчины в странах из первого кластера на 0,536 года (в целом по
52 странам увеличение смертности на единицу, как
было показано при выполнении п. 6 задания 1, сопровождается увеличением средней продолжительности жизни мужчины на 2,195 года);
Результатом регрессионного анализа (с исключением) признака Y на признаки x(1), x(2), x(3), x(4), x(5) для второго кластера стало уравнение
Анализ этого уравнения позволяет сделать следующие выводы:
• увеличение на единицу рождаемости x(2)
сопровождается уменьшением средней продолжительности
жизни мужчины в странах из второго кластера на 2,696 года (в целом по 52 странам увеличение рождаемости на единицу, как
было показано при выполнении п. 6 задания 1, сопровождается уменьшением средней продолжительности жизни мужчины на 4,346 года);