русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Cluster Membership (Принадлежность к кластеру)


Дата добавления: 2015-08-31; просмотров: 870; Нарушение авторских прав


Case (Случай) 5 Clusters (5 кластеров) 4 Clusters (4 кластера) 3 Clusters (3 кластера) 2 Clusters (2 кластера)
1:ALBA
2: BELG
3:BULG
4:DAEN 5:DEUT
6:DDR
7:FINN -3
8:FRAN -3
9:GRIE
10:iGROS  
11:IRLA
12:ISLA о
13:ITAL
14:JUGO
1 5:LUXE
16:NIED  
17:NORW
18:OEST
19:POLE
20:PORT
21:RUMA  
22:SCHD 23:SCHZ
24:SOWJ i
!25:SPAN    
26:TSCH
27:TUER 28:UNGA

назад :: оглавление :: дальше

Иерархический кластерный анализ с предварительным факторным анализом

 

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная

Значение

 

land



Страна

 

sb

Процент городского населения

 

lem

Средняя продолжительность жизни мужчин

 

lew

 

ks

Детская смертность на 1000 новорожденных

 

so

Количество часов ясной погоды в году

 

nt

Количество дней пасмурной погоды в году

 

tjan

Средняя дневная температура в январе

 

tjul

Средняя дневная температура в июле

 

 

Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

 

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

 

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

 

Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)

 

Они выглядят следующим образом:

 

Case Summaries a (Итоги по наблюдениям)

LAND (Страна)

Lebenserwartung (Ожидаемая продолжительность жизни)

Klima (Климат)

 

ALBA

-1,78349

,57155

 

BELG

,55235

-,57937

 

BULG

-,43016

-,13263

 

DAEN

,97206

-,23453

 

DDR

,26961

-,3351 1

 

DEUT

,19121

-,44413

 

FINN

-,30226

-1,28467

 

FRAN

1,05511

1,04870

 

GRIE

,12794

2,65654

 

GROS

,75443

-,05221

 

IRLA

,16370

-,66514

 

ISLA

1,75315

-,97421

 

ITAL

,40984

1,68933

 

JUGO

-2,63161

-,44127

 

LUXE

-.16469

-,98618

 

NIED

1,31001

-,29362

 

NORW

,96317

-,46987

 

OEST

-,20396

-,31971

 

POLE

-,65937

-,92081

 

PORT

-1,10510

1,59478

 

RUMA

-1,32450

,09481

 

SCHD

1,22645

-,20543

 

SCHZ

, 56289

-,45454

 

SOWJ

-,67091

-1,32517

 

SPAN

, 83627

1,91193

 

TSCH

-,59407

-,40632

 

TUER

-,52049

1,04424

 

UNGA

-,75761

-,08695

 

Total N

 

 

a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).

 

Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

 

 

Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

 

 

Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).

 

 

После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.

 

 

Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.

 

 

Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

 

Agglomeration Schedule

(Порядок агломерации)

 

Stage (Шаг)

Cluster Combined (Объединение в кластеры)

Coefficients (Коэф-фициенты)

Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)

Next Stage (Следу-ющий шаг)

 

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

 

1,476

 

1,569

 

1,803

 

5,546

 

8,487

 

8,617

 

,108

 

,118

 

,129

 

,148

 

,164

 

,183

 

,228

 

,231

 

,254

 

,438

 

,645

 

,648

 

,810

 

,939

 

1,665

 

1,793

 

1,839

 

2,229

 

4,220

 

5,925

 

6,957

 

 

Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.

 

Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).

 

Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.

 

Cluster Membership (Принадлежность к кластеру)

Case (Случай)

5 Clusters (5 кластеров)

4 Clusters (4 кластера)

3 Clusters (3 кластера)

2 Clusters (2 кластера)

 



<== предыдущая лекция | следующая лекция ==>
 | 


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.857 сек.