русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Дискриминантный анализ


Дата добавления: 2013-12-24; просмотров: 2099; Нарушение авторских прав


Дискриминантный анализ является более универсальной статистической про­цедурой по сравнению с рассмотренными выше методами логистической регрес­сии. Основным результатом проведения дискриминантного анализа являются (также как для логистической регрессии) рассчитанные вероятности попадания каждого респондента в ту или иную группу, а также переменная, кодирующая при­надлежность их к данным группам. Наряду с этой информацией по результатам дискриминантного анализа можно составить уравнение дискриминантной функции.

В табл. 5.2 приведены основные характеристики переменных, участвующих в дис-криминантном анализе.

 

Таблица 5.2. Основные характеристики переменных, участвующих в анализе

Дискриминантный анализ
Зависимые переменные Независимые переменные
Количество Тип Количество Тип
Одна Номинальная Порядковая Любое Любой

 

При выборе зависимой переменной для дискриминантного анализа следует помнить, что увеличение числа категорий в ней практически всегда влечет уменьшение каче­ства статистической модели, то есть ее точности и надежности. Поэтому рекоменду­ется использовать в качестве зависимых переменные с малым количеством катего­рий (или преобразовывать существующие переменные к данному виду).

Для описания процесса проведения дискриминантного анализа применим следу­ющие исходные данные. Проводится маркетинговое исследование потенциально­го спроса на услуги нового развлекательного комплекса. Респонденты в ходе оп­роса отвечают на вопрос Будете ли Вы посещать новый комплекс? (q26) с вариантами ответа Да и Нет. В качестве независимых переменных, характеризующих респон­дентов, выделены:

■ возраст (ql8);

■ род занятий (ql9);

■ среднемесячный доход (q20);

■ количество членов семьи (q21);



■ среднемесячные расходы на досуг (q22);

■ пол (q23).

В результате дискриминантного анализа мы разделим респондентов на посетите­лей и не посетителей нового центра на основании выделенных социально-демо­графических характеристик опрошенных.

 
 

Откройте диалоговое окно Discriminant Analysis при помощи меню Analyze ► Classify ► Discriminant (рис. 5.16). Поместите переменную q26 в поле для зависимых перемен­ных Grouping Variable, а анализируемые независимые переменные — в область In­dependents. Выберите пошаговый метод ввода независимых переменных в модель (параметр Use stepwise method).

 
 
Рис. 5.16. Диалоговое окно Discriminant Analysis

 


Далее щелкните на кнопке Define Range для определения границ изменения зави­симой переменной q26 (рис. 5.17). В нашем случае минимальным значением (Mi­nimum) является 1, а максимальным (Maximum) — 2.

При помощи диалогового окна Statistics, активизируемого одноименной кнопкой, следует задать вывод результатов одномерного дисперсионного анализа (параметр

 
 

Univariate ANOVA), теста Box (параметр Box's M), а также нестандартизированых ко­эффициентов регрессии (параметр Unstandardized) (рис. 5.18).

 
 
Рис. 5.17. Диалоговое окно Define Range  

 
 

 
 
Рис. 5.18. Диалоговое окно Statistics

 


В следующем диалоговом окне, Stepwise Method, вызываемом при помощи кнопки Method, следует выбрать параметр Use probability of F (рис. 5.19). Активизация дан­ного параметра позволяет проводить введение переменных в регрессионную мо­дель более гибко по сравнению с абсолютным значением F-статистики (параметр, выбранный по умолчанию).

В следующем диалоговом окне, Classification, нас интересует только один параметр — Summary Table (рис. 5.20),

Наконец, при помощи кнопки Save можно создать в исходном файле данных но­вые переменные, содержащие для каждого респондента в выборке прогнозируе­мую принадлежность к группе (параметр Predicted group membership) и вероятность попадания каждого респондента в данные группы (параметр Probabilities of group membership; см. рис. 5.21).

После выполнения вышеописанных шагов щелкните на кнопке 0К, чтобы запус­тить программу дискриминантного анализа на исполнение. После окончания рас­четов в окне SPSS Viewer будут выведены результаты расчетов.

Первой важной для нас таблицей является Tests of Equality of Group Means (рис. 5.22). Она показывает, насколько значимо выбранные независимые переменные разде­ляют выборочную совокупность респондентов на исследуемые группы. В нашем случае получены весьма значимые результаты для всех исследуемых переменных (Sig. < 0,05). Это свидетельствует о том, что на их основании исследуемые группы зависимой переменной существенно различаются.

 
 

Следующая таблица, Test Results, показывает результаты теста Box на значимость различия между категориями исследуемой зависимой переменной (рис. 5.23). В на­шем случае данный тест показывает весьма высокую вероятность того, что данные различия являются статистически значимыми (Sig. < 0,001).

 
 

       
 
Рис. 5.19. Диалоговое окно Stepwise Method
 
   
Рис. 5.20. Диалоговое окно Classification

 


 


 
 

Рис. 5.21. Диалоговое окно Save
 
 

 
 
Рис. 5.22. Таблица Tests of Equality of Group Means  

 

 
 

 
 
Рис. 5.23. Таблица Test Results

 


Таблица Variables in the Analysis показывает, какие независимые переменные оказа­лись включенными в итоговую дискриминантную модель на последнем шаге ана­лиза (напомним, что мы выбрали пошаговый метод включения переменных в мо­дель). В нашем случае последним шагом является шаг 4. На четвертом шаге у нас остались четыре независимые переменные из шести (рис. 5.24).


 

 
 

Рис. 5.24. Таблица Variables in the Analysis


Таблица Eigenvalues позволяет оценить качество разделения респондентов на за­данные группы зависимой переменной (рис. 5.25). Соответствующий вывод можно сделать исходя из корреляционного коэффициента (столбец Canonical Correlation). В нашем случае данный коэффициент примерно равен 0,5, что свидетельствует о неудовлетворительном результате.

Еще одним важным показателем в этой таблице является собственное значение дискриминантной функции (столбец Eigenvalue). В общем случае большие значе­ния Eigenvalues указывают на высокую точность подобранной дискриминантной функции. В нашем случае рассматриваемое собственное значение весьма мало, что является негативным фактом. Необходимо отметить, что при наличии у зависи­мой переменной более двух категорий в ходе дискриминантного анализа строится несколько дискриминантных функций (по количеству категорий зависимой пере­менной минус 1).

Следующая таблица (рис. 5.26) также позволяет оценить качество приближения дискриминантной модели. В нашем случае статистическая значимость (Sig. < 0,001)

 
 

указывает на существенные различия между средними значениями дискриминантных функций в двух исследуемых группах зависимой переменной.

 
 
Рис. 5.25. Таблица Eigenvalues  

 
 

 
 
Рис. 5.26. Таблица Wilks' Lambda  

 

 

Следующие две таблицы (рис. 5.27 и 5.28) позволяют оценить, насколько отдельные независимые переменные, применяемые в дискриминантной функции, коррели­руют с ее стандартизированными коэффициентами. В первой таблице приводятся стандартизированные коэффициенты, а во второй — корреляционные коэффици­енты. При помощи стандартизированных коэффициентов, кроме всего прочего, можно непосредственно сравнивать относительный вклад каждой независимой переменной в различение двух исследуемых групп. Например, мы видим, что воз­раст респондентов влияет на их желание/нежелание посещать новый центр в 1,3 ра­за сильнее, чем род занятий.

Далее следуют коэффициенты дискриминантной функции (нестандартизирован-ные), на основании которых и строится дискриминантное уравнение, по форме похожее на уравнение регрессии (рис. 5.29). Это просто множители при соответ­ствующих переменных. С учетом константы уравнение дискриминантной функ­ции имеет вид:

 

Z=-0,845 + 0,207 × Возраст + 0,198 × Род_занятий - 0,289 × Кол-во_членов_семьи - 0,285 × Среднемесячные_расходы_на_досуг

 

Теперь на основании данного уравнения молено рассчитать вероятность, с которой та или иная социально-демографическая целевая группа респондентов будет по­сещать новый центр. Подставив в дискриминантное уравнение соответствующие значения, можно сделать вывод о том, что студенты в возрасте 20 лет, проживаю­щие одни и расходующие на свой досуг $ 50 в месяц, скорее всего, будут посещать новый развлекательный центр (вероятность 79 %)'.

Таблица, представленная на рис. 5.30, показывает средние значения дискриминант­ной функции в каждой анализируемой группе зависимой переменной.

 
 

 
 

 
 
Рис. 5.27. Таблица Standardized Canonical Discriminant Function Coefficients

 
 
Рис. 5.28. Таблица Structure Matrix  

 

 


 

 
 
Рис. 5.29. Таблица Canonical Discriminant Function Coefficients
 
 

 

 
 

 
 
Рис. 5.30. Таблица Functions at Group Centroids

 

 


 
 

Завершает вывод результатов дискриминантного анализа таблица Classification Results, в последней строке которой содержится информация о точности построен­ной модели (рис. 5.31). В нашем случае мы видим, что 77,7 % респондентов были корректно отнесены к одной из двух исследуемых групп (77,7% of original grouped cases correctly classified). Результаты оценки корректности классификации варьи­руются в пределах от 50 % до 100 %, поэтому полученный нами результат — при­мерно 78 % — можно считать удовлетворительным.

 
 
Рис. 5.31. Таблица Classification Results  

 




<== предыдущая лекция | следующая лекция ==>
Бинарная и мультиномиальная логистические регрессии | Факторный и кластерный анализ


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.082 сек.