1) Корреляционный анализ данных, включая проверку теста Фаррара-Глоубера на мультиколлинеарность факторов
В таблице 2 представлена матрица коэффициентов парной корреляции для всех переменных, участвующих в рассмотрении. Матрица получена с помощью инструмента Корреляция из пакета Анализ данных в Excel.
1) ЧП имеет довольно высокие парные корреляции со всеми переменными, кроме переменной ЗП (далее ее не будем рассматривать), что вполне объяснимо, так как предприятия отрасли «Связь» имеют специфическую продукцию;
2) большинство переменных анализа демонстрируют довольно высокие парные корреляции, что обуславливает необходимость проверки факторов на наличие между ними мультиколлинеарности. Тем более, что одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.
Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера по факторам ВП, ДЗ, ДО, КО, ОА, ОС, ПП.
Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов, реализация которых представлена ниже.
1) Проверка наличия мультиколлинеарности всего массива переменных
· Построим матрицу межфакторных корреляций R (таблица 3) и найдем её определитель с помощью функции МОПРЕД.
Таблица 3. Матрица межфакторных корреляций R
Переменная
ВП
ДЗ
ДО
КО
ОА
ОС
ПП
ВП
1.00
0.70
0.62
0.87
0.63
0.89
0.94
ДЗ
0.70
1.00
0.71
0.77
0.91
0.66
0.62
ДО
0.62
0.71
1.00
0.76
0.69
0.63
0.63
КО
0.87
0.77
0.76
1.00
0.69
0.76
0.80
ОА
0.63
0.91
0.69
0.69
1.00
0.56
0.54
ОС
0.89
0.66
0.63
0.76
0.56
1.00
0.85
ПП
0.94
0.62
0.63
0.80
0.54
0.85
1.00
Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов. Подтвердим это предположение оценкой статистики Фаррара-Глоубера.
· Вычислим наблюдаемое значение статистики Фаррара – Глоубера по формуле:
,
где n = 109 – количество наблюдений (компаний); k = 7 – количество факторов (переменных анализа).
Фактическое значение этого критерия сравниваем с табличным значением критерия с степенью свободы и уровне значимости α=0,05. Табличное значение можно найти с помощью функции ХИ2ОБР [10] . ХИ2.ОБР.ПХ(0,05; 21).
Так как (953,87>32,67), то в массиве объясняющих переменных существует мультиколлинеарность.
2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными.
· Вычислим обратную матрицу с помощью функции Excel МОБР (таблица 4).
Таблица 4. Обратная матрица
21.37
1.10
4.33
-7.73
-3.10
-5.52
-10.95
1.10
7.78
0.14
-1.86
-5.67
-1.30
-0.35
4.33
0.14
3.61
-2.85
-1.40
-1.39
-2.21
-7.73
-1.86
-2.85
7.49
1.28
1.63
2.16
-3.10
-5.67
-1.40
1.28
6.55
1.29
1.68
-5.52
-1.30
-1.39
1.63
1.29
5.42
0.28
-10.95
-0.35
-2.21
2.16
1.68
0.28
10.00
· Вычисление F-критериев , где – диагональные элементы матрицы (таблица 5).
Таблица 5. Значения F-критериев[11]
F1 (ВП)
F2 (ДЗ)
F3 (ДО)
F4 (КО)
F5 (ОА)
F6 (ОС)
F7 (ПП)
293.9661352
97.8124237
37.70943742
93.6206699
80.04703672
63.80765146
129.863357
· Фактические значения F-критериев сравниваются с табличным значением при n1= 7 и n2 = n - k – 1=109-7-1=101 степенях свободы и уровне значимости α=0.05, где k – количество факторов.
· Так как все значения F-критериев больше табличного, то все исследуемые независимые переменные мультиколлинеарны с другими. Больше других влияет на общую мультиколлинеарность факторов фактор ВП, меньше – фактор ДО.
3) Проверка наличия мультиколлинеарности каждой пары переменных
● Вычислим частные коэффициенты корреляции по формуле , где – элементы матрицы . Матрицу коэффициентов частной корреляции , можно получить с помощью программ VSTAT, SPSS (таблица 6).
Таблица 6. Матрица коэффициентов частных корреляций
Переменная
ВП
ДЗ
ДО
КО
ОА
ОС
ПП
ВП
ДЗ
-0.09
ДО
-0.49
-0.03
КО
0.61
0.24
0.55
ОА
0.26
0.79
0.29
-0.18
ОС
0.51
0.20
0.31
-0.26
-0.22
ПП
0.75
0.04
0.37
-0.25
-0.21
-0.04
● Вычисление t-критериев по формуле (таблица 7).
Таблица 7. t-критерии для коэффициентов частной корреляции[12]
Переменная
ВП
ДЗ
ДО
КО
ОА
ОС
ПП
ВП
ДЗ
-0.86
ДО
-5.69
-0.26
КО
7.75
2.52
6.59
ОА
2.73
13.12
3.02
-1.87
ОС
6.01
2.05
3.32
-2.66
-2.24
ПП
11.35
0.40
3.97
-2.60
-2.14
-0.38
Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n - k – 1)=109-7-1=101 и уровне значимости α=0,05.
Из таблиц 6 и 7 видно, что две пары факторов ОА и ДЗ, ПП и ВП имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того, чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре ПП и ВП оставляем ПП, так как у нее меньше связи с другими факторами; в паре ОА и ДЗ оставим ОА, во-первых, с экономической точки зрения, а, во-вторых, так как у нее меньше значение F-критерия и, значит, она меньше влияет на общую мультиколлинеарность факторов.
Таким образом, в результате проверки теста Фаррара-Глоубера остается пять факторов: ДО, КО, ОА, ОС, ПП.
Завершая процедуры корреляционного анализа, целесообразно посмотреть частные корреляции выбранных факторов с результатом ЧП. В последнем столбце таблицы 8 представлены значения t-критерия для столбца ЧП.
Таблица 8. Матрица коэффициентов частной корреляции с результатом ЧП
Переменная
ДО
КО
ОА
ОС
ПП
ЧП
t-критерий(
ДО
1.00
0.34
0.34
0.12
-0.12
0.16
1.63
КО
0.34
1.00
0.28
0.17
0.15
0.17
1.75
ОА
0.34
0.28
1.00
0.07
-0.04
-0.02
-0.24
ОС
0.12
0.17
0.07
1.00
0.59
-0.24
-2.49
ПП
-0.12
0.15
-0.04
0.59
1.00
0.71
10.27
ЧП
0.16
0.17
-0.02
-0.24
0.71
1.00
Из таблицы 8 видно, что межфакторные частные корреляции слабые, а переменная ЧП имеет высокую и одновременно статистически значимую частную корреляцию только с фактором ПП.
Уточнение набора факторов, наиболее подходящих для регрессионного анализа, осуществим другими методами отбора.
2) Пошаговый отбор факторов методом исключения из модели статистически незначимых переменных
В соответствии с общим подходом, пошаговый отбор следует начинать с включения в модель всех имеющихся факторов, то есть в нашем случае с восьмифакторной регрессии. Но мы не будем включать в модель факторы из заранее известных коллинеарных пар (в связи с наличием коллинеарности ранее были исключены из рассмотрения ВП и ДЗ), а также фактор ЗП, имеющий слабую связь с ЧП. Таким образом, пошаговый отбор факторов начнем с пятифакторного уравнения. Фрагмент пятифакторного регрессионного анализа представлен на рисунке 2.
tтабл(0.05;109-5-1=103)=
1.98326409
Коэффициенты
Стандартная ошибка
t-статистика
Y-пересечение
-2067.779334
16246.6282
-0.127274368
ОС
-0.040553788
0.016198212
-2.503596652
ПП
0.649466697
0.062951463
10.31694366
ДО
0.033862469
0.02067002
1.638240731
КО
0.049965808
0.028431981
1.75738047
ОА
-0.006074787
0.025402164
-0.239144461
Рисунок 2. Фрагмент пятифакторного регрессионного анализа
Статистически незначимыми ( ) оказались три фактора (на рисунке 1 они выделены жирным шрифтом). На следующем этапе пошагового отбора удаляем статистически незначимый фактор с наименьшим значением t-критерия, то есть фактор ОА (на рисунке 2 выделен цветом).
Аналогично поступаем до тех пор, пока не получим уравнение, в котором все факторы окажутся статистически значимыми. Этапы получения такого уравнения, то есть фрагменты соответствующих регрессионных анализов, представлены на рисунках 3, 4.
t табл(0.05;109-4-1=104)=
1.983037471
Коэффициенты
Стандартная ошибка
t-статистика
Y-пересечение
-3255.832024
15398.16512
-0.211442857
ОС
-0.040859333
0.016074384
-2.541891019
ПП
0.650673211
0.062463899
10.41678825
ДО
0.032173752
0.019338145
1.663745481
КО
0.048029464
0.027130844
1.770290058
Рисунок 3. Фрагмент четырехфакторного регрессионного анализа
tтабл(0,05;109-3-1=105)=
1.982815217
Коэффициенты
Стандартная ошибка
t-статистика
Y-пересечение
-4456.711199
15510.19708
-0.28734072
ОС
-0.037629315
0.016090498
-2.338604743
ПП
0.647303561
0.062954486
10.28208794
КО
0.071691944
0.023297943
3.07717916
Рисунок 4. Фрагмент трехфакторного регрессионного анализа
Из рисунка 3 видно, что уравнение с тремя факторами ОС, ПП и КО обладает статистически значимыми коэффициентами перед факторами (в нем незначим только свободный член), а, значит, и сами эти факторы статистически значимы.
Таким образом, в результате пошагового отбора получено трехфакторное уравнение регрессии, все коэффициенты которого (кроме свободного члена) значимы при 5%-ном уровне значимости, вида
,
где Y – ЧП, – ОС, – ПП, – КО.
3) Проверка теста на «длинную» и «короткую» регрессии
По результатам пунктов 1) и 2) возникает необходимость выбора из двух регрессий: «длинной» – с тремя факторами (ОС, ПП и КО) и «короткой» – с одним фактором (ПП).
Воспользуемся тестом на «длинную» и «короткую» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери её качества. Для этого используют тест проверки «длинной» и «короткой» регрессий.
Рассмотрим две модели регрессии:
yi= β0 + β1 xi1 +…+ βk xik+ε i (длинную)
yi= β0 + β1 xi1 +…+ βk xik-q+εi (короткую)
Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе
H0: βk-q+1 = βk-q+2…= βk =0,
т.е. последние q коэффициентов равны нулю.
Алгоритм проверки следующий:
o Построить по МНК длинную регрессию по всем факторам и найти для неё сумму квадратов остатков – .
o Построить по МНК короткую регрессию по первым факторам и найти для неё сумму квадратов остатков – .
o Вычислить F-статистику
o Если Fнабл>Fтабл (α, v1=q, v2=n-k-1), гипотеза отвергается (выбираем длинную регрессию), в противном случае – выбираем короткую регрессию.
На основании данных нашего примера сравним две модели: «длинную» (с факторами,, ) и «короткую» (только с фактором ).
1) Построим длинную регрессию по трем факторам , ,и найдем для неё сумму квадратов остатков – (рисунок 5).
Дисперсионный анализ
df
SS
MS
Регрессия
1.04794E+13
3.49313E+12
Остаток
2.25564E+12
Итого
1.2735E+13
Коэффициенты
Стандартная ошибка
t-статистика
Y-пересечение
-4456.711199
15510.19708
-0.28734072
ОС
-0.037629315
0.016090498
-2.338604743
ПП
0.647303561
0.062954486
10.28208794
КО
0.071691944
0.023297943
3.07717916
Рисунок 5. Фрагмент регрессионного анализа для длинной (трехфакторной) регрессии
2) Построим короткую регрессию по одному фактору и найдем для неё сумму квадратов остатков – (рисунок 6).
Дисперсионный анализ
df
SS
MS
Регрессия
1.02234E+13
1.02234E+13
Остаток
2.51168E+12
Итого
1.2735E+13
Коэффициенты
Стандартная ошибка
t-статистика
Y-пересечение
1286.42961
15643.62168
0.08223349
ПП
0.658080318
0.031533476
20.86925995
Рисунок 6. Фрагмент регрессионного анализа для короткой (однофакторной) регрессии
3) Вычислим F-статистику
,
4) Так как , отдаем предпочтение длинной регрессии