a Показатель качества для модели составляет R2=0,033 c P>0,001
В интерпретации результатов, представленных в таблице 4.18 есть еще одна специфика. Из представленных в таблице регрессионных коэффициентов следует, что, хотя разница в зарплате между представителями контрольной группы и респондентами, отнесшими себя к другим группам среднего слоя достаточно велика, t-статистика показывает, что эта разница слабо значима, либо незначима вообще.
Кажется, что из этого факта можно сделать два вывода. Во-первых, величина зарплаты лиц, относящих себя к высшему классу, приблизительно равна зарплате тех, кто относит себя к другим социальным слоям. Этот вывод напрямую следует из таблицы 4.18 регрессионных коэффициентов. Второй вывод, вроде бы, естественным образом следует из первого: зарплаты людей, относящих себя к разным социальным слоям равны между собой. Действительно, если зарплата, относящих себя к высшему слою, не отличается от зарплаты, относящих себя к высшей части среднего слоя, а с другой стороны, зарплата относящих себя к высшему слою не отличается от зарплаты, относящих себя к рабочим, то, кажется, что можно заключить, что зарплата относящих себя к рабочим не отличается от зарплаты, относящих себя к верхней части среднего слоя. Иными словами, если А равно В и А равно С, то, наверное, можно заключить, что В равно С. Это свойство в математике называют транзитивностью.
Оказывается, что в отношении коэффициентов свойство транзитивности не соблюдается. Это легко продемонстрировать, если построить регрессионную модель для тех же переменных, но в качестве контрольной группы взять, скажем, респондентов, относящих себя к нижнему слою. Регрессионные коэффициенты этой модели приведены в таблице 4.19.
Таблица 4.19
Результат расчета командой REGRESSION пакета SPSS
параметров регрессии для случая контрольной группы
«Принадлежность к низшему слою»a
Unstandardized Coefficients
Standardized Coefficients
t
Sig.
B
Std. Error
Beta
(Constant)
1286,3
358,6
3,6
0,000
2. К рабочим
845,3
376,0
0,17
2,2
0,025
3. К низшей части среднего слоя
818,0
405,8
0,12
2,0
0,044
4. К средней части среднего слоя
1505,2
384,8
0,28
3,9
0,000
5. К высшей части среднего слоя
2269,7
537,9
0,17
4,2
0,000
6. К высшему слою
1825,8
1194,5
0,05
1,5
0,127
a Показатель качества для модели составляет R2=0,033 c P>0,001
Вначале отметим, что показатель качества в двух обсуждаемых моделях одинаковый, что неизбежно, поскольку, количество информации в совокупностях фиктивных переменных в обоих случаях одинаково. Далее, модель, представленная в таблице 4.19 подтверждает одну часть первого вывода – зарплата тех, кто относит себя к высшему слою, слабо отличается от тех, кто относит себя к низшему слою. Что же касается второго вывода, то таблица 4.19 его опровергает. Действительно, зарплата в контрольной группе с вероятностью более, чем 95% отличается от зарплат всех групп, кроме группы респондентов, относящих себя к высшему слою. Следовательно, вывод о равенстве зарплат во всех группах не подтверждается.
Продемонстрированный метод использования номинальных, либо порядковых переменных в регрессионной модели открывает большие перспективы для включения в число независимых переменных широкого списка самых разных показателей. Есть, однако, определенная специфика использования нескольких переменных в таких моделях. Разберем этот вопрос ниже.
Несколько групп фиктивных переменных. Расширим список переменных, влияющих на заработную плату из примера модели (4.27), включением в этот список переменной «Образование респондента». Таким образом, мы хотим определить степень влияния на зарплату одновременно семейного положения и образования респондента. Две независимых переменных, каждая из которых имеет 4 градации, в совокупности дают нам 16 возможных сочетаний значений. Для каждого из этих сочетаний потребуется создание своей фиктивной переменной, кроме одного сочетания, которое будет выбрано контрольной группой. Таблица 4.20 показывает все возможные сочетания и создаваемые фиктивные переменные. В таблице 4.20 сочетание (4,4) было выбрано контрольной группой, и, соответственно, переменная Q44 в таблице отсутствует (для демонстрации эта клетка в таблице заштрихована).
Таблица 4.20
Список фиктивных переменных для включения в регрессионную модель
двух номинальных переменных – «Образование» и «Семейное положение»
ОБРАЗОВАНИЕ
1. Общее начальное или неполное среднее
2. Общее полное среднее
3. Среднее специальное
4. Незаконченное высшее, высшее
Семейное положение
1. Холост (не замужем)
Q11
Q12
Q13
Q14
2. Женат (замужем)
Q21
Q22
Q23
Q24
3. Разведен (а)
Q31
Q32
Q33
Q34
4. Вдовец
(вдова)
Q41
Q42
Q43
Две группы фиктивных переменных Включение в модель (4.27) двух групп фиктивных переменных дает нам модель (4.28).
y =
2527,7 +
853,6 Q1 +
484,6 Q2 +
179,8 Q3 -
594,4 Q4 -
925,7 Q5 -
819,4 Q6
(408,9)
(404,2)
(382,9)
(426,2)
(310,7)
(220,1)
(209,2)
(4.28)
P>0,001
P>0,04
P>0,21
P>0,67
P>0,06
P>0,001
P>0,001
Coefficients
Unstandardized Coefficients
t
Sig.
B
Std. Error
(Constant)
2058,5
955,3
2,2
0,03
Q11
1512,4
1186,1
1,3
0,20
Q21
217,7
1043,8
0,2
0,84
Q31
548,1
1055,3
0,5
0,60
Q41
1377,1
1025,7
1,3
0,18
Q12
311,5
1072,3
0,3
0,77
Q22
138,3
987,4
0,1
0,89
Q32
255,7
983,7
0,3
0,80
Q42
1813,4
985,1
1,8
0,07
Q13
-344,2
1614,7
-0,2
0,83
Q23
116,2
1087,3
0,1
0,92
Q33
-225,3
1081,9
-0,2
0,84
Q43
414,2
1110,5
0,4
0,71
Q14
24,9
1699,9
0,0
0,99
Q24
-545,5
1268,0
-0,4
0,67
Q34
-150,8
1326,6
-0,1
0,91
Какой смысл имеет коэффициент b0 в модели (4.28)? Напомним, что в модели (4.27) коэффициент b0 был равен среднему значению y в контрольной группе. В модели (4.28) мы имеем две группы фиктивных переменных, и, соответственно, две контрольных группы. Соответственно, в модели (4.28) контрольной группой будет пересечение двух контрольных групп. Иными словами, контрольная группа здесь это вдовцы (вдовы) с незаконченным, или полным высшим образованием и средняя зарплата в этой группе – 2527,7 рублей.
Какой смысл у коэффициента bi? Он показывает, как отличается среднее значение y в i-ой группе от среднего значения y в объединении контрольных групп, либо от контрольной группы, образованной для соответствующей группы фиктивных переменных.