На этой схеме видно, что одну переменную «Ваше семейное положение» мы преобразовали в 4 дихотомических переменных, которые в совокупности эквивалентны одной исходной переменной. Эквиваленты в том смысле, что вся информация, которая содержится в ответе респондента на исходный вопрос без каких- то потерь может быть извлечена из значений новых 4-х переменных. Более того, на самом деле для восстановления информации исходного вопроса достаточно любых трех из четырех созданных переменных. Действительно, если мы оставим лишь первых три переменных- Q1, Q2, Q3, то кажется, что мы можем потерять ответы тех респондентов, которые отметят семейное положение «4». Однако, при таком ответе респондента значения переменных Q1, Q2 и Q3 будут равны нулю. Таким образом, значение нулю данных трех переменных означает, что переменная Q4 будет равна единице. Если же хотя бы одна из переменных Q1, Q2 или Q3 равна единице, то это означает, что переменная Q4 равна нулю.
Общее правило, которое следует из рассмотренного примера, состоит в том, что всю информацию, которая содержится в переменной с N градациями можно сохранить используя N-1 дихотомическую переменную.
Что мы выигрываем, заменяя одну исходную переменную несколькими дихотомическими? Выигрываем мы многое: у нас появляется возможность включения переменной «Семейное положение», измеренной на номинальном уровне, в регрессионную модель. Правда, придется нам включать не одну переменную, а несколько дихотомических, но, самое главное, что теперь мы можем изучать степень воздействия на y не только количественных показателей, но любых социологических переменных.
Интерпретация коэффициентов регрессии при фиктивных переменных. Смысл коэффициентов регрессии при фиктивных переменных принципиально отличается от коэффициентов при обычных количественных переменных. Напомним, что нестандартизованный коэффициент bi показывает, на сколько единиц изменяется значение y при изменении xi на одну единицу. Для понимания смысла регрессионных коэффициентов при фиктивных переменных вернемся к последнему примеру, в котором мы создали три фиктивных переменных для переменной «Семейное положение». Если выполнить процедуру построения модели множественной регрессии с использованием этих переменных, то модель будет выглядеть следующим образом:
y = b0 + b1 Q1 + b2 Q2 + b3 Q3 (4.26)
Что показывает в этой модели коэффициент b0? Обратите внимание, что в ситуации, когда исходная переменная «Семейное положение» имеет значение «4», то есть, когда респондент отметил в вопросе позицию «Вдовец (вдова)», то переменные Q1, Q2 и Q3 будут равны нулю. Таким образом, уравнение (4.26) для таких респондентов превращается в выражение y = b0. Отсюда и смысл коэффициента b0 – это среднее значение y для той группы респондентов, для которой не создано фиктивной переменной.
Чему будет равно среднее значение y для тех респондентов, которые на вопрос о семейном положении отметили позицию «1» (то есть у респондентов, которые холосты (не замужем))? Для этих респондентов фиктивная переменная Q1 будет равна 1, а остальные – нулю. Таким образом, уравнение (4.26) приобретает следующую форму: y = b0+b1. Это выражение показывает, что среднее значение y для респондентов, имеющих семейное положение «1», на b1 отличается от среднего значения y у респондентов, имеющих семейное положение «4». Из последнего вывода следует и общая закономерность, объясняющая смысл регрессионных коэффициентов при фиктивных переменных.
Коэффициент bi при фиктивной переменной xi показывает, на сколько среднее значение y в группе респондентов, для которых значение фиктивной переменной xi равно 1, отличается от среднего значения y в группе респондентов, для которых не создано фиктивной переменной. Все коэффициенты bi при фиктивных переменных показывают величину различия с одной группой респондентов. Таким образом, группа, для которой не создано фиктивной переменной выступает эталонной, с которой и производится сопоставление всех остальных групп. Для подчеркивания этого факта такую группу обычно называют контрольной группой.
Если вернуться к примеру с созданием фиктивных переменных для показателя «Семейное положение» возьмем в качестве y величину заработка респондента и построим регрессионную модель с построенными фиктивными переменными (4.27)[2].
y =
1805,8 +
915,3 Q1 +
515,6 Q2 +
172,9 Q3
(4.27)
(373,6)
(407,1)
(385,3)
(428,8)
P>0,001
P>0,03
P>0,18
P>0,69
Из модели (4.27) видно, что средний заработок респондентов с семейным положением «4» (то есть вдовцов) составляет 1805,8 рублей. Средний заработок холостяков (семейное положение «1») выше заработка вдовцов на 915,3 рубля. Средний заработок группы женатых (замужних) респондентов выше заработка вдовцов на 515,6 рублей. Заработок же разведенных респондентов выше заработка вдовцов в среднем на 172,9 рублей.
О выборе контрольной группы. Удобная и социологически прозрачная интерпретация результатов регрессионного анализа с использованием фиктивных переменных существенно зависит от выбора контрольной группы. Обсуждая значение каждого из регрессионных коэффициентов, мы говорим, что они показывают насколько среднее значение y в этой группе больше (или меньше) среднего значения y в контрольной группе. Для того, что бы такое сопоставление между двумя группами было содержательно интересным, сам смысл контрольной группы должен быть понятен. Если, например, в качестве контрольной группы мы возьмем респондентов, которые затруднились с ответом на вопрос, то сама эта группа, в большинстве случаев, крайне неоднородна и противоречива. Действительно, группа затруднившихся с ответом обычно включает в себя и тех, кто поленился отвечать, и тех, кто после мучительных размышлений, так и не смог выбрать один из предложенных вариантов, и тех, кто просто ничего не знает по теме вопроса, и, наверное, еще какие-то группы респондентов.
Таким образом, если мы будем говорить, что «в анализируемой группе среднее значение y больше, чем в группе затруднившихся ответить», то социологического смысла в этом будет немного. Эталон для сопоставления должен представлять из себя социологически понятную группу респондентов. Тогда и само сравнение будет представлять интерес.
Вторым требованием к выбору контрольной группы является ее объем. Что произойдет, если в качестве контрольной группы мы выберем очень маленькую группу?
Рассмотрим пример, который показывает влияние размера выбираемой контрольной группы на получаемые результаты[3]. В качестве Y возьмем величину заработной платы респондента: «Каким был размер Вашего заработка, доходов от основной работы, полученных в прошлом месяце (после вычета налогов)?» В качестве переменной, влияющей на размер доходов, используем самооценку респондентом своего социального статуса: «К какому слою в обществе Вы бы, скорее всего, себя отнесли?»
1. К низшему слою
2. К рабочим
3. К низшей части среднего слоя
4. К средней части среднего слоя
5. К высшей части среднего слоя
6. К высшему слою
7. Затрудняюсь ответить.
На первом шаге удалим из массива данных респондентов, затруднившихся с ответом. Из оставшихся 6 градаций вопроса необходимо определить ту группу, которая будет взята в качестве контрольной. Взглянем на таблицу одномерного частотного распределения (таблица 4.17).
Таблица 4.17
Результат расчета командой FREQUENCIES пакета SPSS
ответов на вопрос анкеты:
«К какому слою в обществе Вы бы, скорее всего, себя отнесли?»
Frequency
Percent
Valid Percent
Valid
1. К низшему слою
10,8
11,7
2. К рабочим
36,1
39,0
3. К низшей части среднего слоя
14,8
16,0
4. К средней части среднего слоя
27,3
29,5
5. К высшей части среднего слоя
3,2
3,4
6. К высшему слою
,4
,5
Total
92,7
100,0
Missing
Затрудняюсь ответить
7,3
Total
100,0
Представляется, что для дальнейшего сравнения в качестве контрольной группы целесообразно взять одну из полярных групп – первую или последнюю. При этом, однако, таблица 4.17 показывает, что последняя группа (то есть группа относящих себя к высшему слою) крайне мала. Если с содержательной точки зрения эта совокупность достаточно однородна и социологически понятна, то в ситуации малой по объему контрольной группы нет ничего страшного. Однако, обычным не столько требованием, сколько пожеланием является рекомендация отнесения к контрольной группе достаточно больших совокупностей респондентов. В этом есть и еще один резон, который проявится в обсуждаемой далее ситуации создания нескольких совокупностей фиктивных переменных.
Таблица 4.18
Результат расчета командой REGRESSION пакета SPSS
параметров регрессии для случая контрольной группы