Включение в регрессионные модели переменных, измеренных на порядковом и номинальном уровнях, является во многих случаях абсолютно необходимой задачей. Например, когда мы строили модель зависимости успеваемости от уровня предварительной подготовки, вполне логичным кажется предположение о том, что эта зависимость может быть различной для юношей и для девушек. Проверить это предположение можно довольно просто – для этих двух групп студентов построить две отдельные модели и сравнить полученные результаты. Есть, однако, более эффективный, и, как будет видно в дальнейшем, более общий метод – введение в регрессионную модель фиктивных переменных[1].
Для иллюстрации дополним таблицу 4.1 данными о поле студента (таблица 4.14).
Оценки студентов при поступлении в Вуз
и по итогам 1-го семестра обучения
№ студента
Суммарный балл на вступительных экзаменах
Суммарный балл, по итогам 1-го семестра обучения
Пол студента
(0 – мужской; 1- женский)
117,4
106,7
120,0
97,3
108,0
124,0
121,4
106,7
105,3
96,0
94,7
89,4
113,4
113,3
93,3
118,7
88,0
100,0
78,7
102,7
Посчитаем средние значения двух рассматриваемых оценок для юношей и для девушек (таблица 4.15).
Таблица 4.15
Средние оценки, полученные на вступительных экзаменах и по итогам 1-го семестра юношами и девушками
Пол
Средняя сумма баллов на вступительных экзаменах
Средний суммарный балл по итогам 1-го семестра
N=
Девушки
26,2
106,6
Юноши
22,5
97,3
Всего
25,5
104,7
Данные таблицы 4.15 показывают, что как на вступительных экзаменах, так и по итогам 1-го семестра оценки девушек несколько выше, чем оценки юношей. Таким образом, если мы будем строить регрессионные модели зависимости успеваемости от уровня предварительной подготовки, то, скорее всего, это будут две прямые. Одна из них (данные по девушкам) расположена несколько выше другой (данные по юношам). Таким образом, следует строить две модели, а не одну. Можно ли, тем не менее, свести это к одной модели? Оказывается, что можно.
Предположим, что мы имеем две регрессионные модели, аналогичные тем, которые изображены на рисунке 4.15 и которые записываются в виде двух уравнений (4.22).
Рисунок 4.22
Гипотетическая модель для двух регрессионных моделей
y =
7,6
+ 1,3 x
(ряд 1)
(4.23)
y =
11,6
+ 1,3 x
(ряд 2)
Очевидно, что коэффициенты b1 в этих уравнениях должны быть одинаковы, поскольку прямые на рисунке 4.15 идут параллельно. Два ряда данных, представленных в уравнениях (4.23) можно представить в виде одного уравнения (4.24).
y= 7,6 + 4 D + 1,3 x(4.24)
В уравнении (4.24) D это переменная, которая принимает значение 0, если это данные из рада 1 и 1, если данные принадлежат ряду 2.
На уравнение (4.24) можно взглянуть как модель множественной регрессии с двумя независимыми переменными x и D. При таком подходе две прямых на рисунке 4.22 становятся одним графиком для регрессионной модели (4.24). Принципиально важно, что в данном примере переменная D является фактически номинальной переменной, которая делит всю совокупность на две части – ряд 1 и ряд 2.
Таким образом, модели множественной регрессии, типа (4.24), в которые входит дихотомическая переменная, могут описывать зависимости, в которые в качестве одного из x входит переменная, измеренная на номинальном уровне. Если вернуться теперь к примеру данных, представленных в таблице 4.14, то можем построить модель одновременного влияния на успеваемость и уровня предварительной подготовки и пола студентов.
Проведя вычисления для данных всей генеральной совокупности, мы получаем следующее регрессионное уравнение:
y =
81,7 +
10,9 x1 +
0,53 x2
(4.25)
(11,2)
(3,2)
(0,46)
P=0,000
P=0,001
P=0,26
В уравнении (4.25) переменная x1 – фиктивная переменная «Пол студента», x2 – переменная «Суммарный балл на вступительных экзаменах»; R2=0,16.
Ведение в модель, объясняющую успеваемость, переменной «Пол студента» принципиально меняет не только вид модели (сопоставьте модель (4.10) с моделью (4.25)), но и ее содержательную интерпретацию. Модель (4.10) показывала, что успеваемость на 18% объясняется уровнем предварительной подготовки студентов. Модель (4.25) говорит нам, что уровень предварительной подготовки студентов значимого влияния на успеваемость не оказывает, а вот пол влияет на успеваемость, и притом существенно.
Фиктивные переменные. Продолжение. Обсужденные выше возможности применения дихотомических переменных в модели регрессии открывают перед нами возможности введения в регрессию переменных, измеренных на номинальном и порядковом уровне. Для реализации этих возможностей и существует процедура создания из номинальных или порядковых переменных нескольких дихотомических переменных, которые, собственно, и называются фиктивными переменными.
Процедура эта состоит в следующем. Предположим, что мы имеем переменную с 4-мя градациями, измеренную на номинальным уровне. Пусть, для определенности, это будет вопрос о семейном положении. Очевидно, что с социологической точки зрения семейное положение является характеристикой, оказывающей существенное влияние на многие поведенческие, мотивационные, ценностные аспекты жизни индивида. В этой связи включение семейного положения в число независимых переменных весьма желательно для построения многих социологических моделей.
Разделим переменную «Семейное положение» на фиктивные переменные следующим образом.