Во время проведения социологического опроса, людям было предложено ответить, какой из трех каналов кабельного телевидения они предпочитают. Среди опрошенных были взрослые мужчины и женщины. Данные сведены в таблицу кросс-табуляции размером 2 х 3. Можно ли сказать, что предпочтение того или иного канала как-то связано с гендерным фактором?
TV 1
TV 2
TV 3
Мужчины
Женщины
Вообще-то визуальный анализ таблицы позволяет предположить, что мужчины больше любят смотреть канал TV 1, а женщины - TV 3. Но как это доказать с помощью результатов статистической обработки? Для этого надо сравнить мужское и женское распределения предпочтений телеканалов.
Доказательство строится по следующему алгоритму.
1. Формулируются статистические гипотезы.
Н0: распределения предпочтений каналов TV у мужчин и у женщин значимо не отличаются от случайных.
Н1: распределения предпочтений каналов TV у мужчин и у женщин значимо отличаются от случайных.
2. В таблице подсчитываются суммы частот по строкам и по столбцам.
TV 1
TV 2
TV 3
Сумма частот по строкам
Мужчины
Женщины
Сумма частот по столбцам
Общая сумма частот = 65
3. Составляется таблица вычисления эмпирического значения c2 . В первый столбец (fэ) заносятся значения эмпирических частот из предыдущей таблицы. Во втором столбце (fт) – произведения суммы строк на сумму столбцов для соответствующей ячейки деленные на общую сумму частот (в нашем случае – 65). Это так называемые теоретические частоты, то есть, значения, которые могли получиться, если бы не было значимых предпочтений в выборе канала (если бы различия были чисто случайными). Третий столбец содержит результаты вычисления выражений предыдущего столбца. Четвертый - разница эмпирической и теоретической частот. Затем полученные разницы возводятся в квадрат, делятся на значения теоретических частот и суммируются.
4.
fэ
fт
fт
fэ- fт
(fэ- fт)2
(fэ- fт) 2/ fт
31*28/65
13,35
4,65
21,59
1,62
31*19/65
9,06
0,94
0,88
0,10
31*18/65
8,58
-5,58
31,19
3,63
34*28/65
14,65
-4,65
21,59
1,47
34*19/65
9,94
-0,94
0,88
0,09
34*18/65
9,42
5,58
31,19
3,31
c2 эмп =10,22
Как и в предыдущем случае, эмпирический показатель рассчитывается по формуле:
4. Определяется степень свободы. Для таблицы кросс-табуляции с числом строк равным двум и более формула выглядит несколько иначе, чем в предыдущем случае:
df = (с – 1) * (l – 1) , где с – количество столюцов, а l – количество строк
В нашем случае df = (2-1) * (3-1) = 1 * 2 = 2.
5. При помощи таблицы критических значений сравниваем полученное эмпирическое значение с критическими.
df
р = 0,1
р = 0,05
р = 0,01
р = 0,001
2,706
3,842
6,635
10,829
4,605
5,992
9,211
13,817
6,251
7,815
11,346
16,269
Эмпирическое значение (c2 эмп =10,22) в требуемой строке находится между 9,211 и 13,817. То есть, р-уровень лежит в диапазоне между р = 0,01 и р = 0,001. Таким образом, эмпирическое значение превышает критическое при уровне p ≤ 0,01 (высокая статистическая значимость): c2эмп > c2кр (p ≤ 0,01) H0, Þ Н1! выс. ст. зн. Мы доказали зависимость предпочтения определенных каналов от пола респондента на уровне высокой статистической значимости. Действительно, представители разных полов статистически значимо чаще смотрят разные каналы.