Цель: Научиться применять однофакторный дисперсионный анализ для проверки влияния независимой лингвистической СВ (номинативный признак) на зависимую СВ, измеренную в метрической шкале, для дальнейшего использования метода в социо-лингвистическом анализе.
Дисперсионный анализ (сокращённое обозначение ANOVA от Analysis Of Variance) – это метод проверки зависимости нормально распределённой случайной величины (результативный признак) от нескольких величин (факторы) [19, c.189-193]. ANOVA был разработан Р. Фишером специально для анализа результатов экспериментальных исследований. В зависимости от плана исследования выделяют четыре основных варианта ANOVA: однофакторный, многофакторный, ANOVA с повторными измерениями, многомерный ANOVA.
Однофакторный ANOVA - проверка влияния на результативный признак одного контролирующего фактора, имеющего несколько уровней (градаций).
Математическая идея ANOVA основана на соотнесении межгрупповой и внутригрупповой частей дисперсии (изменчивости) результативного признака. В модели ANOVA внутригрупповая изменчивость рассматривается как обусловленная случайными причинами, а межгрупповая – как обусловленная действием изучаемого фактора на результативный признак. Чем больше отношение межгрупповой изменчивости к внутригрупповой, тем выше факторный эффект: тем больше различаются средние значения, соответствующие разным градациям фактора.
Основные допущения ANOVA:
ü нормальное распределение результативного признака (не оказывает большого влияния на результат);
ü гомогенность (равенство) дисперсий выборок, соответствующих разным градациям фактора (при равенстве объёмов выборок несущественно);
ü независимость выборок, соответствующих разным градациям фактора (обязательное условие).
За показатель изменчивости берётся сумма квадратов отклонений значений выборки от среднего выборочного (обозначается SS – Sum of Squares) (totel – общая)
Общегрупповая изменчивость равна сумме внутригрупповой (Within-Group) и межгрупповой (between-group):
Межгрупповая изменчивость – показатель изменчивости между k группами (каждая численностью n объектов) вычисляется
по формуле: ,
где -среднее значение для группы j, а – общее среднее.
Коэффициент детерминации – отношение межгрупповой и общей суммы квадратов, показывает, какая доля общей дисперсии результативного признака обусловлена влиянием фактора.
Средние суммы квадратов ‑ межгрупповой и внутригрупповой
средний квадрат: ;
Основным показателем ANOVA является F-отношение – эмпирическое значение критерия Фишера:
;
При вычислении «вручную» для вычисления р-уровня значимости применяются таблицы критических значений F-распределения для направленных альтернатив (односторонний критерий).
Для выполнения работы студенты проводят предварительную подготовку: выбирают по 5 фрагментов в 100 словоупотреблений различных стилей речи: художественного (из художественного повествования автора в литературном произведении), публицистического (из газетной статьи) и научного (из научной статьи). Подсчитывают количество глагольных форм (Y) в каждом фрагменте. Данные оформляются в виде таблицы:
1-художественный стиль
2-публицистический стиль
3-научный стиль
№
Y
№
Y
№
Y
Результативный признак Y – «число употребления глагольных форм»; группирующий признак (фактор), имеющий три уровня (градации) – «стиль речи».
Необходимо проверить на уровне значимости р=0,05 гипотезу о зависимости числа употребления глагольных форм от стиля речи.
План выполнения работы:
1) Сформировать нулевую Н0 и альтернативную Н1 гипотезы.
(нулевая гипотеза содержит утверждение о равенстве средних значений результативного признака на всех уровнях фактора, альтернативная – утверждение о различие по крайней мере двух средних значений).
2) Найти общее среднее и групповые средние: , , .
3) Вычислить суммы квадратов отклонений значений выборки от среднего :
4) Определить числа степеней свободы: ; ; .
5) Найти средние квадраты отклонений: и .
6) Вычислить эмпирическое F-отношение:
7) По таблице 5 критических значений F-распределения (распределение Фишера-Снедекора) найти уровень значимости с найденным числом степеней свободы числителя и числом степеней свободы знаменателя .
8) Сделать вывод относительно принятия или опровержения гипотез Н0 и Н1, и качественный вывод о статистической зависимости или независимости частот употребления глаголов от стиля речи.
Для решения задачи в программе SPSS:
ü открыть программу SPSS, в главном окне перейти на вкладку "переменные", ввести следующие переменные:
N (номер), числовая переменная, шкала порядковая;
Y (число глаголов), числовая переменная, шкала количественная;
Х (стиль речи), числовая переменная, шкала номинальная.
Установить метки значений Х: 1‑ «худож», 2‑ «публиц», 3‑ «научн», перейти в окно "данные" и ввести исходные значения переменных;
ü выбрать "Анализ"→ "Сравнение средних" → "Однофакторный дисперсионный анализ";
ü перенести в окно "зависимые переменные" переменную Y, а в окно "фактор" переменную Х (стиль речи);
ü открыть вкладку "параметры" и отметить "описательные", "проверка однородности дисперсии" и "график средних" → "продолжить" →ОК.
Получаем: а) описательные статистики; б) критерий однородности дисперсии по статистике Ливиня (если уровень значимости (Знч) больше 0,05, то отличие дисперсий статистически не значимо;
в) дисперсионный анализ (если уровень значимости не превышает 0,05, то отличия средних значений в группах статистически значимо);
г) график зависимости среднего значения количества глаголов от стиля речи.
Список рекомендуемой литературы
1. Вентцель Е.С. Теория вероятностей. М.: КноРус, 2010.
2. Виноградов О. П. ЧТО ТАКОЕ ЗАКОН БОЛЬШИХ ЧИСЕЛ. М.:СУНЦ МГУ, 2008.
3. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшее образование, 2009.
4. Головин Б.Н. Язык и статистика. М., «Просвещение», 1971.
5. Кремер Н.Ш. Теория вероятностей и математическая статистика: учебник для вузов. М.:ЮНИТИ_ДАНА, 2009.
6. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. – СПб.: Речь, 2004.
7. Наследов А.Д. SPSS: компьютерный анализ данных в психологии и соц. науках / А.Д.Наследов. - СПб.: Питер Принт, 2005.
8. Письменный, Д.Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам. -М.: Айрис-пресс, 2006.
9. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. Учебное пособие для пед. ин-тов. М., «Высш. Школа», 1997.
Список использованной литературы
1. Алефиренко, Н.Ф. Современные проблемы науки о языке [Текст]: учебное пособие. М.: Флинта: Наука, 2005.
2. Арапов, М.В., Херц М.М. Математические методы в исторической лингвистике. М.: «Наука», 1974.
3. Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974
4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука,1983.
5. Вентцель Е.С. Теория вероятностей. М.: КноРус, 2010.
6. Виноградов О. П. ЧТО ТАКОЕ ЗАКОН БОЛЬШИХ ЧИСЕЛ. М.:СУНЦ МГУ, 2008.
7. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшее образование, 2009.
8. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. – М.: Наука, 1982.
9. Головин Б.Н. Язык и статистика. М., «Просвещение», 1971.
10. Гресс П.В. Математика для гуманитариев. Учебное пособие. – М.: Логос, 2004.
11. Зайкин М.И. О диалектике профессионального и общекультурного в математической подготовке гуманитариев. Материалы Всероссийской научно- практической конференции. Москва-Коряжма., 2005.
12. В.А. Звегинцев. История языкознания XIX и XX веков в очерках и извлечениях., ч. 1. М., 1964.
13. Колемаев В.А., Калинина В.Н., под ред. В.А. Колемаева. Теория вероятностей и математическая статистика. Учебник :– М.: ИНФРА-М, Высшее образование, 1997.
14. Кремер Н.Ш. Теория вероятностей и математическая статистика: учебник для вузов. М.:ЮНИТИ_ДАНА, 2009.
15. Колмогоров А.Н., Журбенко И.Г., Прохоров А.В. Введение в теорию вероятностей. - М.: Физматлит, 1995.
16. Лунгу К.Н., Норин В.П., Письменный Д.Т., Шевченко В.А. Сборник задач по высшей математике. 2. – М., Айрис-Пресс, 2004.
17. Мхитарян В.С., Астафьева Е.В., Миронкина Ю.Н., Трошин Л.И. Теория вероятностей и математическая статистика. – М.: Московская финансово-промышленная академия, 2011.
18. Невельский П.Б. Объём памяти и количество информации. Сб. Проблемы инженерной психологии. психология памяти. Вып. 3. Л.,1965.
19. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. – СПб.: Речь, 2004.
20. Наследов А.Д. SPSS: компьютерный анализ данных в психологии и соц. науках / А.Д.Наследов. - СПб.: Питер Принт, 2005.
21. Письменный, Д.Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам. -М.: Айрис-пресс, 2006.
22. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. Учебное пособие для пед. ин-тов. М., «Высш. Школа», 1977.
23. Письменный Д.Т. Конспект лекций по теории вероятностей, математической статистике и случайным процессам.– М., Айрис-Пресс, 2004
24. Пятков А.В. Статистические методы анализа данных для гуманитариев.- Архангельск: Поморский унивеситет, 2007.
25. Солнцев В.М. Язык как системно-структурное образование. 2 изд. М., 1977.
26. Черенков Н.И. Учебное пособие по курсу «Математика». Северо- Западная академия государственной службы, г.Северодвинск, 2006.
Приложение 1 Таблицы математической статистики
Приложение 1.1. Значения интегральной функции Лапласа
x
Ф(х)
x
Ф(х)
x
Ф(х)
x
Ф(х)
x
Ф(х)
x
Ф(х)
0,00
0,0000
0,50
0,1915
1,00
0,3413
1,50
0,4332
2,00
0,4772
3,00
0,49865
0,01
0,0040
0,51
0,1950
1,01
0,3438
1,51
0,4345
2,02
0,4783
3,20
0,49931
0,02
0,0080
0,52
0,1985
1,02
0,3461
1,52
0,4357
2,04
0,4793
3,40
0,49966
0,03
0,0120
0,53
0,2019
1,03
0,3485
1,53
0,4370
2,06
0,4803
3,60
0,499841
0,04
0,0160
0,54
0,2054
1,04
0,3508
1,54
0,4382
2,08
0,4812
3,80
0,499928
0,05
0,0199
0,55
0,2088
1,05
0,3531
1,55
0,4394
2,10
0,4821
4,00
0,499968
0,06
0,0239
0,56
0,2123
1,06
0,3554
1,56
0,4406
2,12
0,4830
4,50
0,499997
0,07
0,0279
0,57
0,2157
1,07
0,3577
1,57
0,4418
2,14
0,4838
5,00
0,499997
0,08
0,0319
0,58
0,2190
1,08
0,3599
1,58
0,4429
2,16
0,4846
0,09
0,0359
0,59
0,2224
1,09
0,3621
1,59
0,4441
2,18
0,4854
0,10
0,0398
0,60
0,2257
1,10
0,3643
1,60
0,4452
2,20
0,4861
0,11
0,0438
0,61
0,2291
1,11
0,3665
1,61
0,4463
2,22
0,4868
0,12
0,0478
0,62
0,2324
1,12
0,3686
1,62
0,4474
2,24
0,4875
0,13
0,0517
0,63
0,2357
1,13
0,3708
1,63
0,4484
2,26
0,4881
0,14
0,0557
0,64
0,2389
1,14
0,3729
1,64
0,4495
2,28
0,4887
0,15
0,0596
0,65
0,2422
1,15
0,3749
1,65
0,4505
2,30
0,4893
0,16
0,0636
0,66
0,2454
1,16
0,3770
1,66
0,4515
2,32
0,4898
0,17
0,0675
0,67
0,2486
1,17
0,3790
1,67
0,4525
2,34
0,4904
0,18
0,0714
0,68
0,2517
1,18
0,3810
1,68
0,4535
2,36
0,4909
0,19
0,0753
0,69
0,2549
1,19
0,3830
1,69
0,4545
2,38
0,4913
0,20
0,0793
0,70
0,2580
1,20
0,3849
1,70
0,4554
2,40
0,4918
0,21
0,0832
0,71
0,2611
1,21
0,3869
1,71
0,4564
2,42
0,4922
0,22
0,0871
0,72
0,2642
1,22
0,3883
1,72
0,4573
2,44
0,4927
0,23
0,0910
0,73
0,2673
1,23
0,3907
1,73
0,4582
2,46
0,4931
0,24
0,0948
0,74
0,2703
1,24
0,3925
1,74
0,4591
2,48
0,4934
0,25
0,0987
0,75
0,2734
1,25
0,3944
1,75
0,4599
2,50
0,4938
0,26
0,1026
0,76
0,2764
1,26
0,3962
1,76
0,4608
2,52
0,4941
0,27
0,1064
0,77
0,2794
1,27
0,3980
1,77
0,4616
2,54
0,4945
0,28
0,1103
0,78
0,2823
1,28
0,3997
1,78
0,4625
2,56
0,4948
0,29
0,1141
0,79
0,2852
1,29
0,4015
1,79
0,4633
2,58
0,4951
0,30
0,1179
0,80
0,2881
1,30
0,4032
1,80
0,4641
2,60
0,4953
0,31
0,1217
0,81
0,2910
1,31
0,4049
1,81
0,4649
2,62
0,4956
0,32
0,1255
0,82
0,2939
1,32
0,4066
1,82
0,4656
2,64
0,4959
0,33
0,1293
0,83
0,2967
1,33
0,4082
1,83
0,4664
2,66
0,4961
0,34
0,1331
0,84
0,2995
1,34
0,4099
1,84
0,4671
2,68
0,4963
0,35
0,1368
0,85
0,3023
1,35
0,4115
1,85
0,4678
2,70
0,4965
0,36
0,1406
0,86
0,3051
1,36
0,4131
1,86
0,4686
2,72
0,4967
0,37
0,1443
0,87
0,3078
1,37
0,4147
1,87
0,4693
2,74
0,4969
0,38
0,1480
0,88
0,3106
1,38
0,4162
1,88
0,4699
2,76
0,4971
0,39
0,1517
0,89
0,3133
1,39
0,4177
1,89
0,4706
2,78
0,4973
0,40
0,1554
0,90
0,3159
1,40
0,4192
1,90
0,4713
2,80
0,4974
0,41
0,1591
0,91
0,3186
1,41
0,4207
1,91
0,4719
2,82
0,4976
0,42
0,1628
0,92
0,3212
1,42
0,4222
1,92
0,4726
2,84
0,4977
0,43
0,1664
0,93
0,3238
1,43
0,4236
1,93
0,4732
2,86
0,4979
0,44
0,1700
0,94
0,3264
1,44
0,4251
1,94
0,4738
2,88
0,4980
0,45
0,1736
0,95
0,3289
1,45
0,4265
1,95
0,4744
2,90
0,4981
0,46
0,1772
0,96
0,3315
1,46
0,4279
1,96
0,4750
2,92
0,4982
0,47
0,1808
0,97
0,3340
1,47
0,4292
1,97
0,4756
2,94
0,4984
0,48
0,1844
0,98
0,3365
1,48
0,4306
1,98
0,4761
2,96
0,4985
0,49
0,1879
0,99
0,3389
1,49
0,4319
1,99
0,4767
2,98
0,4986
Приложение 1.2. Критические значения (распределение Пирсона)
df ‑ число степеней свободы; р ‑ уровень значимости.
Приложение 1.3. Критические значения критерия t (распределение Стьюдента) df-число степеней свободы; р-уровень значимости.