Объектами исследования дисперсионного анализаявляются стохастические связимежду откликоми факторами, когда последние носят не количественный, а качественный или именованный характер.
Будем обозначать факторы через A, B,С,…, а отклик при этом – через Х. Каждый из факторов имеет несколько уровней, или градаций. В зависимости от числа анализируемых факторов различают однофакторный, двухфакторныйи т.д. дисперсионный анализ.
Если исследуется влияние одного фактора, то математическая модель однофакторного эксперимента выглядит как:
,
Где - значение признака Х, полученное в i-м эксперименте (i=1,..., n j), соответствующем j-му уровню фактора A , – общее среднее , - вклад в величину , обусловленный действием фактора A (эффект фактора A на j-м уровне, - неслучайная величина), - случайная компонента, вызванная влиянием всех прочих факторов.
Если рассматривается влияние двух факторов (A и B), то математическая модель эксперимента имеет следующий вид:
,
Где - значение признака, полученное в k-м наблюдении на i-м уровне фактора A и на j-м уровне фактора B,– общее среднее, - эффект фактора A на i-м уровне, - эффект фактора B j -м уровне, - эффект, вызванный взаимодействием факторов, - случайная компонента.
§ 2. Групповое и общее среднее. Групповая, внутригрупповая, межгрупповая и общая дисперсии.
Пусть все значения признака X некоторой совокупности (генеральной или выборочной) разбиты на несколько групп. Рассмотрим каждую группу как отдельную совокупность соответствующего объема.
Групповое среднее –среднее арифметическое значений признака Х в данной группе.
Общее среднее – среднее арифметическое значений признака Х во всей совокупности.
Теорема.
Общее среднее равно среднему арифметическому групповых средних, взвешенному по объемам групп.
Внутригрупповая дисперсия– среднее арифметическое дисперсий, взвешенное по объемам групп,
Межгрупповая дисперсия– дисперсия групповых средних относительно общего среднего,
Общая дисперсия– дисперсия значений признака X, принадлежащих всей совокупности, относительно общего среднего,
Теорема.
Если совокупность состоит из нескольких групп, то общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
Замечание.
Если групповые средние не различаются, , то =0 и внутригрупповая дисперсия совпадает с общей, (Dвнутр = Dобщ). Если же групповые средние различаются, то различаются и Dвнутр и Dобщ. Именно на сопоставление дисперсий и опирается дисперсионный анализ.
§ 3. Однофакторный анализ при полностью случайном плане эксперимента.
Рассмотрим наиболее простой план эксперимента – полностью случайный.
При таком способе получения и анализа данных не предпринимаются никакие действия, способствующие повышению надежности заключений при том же объеме данных или уменьшению объема данных при том же уровне надежности. Исследуем вначале влияние на значение признака только одного фактора. Разобьем результаты наблюдений на p - групп (выборок), различающихся между собой уровнем фактора.
Результаты наблюдений оформим в виде таблицы:
Номер выборки (уровень фактора)
Наблюдаемые значения признака
Объем выборки
Сумма
Групповое среднее
….
…
….
…
…
j
….
…
…
…
…
p
Сумма
В таблице представлены (кроме собственно значений признака) объемы выборок, суммы значений и средние значения, соответствующие данному значению признака, а также общие: число наблюдений, сумма значений и среднее значение. В соответствии с основной идеей дисперсионного анализа мы должны рассмотреть две дисперсии: первая, межгрупповая, обусловлена влиянием изучаемого фактора (дисперсия групповых средних); вторая, внутригрупповая, описывает влияние неучтенных факторов.
Для получения оценок дисперсий необходимо каждую сумму квадратов разделить на число степеней свободы ν. Обозначим через ν0 число степеней свободы, учитываемое при расчете общей дисперсии, ν1 – при расчете внутригрупповой дисперсии, ν2 – при расчете межгрупповой дисперсии.
При расчете несмещенной оценки дисперсии число степеней свободы равно N−1 , так как одна степень свободы теряется при определении среднего, т.е. =N−1. Аналогично при оценке внутригрупповых дисперсий =N−p, так как p степеней свободы теряется при вычислении p групповых средних . Наконец, при оценке межгрупповой дисперсии = p −1,так как групповые средние варьируют вокруг одного общего среднего.
Очевидно,
Используя полученные суммы квадратов и числа степеней свободы, вычислим несмещенные оценки трех дисперсий.
Группы, на которые разбита вся совокупность результатов, соответствуют различным значениям фактора, поэтому характеризует рассеяние внутри групп, (случайная вариация признака, называют также остаточной дисперсией); характеризует рассеяние групповых средних (систематическая вариация). Задачу проверки существенности влияния исследуемого фактора можно, как обсуждалось в предыдущем параграфе, представить как задачу о сравнении внутригрупповой и межгрупповой дисперсий. Если влияние фактора отсутствует, то и являются независимыми оценками дисперсии генеральной совокупности .
Если же фактор оказывает существенное влияние, то отношение : превзойдет критический предел и выборки следует считать взятыми из разных совокупностей (отличающихся уровнем воздействия фактора).
Сравнение дисперсий двух выборок производится с помощью – F-распределения Фишера – Снедекора. Выдвигается нулевая гипотеза об отсутствии влияния фактора. По выборочным данным вычисляются оценки дисперсий , и их отношение .Задавшись уровнем значимости α, определяем по таблице критическое значение и сравниваем вычисленное значение с критическим. Если , то нет оснований отвергать нулевую гипотезу влияние фактора не существенно; если же , то нулевая гипотеза отвергается и статистически подтверждается влияние фактора.
§ 4. Двухфакторный анализ. (При полностью случайном плане экспериментов.)
Рассмотрим простейший план, позволяющий проверить не только влияние фактора отдельно, но и их взаимодействие.
Пусть необходимо выявить влияние на некоторый признак Х, двух факторов А и В. Их взаимодействие обозначим – А В.
Модель эксперимента имеет вид:
- эффект воздействия.
Опыт проводится при фиксированных значениях фактора А и В, причем у фактора А различаются p- уровней, а у фактора В различаются q- уровней, что дает АВ= pq различных сочетаний фактора.
Для каждого сочетания опыт повторяется n- раз, тогда общее число наблюдений . Результаты наблюдений представим в виде таблицы, где - результат, полученный в эксперименте с порядковым номером k, проведенном на i- том уровне фактора и на j-том уровне фактора .
Уровень
Фактора
А
Уровень
Фактора
В
……….
…….
………
………
По данным таблицы вычислим следующие величины.
Суммы:
· общая сумма
;
· суммы по строкам таблицы (вычислены для каждого значения фактора B, изменяются вдоль столбца)
;
· суммы по столбцам таблицы (вычислены для каждого значения фактора A, изменяются вдоль строки)
;
· суммы по клеткам таблицы (вычислены для каждого сочетания факторов A и B)
;
Средние значения.
1. Общее среднее:
;
2. Среднее для каждого уровня фактора :
3. Среднее для каждого уровня фактора :
4. Среднее для каждого сочетания факторов А и В:
Отклонение отдельного измерения от общего среднего можно представить в виде:
1-ое слагаемое зависит только от фактора А;
2-ое слагаемое зависит от фактора В;
2-ье описывает эффект взаимодействия факторов А и В;
4-ое слагаемое описывает влияние неучтенных случайных факторов.
Можно показать, что квадратов отклонений признака Х от общего среднего раскладывается на:
Число степеней свободы (ЧСС)
Общее ЧСС:
Характер вариаций
Сумма квадратов
ЧСС
Оценка дисперсии
Фактор А
p-1
Фактор В
q-1
Взаимодействие А*В
(p-1)(q-1)
Остаточная вариация
(n-1)pq
Итого
N-1
-
Для исследования влияния каждого фактора в отдельности и влияние их взаимодействия используют три случайные величины (критерий), все они распределены по закон Фишера – Снедекора.
Проверяются основные гипотезы о несущественности влияния фактора А, фактора В и их взаимодействия.
По заданному уровню значимости и известным числам степеней свободы находятся табличные (критические) значения критериев и сравниваются с наблюдаемыми значениями.
Если , то нет оснований отвергать нулевую гипотезу , таким образом, влияние фактора несущественно.
Если , основная гипотеза отвергается (влияние фактора считается статистически значимым).