Проверка значимости МНК-оценок

Остаточная дисперсия

Def. Остаточной дисперсией уравнения регрессии называется величина

равная среднему квадрату отклонения экспериментальных данных от расчетных (k – число коэффициентов модели (4.1)).

Величина остаточной дисперсии позволяет оценить точность построенного уравнения. Из нескольких альтернативных вариантов модели при прочих равных условиях предпочтение следует отдавать уравнению, имеющему наименьшую остаточную дисперсию.

Методы, рассматриваемые далее, основаны на следующем допущении: экспериментальные ошибки независимы и распределены нормально.

Def.Если b_j = 0, то говорят, что МНК-оценка незначима.

Это означает, что член b_j ×f_j (x) не должен входить в модель (4.1).

Выдвинем гипотезу Н₀: b_j = 0. Можно доказать, что при допущении о нормальности экспериментальных ошибок при верной Н₀ случайные величины

, j = 1, …, k, (4.4)

где = (Ф^TФ)^–1, а – диагональный элемент этой матрицы (см. формулу (4.3)), имеют распределение Стьюдента с числом степеней свободы n = N – k. Критическая область имеет двухстороннюю структуру: если > Т^КРИТ, где Т^КРИТ = СТЬЮДРАСПОБР(a; N – k ), то гипотеза не верна и МНК-оценка значима.

Проверка эффективности регрессии. Пусть модель (4.1) содержит свободный член b₀. Тогда имеет место формула

å(у_i – )²= å(у_i –) ² + å² Þ Q_ОБЩ = Q_ОСТАТ + Q_РЕГР.

Предположим, что влияние на выходной параметр у контролируемых входных параметров х_i незначимо на фоне случайных помех. Этот факт можно сформулировать в виде статистической гипотезы Н₀: b_j = 0 " j ¹ 0. В отличие от предыдущего пункта, речь идет не об отдельных членах модели, а об уравнении в целом.

Def.Если гипотеза Н₀ верна, то будем говорить, что модель (4.1) неэффективна.

Теорема.Если ошибки эксперимента независимы и распределены нормально, то при верной гипотезе о неэффективности модели (4.1) статистики Q_ОСТАТ/s² и Q_РЕГР /s² независимы и распределены по законам c²(N – k) и c² (k – 1), соответственно.

Это означает, что при верной гипотезе Н₀: b_j = 0 " j ¹0 статистика

(4.5)

имеет распределение Фишера с числами степеней свободы k – 1 и N – k. Таким образом, для проверки эффективности модели (4.1) может быть использован статистический критерий (4.5) с правосторонней критической областью: если F^ВЫЧ > FРАСПОБР(1 – a; k –1; N – k) = F^КРИТ, то гипотеза не верна и модель (4.1) эффективна.

Пример. Пусть объект характеризуется двумя входными параметрами х1 и х2. Имеем матрицу Х значений входных параметров и вектор у значений выхода:

; .

Построим по этим данным линейное уравнение регрессии у = b₀ + b₁ x1 + b₂ x2.

Для этого запишем регрессионную матрицу и матрицы, связанные с ней:

; ; .

В результате решения системы вида (4.2):

получаем вектор МНК-оценок, а с его помощью найдем вектор расчетных значений у: ; .

Отсюда Q_ОСТАТ = 0.667; Q_ОБЩ = 48.75; Q_РЕГР = 48.083. Проверим эффективность модели. F^ВЫЧ = 36.06, при a = 0.05 будет F^КРИТ = 199.5. Следовательно, модель неэффективна.

Оценим значимость коэффициентов. Для этого определим оценку дисперсионной матрицы С:

Отсюда имеем вектор значений критерия Стьюдента для МНК-оценок

при Т^КРИТ = 12.706. Следовательно, все коэффициенты незначимы, модель получилась «нехорошей».

Исключим из уравнения член с минимальным значением |Т_j|, т.е. b₂ x2. Получим модель у =2.5 + 3.1 х1, которая является эффективной: F^ВЫЧ = 137.3, F^КРИТ = 18.5. Новые значения критерия Стьюдента равны (3.45; 11.72) при Т^КРИТ = 4.3. Следовательно, коэффициент при х1 значим, а свободный член “близок к значимому”. Получили приемлемую модель.