Запишем остаточную сумму квадратов в матричном виде:
Здесь
,
так как матрица – симметричная. Окончательно получим:
. (2)
Общая вариация выходного параметра, которая в матричном виде запишется так
, (3)
состоит из двух частей. Первая из них обусловлена регрессионной зависимостью, которая оценивается. Вторая связана с остатком и отражает вариации точек вокруг линии регрессии. Таким образом, для модели любого порядка (в том числе и для первого):
. (4)
Учитывая (2), (3), (4), получим
.
Чтобы найти, какая часть общей вариации может быть отнесена за счет добавления других членов в наиболее простую модель , надо вычесть корректирующий фактор из суммы квадратов :
.
Величина представляет собой дополнительную сумму квадратов, обусловленную включением в модель других членов, помимо .
Если в каждой точке факторного пространства проводилось параллельных опытов, то можно найти сумму квадратов «чистой» ошибки рассчитать сумму квадратов неадекватности:
.
Для модели, уравнение регрессии которой содержит членов, число степеней свободы суммы квадратов равно , где – число точек факторного пространства, в которых проводились опыты.
В этом случае может быть произведена проверка адекватности модели с использованием -критерия если неадекватность незначима, то можно использовать в качестве оценки дисперсии отклика . Если нет возможности провести такую проверку, то, используя в качестве оценки , фактически делается предположение, что модель корректна.
Проверка значимости регрессии общего вида – это проверка гипотезы против гипотезы : не все , . Для этого рассматривается величина
, (5)
подчиняющаяся -распределению со степенями свободы , . Для принятого уровня значимости рассчитанное по формуле (5) значение должно превышать критическое значение . Это означает, что получено статистически значимое уравнение регрессии. Другими словами, в случаев доля вариаций, наблюдаемых в полученных данных, которая отнесена за счет регрессии, больше, чем можно было ожидать за счет случайных причин.
Это не обязательно означает, что такое уравнение полезно для прогнозирования. Если размах величин, предсказываемых уравнением регрессии, не слишком значительно превосходит величину случайной ошибки, предсказание не будет иметь ценности, хотя была получена значимая величина . Для использования уравнения в целях предсказания, на практике рекомендуется, чтобы расчетное значение превышало критическое примерно в 4 раза.
В качестве дополнительной меры, характеризующей вклад регрессии, может служить множественный коэффициент детерминации:
. (6)
В общем случае . Очевидно, что может достигать единицы только в случае, если все точки факторного пространства различны. Если имеются повторные опыты, то , как бы хороша ни была модель. Это объясняется вариацией данных из-за «чистой» ошибки опыта. При использовании следует помнить, что добавление новых членов в уравнение регрессии всегда приводит к увеличению этой величины, поэтому надо удостовериться, что введение новых слагаемых имеет реальный смысл.
Пусть постулируется модель . В соответствии со второй предпосылкой регрессионного анализа для вектора ошибок справедливо: , .
МНК-оценки коэффициентов являются несмещенными оценками, то есть . Матрица содержит дисперсии (диагональные элементы) и корреляционные моменты (внедиагональные элементы) оценок параметров уравнения регрессии. Для получения оценок дисперсий и корреляционных моментов, если модель адекватна, используется средний квадрат .
Матрицу называют ковариационной матрицей или матрицей ошибок.
Используя оценки дисперсий параметров, можно вычислить значения -критерия:
. (7)
Способы использования рассчитанных -значений будут рассмотрены в дальнейшем.