Это наиболее простой вид регрессии, поэтому неудивительно, что если есть возможность каким-либо способом свести криволинейную регрессию к прямолинейной, то такая возможность используется. Наиболее часто при этом применяется изменение масштаба для одной или обеих переменных, например, путем замены величин на их логарифмы, квадраты, квадратные корни и пр. Подобрав способ преобразования, следует убедиться, что регрессионный анализ может быть применен к полученным преобразованным данным.
Для отыскания двух параметров и в уравнении регрессии вида:
нужно иметь систему из двух уравнений. При использовании метода наименьших квадратов коэффициенты и находятся путем решения системы следующих уравнений:
где п – число пар сопряженных точек.
Из этой системы следует, что:
.
Для нашего примера в итоге получаем (размерность х - %, а у - кал/г грунта):
X
y
x2
xy
,
.
Пользуясь уравнением регрессии можно установить, чему, в среднем, равно значение зависимой переменной при заданном значении независимой переменной. Если коэффициенты в уравнении являются оценками, как это обычно и бывает, то результат вычислений будет оценкой условного среднего. Так, при х = 5,0 получим кал/г.
Всякое уравнение регрессии имеет границы применимости:
§ Только для данного объекта;
§ Только в заданном интервале изменения аргумента.
Коэффициент характеризует прирост функционального признака при изменении признака, считаемого аргументом, на единицу и, таким образом, является размерной величиной. Ее размерность представляет собой отношение размерности функционального признака к размерности признака, взятого как аргумент. В нашем примере: .
Если регрессионный анализ проводится на корреляционной модели, то в качестве аргумента может быть выбран как признак х, так и признак у. Этим случаям соответствуют два разных уравнения регрессии:
– для y по x
– для x по y
где y/x характеризует изменение у по х, а x/y – х по у.
Нахождение параметров аx/y и вy/x осуществляется с помощью уже приведенных выражений, в которых индексы х заменены на у.
Для нашего примера:
При корреляционных связях абсолютная величина любого коэффициента регрессии всегда меньше обратной величины другого:
в силу чего эти коэффициенты и именуются коэффициентами регрессии (от латинского regressio - движение назад), и различия эти тем значительнее, чем сильнее изучаемая связь отличается от прямолинейной функциональной зависимости.
Графически:
т.е. чем меньше связь между изучаемыми признаками, тем больше различие между направлениями линий регрессии. В случае полного отсутствия связи (признаки варьируют независимо) теоретические линии регрессии оказываются взаимно перпендикулярными, идущими параллельно осям координат (поскольку bx/y = by/x = 0).
Соответствующая этой зависимости теоретическая линия регрессии х/у) не совпадает с линией регрессии у/х, и в этом проявляется специфика корреляционной связи. Чем меньше степень линейной связи, тем больше угол между линиями регрессии. При r = 0 линии регрессии х/у и у/х оказываются взаимно перпендикулярными и идущими параллельно осям координат. При строго функциональной связи (|r| = 1) линии регрессии сливаются в одну.
Если известно значение коэффициента корреляции rxy, то значение коэффициента регрессии можно вычислить по формулам:
где и - средние квадратичные отклонения для Х и У. Параметр в уравнении регрессии в этом случае будет определяться согласно выражениям:
где и – средние арифметические для признаков Х и У.
Коэффициент корреляции и оба коэффициента регрессии всегда имеют один знак.
Кроме того, полезно заметить, что коэффициент корреляции:
есть среднее геометрическое из коэффициентов регрессии.
Значимость параметров уравнения прямолинейной регрессии. Доверительная зона регрессии
Общее варьирование значений функционального признака можно рассматривать, с одной стороны, как результат зависимости yi от xi, а с другой – как результат случайной вариации, вызываемой неизвестными факторами. То есть можно общую сумму квадратов с соответствующим ей числом степеней свободы :
разложить на две составляющие:
– одна из них с числом степеней свободы =1 связана с существованием регрессии y/x и равна:
– вторая с числом степеней свободы =n-2 связана с влиянием случайных факторов. Она равна:
С практической точки зрения полезно знать, что существует ряд равноценных формул для вычисления:
Эта сумма называется остаточной или случайной. Этой сумме соответствует =n-2 степеней свободы, поэтому дисперсия Sw2, оценивающая случайное варьирование значений yi вокруг линии регрессии y/x, оказывается равной
Среднее квадратическое отклонение sW имеет важное значение для оценки значимости параметров уравнения регрессии и b и для построения доверительной зоны регрессии.
Располагая результатами выборочных наблюдений для генеральных значений параметров и можно вычислить лишь выборочные оценки и b, отягощённые соответствующими ошибками репрезентативности Sa и Sb, которые можно оценить по формулам:
или
b определяет угол наклона линии регрессии, а – местоположение линии регрессии относительно оси y.
Если связь между признаками отсутствует, то угловой коэффициент b=0.
Поэтому для оценки значимости наличия связи можно воспользоваться способом проверки нулевой гипотезы, состоящей в предположении, что =0. Поскольку отношение
можно считать распределённым как t-Стьюдента, с =n-2 степенями свободы, то при условии
нулевая гипотеза отвергается и с соответствующей вероятностью признаётся, что генеральный коэффициент регрессии отличен от нуля, а, значит, связь между признаками существует.
Доверительные границы для можно найти согласно формуле:
Значимость отличия от нуля ( никогда не равен нулю в силу случайных вариаций) также проверяется с помощью критерия Стьюдента: если отношение
для =n-2, то с соответствующей вероятностью можно утверждать, что не случайно отличен от нуля, и => линия регрессии значимо не проходит через начало координат. Если t<tp, то нулевая гипотеза =0 не отвергается и можно считать, что уравнение регрессии имеет вид:
Примечание: выборочная оценка коэффициента регрессии в уравнении подобного вида может быть найдена согласно:
а ошибка такого коэффициента ϭb определяется по формуле
Она обычно меньше ошибки , вычисленной по предыдущему уравнению, что является результатом соблюдения условия прохождения линии регрессии через начало координат, ограничивающего вариацию величины b.
В общем виде доверительные границы для , когда уравнение регрессии имеет вид:
определяются согласно:
Для уравнения вида
доверительная зона регрессии средних определяется более сложно. В этом случае линии, ограничивающие доверительную зону регрессии, представляют собой гиперболы. В общем виде доверительные границы для можно найти по выражению
здесь соответствует заданной доверительной вероятности p при =n-2
Из формулы следует, что ширина доверительного интервала для возрастает по мере увеличения абсолютной величины . Минимум ширины доверительная зона регрессии средних имеет при xi=mx:
Если не являются случайными величинами, а задаются произвольно, то доверительные границы для можно определить согласно: