Зависимость между величинами может быть двух видов: функциональная и стохастическая. Если каждому значению одной величины соответствует единственное значение другой, то такая зависимость называется функциональной. Однако возможна такая зависимость, когда в ответ на появление значения одной величины, другая принимает некоторое случайное значение. Но вид закона распределения второй величины изменяется в зависимости от значения первой. Такая зависимость называется стохастической.
Проведем n наблюдений над случайными величинами X и Y. В результате получим выборку объема n, состоящую из трех строк. В первой номер наблюдения, во второй и третьей соответствующие значения случайных величин, полученных в данном наблюдении.
i
. . .
n
Xi
x1
x2
. . .
xn
Yi
y1
y2
. . .
yn
Попытаемся по результатам наблюдений найти приближенную зависимость между величинами X и Y. Указать точную зависимость очень сложно. Поэтому естественно выдвинуть некоторое предположение о виде этой зависимости, включающему в себя некоторые параметры с тем, чтобы за счет варьирования этих параметров, подобрать уравнение зависимости лучшего вида. Ответ на вопрос о том, какую зависимость считать наилучшей сильно зависит от того в каком классе функций ищется решение и по какому критерию оценивается отклонение от оптимального вида зависимости. Такое уравнение называется приближенным уравнением регрессии. Чаще всего ищется зависимость вида Y=aX+b, т. е. линейное уравнение. Предположим, что имеется зависимость такого вида. Тогда отклонение для каждой пары значений найдем по формуле Di=Yi-aXi-b. Выберем в качестве общей меры отклонения для всей выборки в целом сумму квадратов отклонений. Обозначим ее
(1)
Для исследования более удобно выбрать в качестве меры величину
(2)
Подберем a и b так, чтобы величина D была минимальной.
Этот метод называется методом наименьших квадратов. Необходимым условием существования экстремума являются условия
(3)
Запишем условия (3)
(4)
(5)
Из уравнения (5) находим
b=MY-aMX
Из уравнения (4) получим
M(XY)-aMX2-( MY-aMX)MX=0.
Или
M(XY)- MY MX-a(M(X2)-( MX)2)=0.
Откуда находим
Cov(X,Y)- aDX=0.
Следовательно
rXYsXsY- asX2=0.
Получаем
И приближенное линейное уравнение регрессии Y на X
Или
(6)
Аналогично, приближенное линейное уравнение регрессии X на Y
(7)
Замечание. Уравнение (7) не равносильно уравнению (6). Они задают разные линии.
При практических исследованиях для построения уравнения (6) используют статистические числовые характеристики.
(8)
Причем в качестве статистической числовой оценки для ковариации используем
Коэффициент корреляции показывает меру линейной зависимости между случайными величинами X и Y.