Корреляция и регрессия тесно связаны между собой: первая оценивает силу статистической связи, вторая исследует её форму.
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины обусловлено влиянием одной или несколько независимых величин, а множество всех факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).
Уравнение регрессии, или статистическая модель связи социально-экономических явлений выражается в общем случае уравнением:
, которое адекватно отражает реальное моделируемое явление.
Одной из проблем построения уравнения регрессии является её размерность, т.е. определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Практика выработала критерий, позволяющий установить количество факторных признаков, включаемых в модель. Число факторных признаков (k) должно быть в 5-6 раз меньше объема изучаемой совокупности.
По форме зависимости различают:
1) линейную регрессию, которая выражается уравнением прямой, вида:
нелинейную регрессию, которая выражается уравнениями вида:
парабола - ;
гипербола -
По направлению связи различают:
- прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются.
- обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины, зависимая соответственно уменьшается или увеличивается.
Парная регрессия характеризует связь между двумя признаками: результативным и факторным.
Определить тип уравнения можно, исследуя зависимость графически или аналитически: если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то связь - линейная, а при обратной связи - гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее, то используется параболическая, или степенная регрессия.
Оценка параметров уравнения регрессии (а0, а1, а2) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности.
Будем считать, что две величины Х и У взаимосвязаны между собой, причем У находится в некоторой зависимости от Х, т.е. У - зависимая величина, а Х - независимая.
Сущность метода заключается в нахождении параметров (а0, а1), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению:
Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:
где n - объем исследуемой совокупности (число единиц наблюдения)
В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (невыделенных для исследования) факторов, параметр а1 (в уравнениях параболы и а2) показывает насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
Проделав аналогичные рассуждения (как в линейной регрессии) для нахождения параметров гиперболы, можно получить систему уравнений:
Изучение связи между тремя и более связанными между собой признаками носит название множественной регрессии. При исследовании зависимостей методами множественной регрессии задача формулируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение связи между результативным признаком (У) и факторными признаками (х1, х2, … , хк), найти функцию
Все реально существующие зависимости можно описать, используя 5 типов моделей:
линейная -
степенная -
показательная -
параболическая -
гиперболическая -
где Y1,2,3,…,k - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии;
х1, х2, …, хк - факторные признаки;
а0, а1, …, ак - параметры модели (коэффициенты регрессии)
Важным этапом построения является отбор и последующее включение факторных признаков. Сложность заключается в том, что все факторные признаки находятся в зависимости один от другого. Отбор признаков осуществляется при помощи двух методов: метода экспертных оценок и шаговой регрессии.
Метод экспертных оценок основан на расчете и анализе непараметрических показателей связи: ранговых коэффициентов корреляции Спирмена, Кендалла и конкордации.
Сущность метода шаговой регрессии заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициенты регрессии не изменяются (или меняются несущественно), то включение данного признака в уравнение регрессии необходимо. Если же при включении в модель факторного признака коэффициенты регрессии меняют величину, свой знак на противоположный, множественный коэффициент корреляции не возрастает, то данный факторный признак нецелесообразен.
Аналитическая форма выражения связи результативного признака и ряда факторных называется уравнением регрессии. Параметры уравнения могут быть найдены графически или аналогично парной корреляции - методом наименьших квадратов.