технология построения корреляционных моделей проходит несколько этапов:
постановка задачи
сбор исходной информации
предварительная обработка исходной информации
построение модели
оценка адекватности и точности построенных моделей.
Если случайные величины X,Y некоррелированы, то произведение отклонений (xi-x¯)*(yi-y¯) будет носить случайный характер с математическим ожиданием à к 0. В этом случае ζxy = 1 (отклонения будут упорядочены).
В конкретных исследованиях работают с выборочной совокупностью. Всегда выборочная совокупность меньше, чем генеральная. В результате всегда получаем характеристики худшие чем те, если бы имели в распоряжении генеральную совокупность. В результате работы с выборочной совокупностью, мы вынуждены подбирать закон распределения. Это называется выравниванием статистического ряда. В результате выравнивания имеют 2 гипотезы:
1. расхождение между теоретическим законом распределения и статистическим распределением объясняется случайными обстоятельствами, связанными с ограниченным числом наблюдений
2. расхождения являются существенными и связано с тем, что теоретическое распределение плохо выравнивает подобранное статистическое.
Для проверки гипотез служит критерий согласия. Наиболее часто используется х Пирсона, т2 Стьюдента f-критерий Фишера. Согласно этим критериям вычисляется мера расхождения между теоретическими и статистическими расхождениями.
При малом количестве наблюдений рекомендуется выявить доверительный интервал и доверительную вероятность.
Доверительный интервал рассчитывают только для несмещенных оценок, то есть оценок которые совпадают со статистическим данными средними
Постановка задачи – наиболее важный момент в построении корреляционных моделей. От точности поставленной задачи в дальнейшем будет зависеть вся работа. В качестве уточнения постановки задачи проводится теоретический и логический анализ результирующего и определяющего факторов. Здесь определяются границы выборочной совокупности и определяется круг факторов, которые будут исследоваться.
Сбор исходной информации. Самая трудоемкая работа. Исходная информация формируется в виде таблиц, в которых содержатся значения результирующего и определяющих факторов.
После завершения сбора исходной информации приступают к статистической оценке значимости факторов. Статистическая оценка значимости проводится путем расчета коэффициентов парной корреляции. В результате получаются корреляционные матрицы, которые потом подвергаются визуальному анализу.
Следующий шаг - построение эмпирических уравнений регрессии (для определения характера влияния определяющих факторов на результирующий). Для каждого факторного признака Xij на график наносятся точки с координатами yi xij
Затем определяется минимальное и максимальное значение X и Y. Отрезок [xjmin, xjmax] делится на ряд интервалов. В результате получаем
∆x = (xjmax - xjmin) \ N
N – число интервалов.
Для каждого интервала (т.е. ∆x) определяется точка со средним значением у, х. Затем на графике эти средние значения соединяются отрезками, мы получаем эмпирическую линию регрессии, при необходимости эта линия регрессии может быть сглажена. В результате получаем некоторую линию, которая отражает характер влияния определяющего фактора на результирующий. Зная характер зависимости, можно выбрать форму сглаживающей кривой. На этом этап предварительной обработки информации заканчивается.
Расчетный этап. Как правило, в социально-экономических исследованиях используют многофакторные модели, но в некоторых случаях полезными являются и однофакторные модели. Однофакторные модели, как правило, строятся при помощи метода наименьших квадратов. Зависимости, которые используются:
линейная у = а0 + а1х
степенная у = а0хa1
у = a0 * ea1x
Следующий шаг – построение многофакторной модели. В качестве основных сглаживающих функций выступают линейные многочлены и мультистепенные функции
Метод расчета – метод наименьших квадратов. Расчеты могут осуществляться в матричной форме. При необходимости в начале проводят процедуру выравнивания.
Затем проводится оценка адекватности и точности построения моделей.
Адекватность полученных моделей, оценивается при помощи нескольких показателей. Полноту учета всех факторов, влияющих на результирующий признак характеризует коэффициент множественной корреляции, он определяется:
________
R = √1 – D\Dy
D0 – остаточная дисперсия, т.е. это характеристика, которая показывает рассеяние случайной величины
Yi – относительную уравнения регрессии
Dy - дисперсия Y относительно среднего значения
Используется коэффициент детерминации – это коэффициент множественной корреляции в квадрате (R ),он показывает долю изменчивости результативного признака за счет всех факторов, включенных в модель. Точность модели можно оценить по средней относительной ошибке.
n
Scp = 1\n Σ |(yi - ypi)| * 100%\yi
i=1
Sср показывает на сколько процентов расчетные значения в среднем отклоняются от фактических. Можно рассчитать доверительный интервал, который показывает пределы возможных значений у. Величина доверительного интервала определяется:
∆ = y ± tσ*
t – доверительная вероятность, которая зависит от уровня риска
σ – среднеквадратическое отклонение i-го расчетного значения у от фактического.
При этом считается, что yi распределены по нормальному закону с одинаковой дисперсией, а за ее оценку принимается значение остаточной дисперсии.
Для оценки адекватности используются также критерии согласия. Могут использоваться критерии Фишера, Стьюдента, Пирсона и др.