Этапы построения регрессионной модели

Разработка модели и исследование с ее помощью процессов функционирования систем и процессов в общем случае должны выполняться в следующей последовательности:

· предварительное исследование сути проблемы;

· формирование перечня факторов и их логический анализ;

· планирование и организация наблюдений с целью сбора статистических исходных данных;

· первичная обработка статистических данных;

· определение вида (спецификация) функции регрессии;

· оценка функции регрессии;

· отбор главных факторов;

· проверка адекватности регрессионной модели;

· смысловая интерпретация полученной модели;

· решение конкретных прикладных задач с помощью модели (например, прогнозирование).

Предварительное исследование сути проблемы. Целью этого этапа является вербальное (словесное) описание сути проблемы. В соответствии с целью работы по располагаемым материалам устанавливаются: компоненты процессов, подсистемы систем, их общие взаимосвязи, механизмы функционирования систем, объекты и периоды исследования. Изучается опыт решения аналогичных задач, формулируются предварительные гипотезы о зависимости тех или иных переменных (критериев, показателей, параметров).

Формирование перечня факторов и их логический анализ. Целью этого этапа является предварительное определение разумного числа исследуемых переменных и их классификация на зависимые и объясняющие (функции и аргументы).

Сбор исходных данных и их первичная обработка. Целью этого этапа является формирование достаточных (по объему и номенклатуре) исходных данных. Статистическая обработка сводится, в основном, к исключению из данных статистических "выбросов" и статистическое сглаживание данных.

Исходная информация может быть собрана в следующих видах:

· динамические (временные) ряды;

· пространственная информация (данные о нескольких объектах в одинаковые моменты времени);

· временная информация (данные об одном объекте в разные моменты времени);

· различные варианты комбинации информации.

Объем выборок зависит от числа факторов, включаемых в модель. Для получения статистически значимой модели потребный объем выборки n_min определяется по формуле:

n_min≥ (5…8)∙(m+n),

где: m - число факторов, включаемых в модель;

n - число свободных членов в уравнении модели.

Спецификация функции регрессии. Целью этого этапа является конкретное формулирование гипотезы о форме регрессионной связи (линейная, нелинейная, прямая, обратная, простая или множественная).

Оценка функции регрессии. Целью этого этапа является определение числовых значений параметров (коэффициентов) регрессии, показателей, характеризующих "качество" построенной регрессионной модели.

Отбор главных факторов. Целью этого этапа является совершенствование регрессионной модели в направлении уменьшения числа факторов. Большое число факторов делает модель громоздкой, неудобной для применения, затрудняет исследование влияния отдельных факторов. С другой стороны, - слишком малое число факторов может привести к ошибкам (к недопустимому "загрублению") результатов моделирования. В этой связи очевидна необходимость включения в окончательный вариант регрессионной модели лишь рационального набора факторов. Часто эту задачу решают с помощью различных вариантов факторного анализа (например, методом главных компонент МГК).

Более простой способ выявления и устранения избыточности факторов состоит в оценке мультиколлинеарности(чем больше мультиколлинеарность, тем больше избыточность) и в последующем использовании метода исключения переменных.

Метод исключения переменных заключается в том, что высококоррелированные объясняющие переменные (факторы) устраняются из регрессии последовательно в несколько этапов, после чего она заново оценивается:

1. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов парной корреляции. Опыт показывает, что если │r_ij│≥ 0.7, то одну из переменных можно исключить (r_ij - коэффициент парной корреляции между факторами x_i и x_j).

2. Отбор переменных продолжают, анализируя тесноту взаимосвязи факторов x с зависимой переменной y. Для анализа тесноты взаимосвязи x и y используют значения коэффициента парной корреляции между фактором и функцией (r_{xi y}). Факторы x_i, для которых r_{xi y}≈ 0, то есть мало связанные с y, подлежат исключению.

3. На следующем этапе отбор факторов проводят, анализируя коэффициенты β факторов. Коэффициент β показывает, на сколько "сигм" (СКО) изменяется функция с изменением соответствующего аргумента на одну "сигму" при фиксированном значении остальных аргументов

β_k =a_k∙(σ_x _k/σ_y),

где: β_k - коэффициент β k-го фактора;

σ_{x k} - СКО k-го фактора;

σ_y - СКО функции;

a_k - коэффициент регрессии при k-ом факторе.

Из двух факторов может быть исключен тот, который имеет меньшее значение β.

4. Дальнейший отбор факторов проводится путем проверки коэффициентов регрессии a_k на статистическую значимость (например, с помощью t-критерия Стьюдента). Расчет критерия Стьюдента t_k (для k-го фактора) выполняется по формуле:

t_k=a_k /S_{a k}, (3.2)

где: a_k - коэффициент регрессии при k-ом факторе;

S_{a k} - стандартное отклонение оценки параметра a_k.

Значение t_k, рассчитанное по (3.2), сравнивают с табличным значением критерия t _f,_α, найденным по таблице квантилей t-распределения (для этого предварительно задаются величиной уровня значимости α и определяют число степеней свободы

f =n-m-1,

где: n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели).

Если t_k<t _f,_α, то k-ый фактор не оказывает существенного влияния на y, в связи с чем, он может быть исключен из модели.

Проверка адекватности регрессионной модели. Целью этого этапа является проверка качества окончательного варианта регрессионной модели. Данный этап включает:

· оценку значимости коэффициента детерминации D;

· вычисление средней ошибки аппроксимации Е.

Оценка значимости коэффициента детерминации необходима для ответа на вопрос: оказывают ли выбранные факторы достаточное влияние на y? Для оценки значимости используется F-статистика Фишера:

F= [D∙(n -m- 1)] / [m∙(1 -D)], (3.3)

где: D -коэффициент множественной детерминации, D =R² (здесь R коэффициент множественной корреляции);

n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели.

Значение F, рассчитанное по (3.3), сравнивают с табличным значением F_f1,f_2,α, найденным по таблице квантилей F-распределения Фишера (для этого предварительно задаются величиной уровня значимости α и определяют число степеней свободы

f₁=m; f₂=n-m- 1,

где: n - число наблюдений в исходном статистическом ряде;

m - количество факторов в модели).

Если F>F_f1,f_2,α, то включенные в регрессию факторы достаточно полно объясняют зависимую переменную y, что позволяет говорить о значимости самой регрессии (модели).

Вычисление средней ошибки аппроксимации позволяет проверить качество подбора теоретического уравнения. Средняя ошибка аппроксимации регрессии определяется по формуле:

E= {{∑[(y _i-y _{i т}) /y _{i т}]} /n} ∙100 %,

^{i = 1}

где: n - число наблюдений в исходном статистическом ряде;

y_i - значения зависимой переменной, полученные в i-ом наблюдении (в i-ой точке исходного статистического ряда);

y_{i т} - значения зависимой переменной, рассчитанные с помощью регрессии для i-ой точки.

Смысловая интерпретация полученной модели. Целью этого этапа является осмысление функциональных возможностей полученной регрессионной модели. На тестовых примерах проверяется корректность исходных гипотез (сформулированных на первом этапе), составляется предварительный план решения (на основе полученной модели) ряда конкретных исследовательских задач, например, - задач прогнозирования.