Использование принципов регрессионного и корреляционного анализа при обработке опытных данных позволяет найти зависимости между переменными и условиями оптимума. Математическая модель является функцией отклика, связывающая параметр оптимизации характеризующие результаты эксперимента с переменными, которые экспериментатор варьирует при проведении опытов.
y=φ(x1,x2,…xn)
Х – фактор
Хi – факторное пространство.
Геометрическое отображение функции отклика в факторном пространстве (у) называется поверхностью отклика. При использовании статистических методов математическая модель представляется в виде полинома (отрезка ряда Тейлора), в который разлагается неизвестная зависимость
где
В связи с тем, что в реальном процессе всегда существуют неуправляемые и неконтролируемые переменные, результат эксперимента есть случайная величина. Поэтому при обработке экспериментальных данных получаются так называемые выборочные коэффициенты регрессии, ,, , , являющиеся оценками теоретических коэффициентов ,, , , Уравнение регрессии, полученное на основании эксперимента, запишется следующим образом:
Коэффициент называют свободным членом уравнения регрессии; коэффициенты ,- линейными эффектами; коэффициенты - квадратичными эффектам и; коэффициенты , ,— эффектами взаимодействия.
Коэффициенты уравнения (111,3) определяются методом наименьших квадратов из условия
Здесь N — объем выборки. Разность между объемом выборки N и числом связей, наложенных на эту выборку I, называется числом степеней свободы выборки f:
f=N — 1
При отыскании уравнения регрессии число связей равно числу определяемых коэффициентов.
Число факторов
Число коэффициентов в полиномах 1-4 степени
Число факторов
Число коэффициентов в полиномах 1-4 степени
1
2
3
4
1
2
3
4
23
34
610
1020
1535
45
56
1521
3556
70126
Таблица 1
В табл.1 показано число коэффициентов, которые надо определить, чтобы получить полиномы различных степеней для случая, когда число независимых факторов составляет от 2 до 5.
Из табл. 1 следует, что число коэффициентов, подлежащих определению, быстро увеличивается с ростом как числа факторов, так и порядка полинома.
Вид уравнения регрессии выбирается путем экспериментального подбора.
МЕТОДЫ РЕГРЕССИОННОГО И КОРРЕЛЯЦИОННОГО АНАЛИЗА
При изучении зависимости у от одного фактора для определения вида уравнения регрессии полезно построить эмпирическую линию регрессии. Для этого весь диапазон изменения х на поле корреляции (рис. 3-2) разбивают на равные интервалы Δх. Все точки, попавшие в' данный, интервал Δх, относят к его середине - Для этого подсчитывают частные средние для каждого интервала:
(3.6)
рис. 3-2 Поле корреляции
Здесь - число точек в интервале Δ, причем
(3.7),
где k — число интервалов разбиения; N-объем выборки.
Затем последовательно соединяют точки (, ) отрезками прямой. Полученная ломаная называется эмпирической линией .регрессии y по х. По виду эмпирической линии регрессии можно подобрать уравнение регрессии = f(х).
Практически задача определения параметров уравнений регрессии сводится к определению минимума функции многих переменных. Если =f(x,,, ,…), есть функция дифференцируемая и требуется выбрать ,, … так, чтобы
необходимым условием минимума Ф (,, ) является выполнение равенств
…. (3.10)
Или
После преобразований получим:
(3.12)
Cистема уравнений (3.12) содержит столько же уравнений, сколько неизвестных коэффициентов ,, …,... входит в уравнение регрессии, и называется в математической статистике системой нормальных уравнений.
Поскольку Ф≥О при любых ,, …, у величины Ф обязательно должен существовать хотя бы один минимум. Поэтому, если система нормальных уравнений имеет единственное решение, оно и является минимумом для величины Ф. Решать систему (111,112) в общем виде нельзя. Для этого надо задаться конкретным видом функции f
.
Линейная регрессия от одного параметра.
Определить по методу наименьших квадратов коэффициенты линейного уравнения регрессии
(3.13) по выборке объема N.
Для этого случая система нормальных уравнений имеет вид:
Или
Коэффициенты и легко найти с помощью определителей.
Коэффициент проще найти по известному из первого уравнения системы (3.14):
(3.15)
где , - средние значения у и х.
Последнее уравнение показывает, в частности, что между коэффициентами и существует корреляционная зависимость.
Для оценки силы линейной связи вычисляется выборочный коэффициент корреляции r*:
После того, как уравнение регрессии найдено, необходимо провести статистический анализ результатов. Этот анализ состоит в следующем: проверяется значимость всех коэффициентов регрессии в сравнении с ошибкой воспроизводимости и устанавливается адекватность уравнения. Такое исследование носит название регрессионного анализа.
При проведении регрессионного анализа примем следующие допущения:
1. Входной параметр х измеряется с пренебрежимо малой ошибкой. Появление ошибки в определении у объясняется наличием в процессе невыявленных переменных и случайных воздействий, не вошедших в уравнение регрессии.
2. Результаты наблюдений над выходной величиной представляют собой независимые нормально распределенные случайные величины,
3. При проведении эксперимента с .объемом выборки N при условии, что каждый опыт повторен m раз, выборочные дисперсии , должны быть однородны.
При одинаковом числе параллельных опытов проверка однородности дисперсий сводится к следующему:
1. Определяется среднее из результатов параллельных опытов:
2. Определяются выборочные дисперсии:
3. Находится сумма дисперсий (3.20)
4. Составляется отношение
(3.21)
где - максимальное значение выборочной дисперсии
Если дисперсии однородны, то
где табулированное значение критерия Кохрена при уровне значимости р.
Если выборочные дисперсии однородны, рассчитывается дисперсия воспроизводимости:
Число степеней свободы этой дисперсии f равно:
f=N(m-1) (3.24)
Дисперсия воспроизводимости необходима для оценки значимости коэффициентов уравнения регрессии (3.13). Оценка значимости коэффициентов производится по критерию Стьюдента:
Если - больше табулированного для выбранного уровня значимости р и числа степеней свободы f, то коэффициент значимо отличается от нуля; для уравнения (3.13) можно определить по закону накопления ошибок:
(3.28)
Если , получим:
(3.30)
Незначимые коэффициенты из уравнения регрессии исключаются. Оставшиеся коэффициенты пересчитываются заново, поскольку коэффициенты взаимно закоррелированы. Адекватность уравнения проверяется по критерию Фишера:
F=S2ад/S2воспр (3.31)
где – дисперсия воспроизводимости; s2ад — дисперсия адекватности.
(3.32)
Если отношение (3,32)- меньше табличного уравнение адекватно.
При отсутствии параллельных опытов и дисперсии воспроизводимости качество аппроксимации можно оценить принятым уравнением, сравнив s2ОСТ и дисперсию относительно среднего
по критерию Фишера
В этом случае критерий Фишера показывает, во сколько раз уменьшается рассеяние относительно полученного уравнения регрессии по сравнению с рассеянием относительно среднего. Чем больше значение F превышает табличное для выбранною уровня значимости р и чисел степеней- свободы = N—1 и = N—l, тем эффективнее уравнение регрессии.
Параболическая регрессия.
Если уравнение регрессии представляет собой полином некоторой степени, то при использовании метода наименьших квадратов коэффициенты этого полинома находят решением системы линейных уравнений. Например, требуется определить по методу наименьших квадратов коэффициенты квадратичной функции — параболы второго порядка:
В этом случае
И система нормальных уравнений имеет вид
(3.34)
Аналогичными по структуре уравнениями будут определяться коэффициенты параболы любого порядка.