Регрессионный анализ

Для произвольного числа переменных

Для произdольного числа переменных I_y_,x индекс корреляции называется коэффициентом корреляции R_y_,X. Для линейного случая считается через попарные коэффициенты корреляции:

, где - минор (определитель матрицы, получающейся из исходной матрицы r_ij вычеркиванием первого (нулевого) столбца и строки)

Этот коэффициент всегда больше любого коэффициента попарной корреляции.

Для нелинейного все опять же следует попробовать свести к интервалам, которые линеаризуются, или рассматривать регрессию.

Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента.
При построении математической функции классификации или регрессии основная задача сводится к выбору наилучшей функции из всего множества функций. Может существовать множество функций, одинаково классифицирующих одну и ту же обучающую выборку.
В результате задачу построения функции классификации и регрессии можно формально описать как задачу выбора функции с минимальной степенью ошибки:
Где:

f - функция классификации или регрессии из множества всех функций F;
c(y_i,f(x_i)) - функция потерь, в которой f(x_i) - значение зависимой переменной, найденное с помощью функции f для вектора x_i, а y_i - её точное (известное) значение.

В случае бинарной классификации (принадлежности объекта к одному из двух классов) простейшая функция потерь принимает значение 1 в случае неправильного предсказания и 0 в противном случае.
Но здесь не учитывается ни тип ошибки, ни её величина.
Для оценки качества классификации целесообразно использовать разность f(x) - y. Разница между предсказанным и известным (по данным обучающей выборки) значением зависимой переменной.