Инструмент Корреляция определяет коэффициент корреляции между двумя множествами данных (интервалами ячеек массив 1 и массив 2). Основная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей.
Парная корреляция. Для двух переменных и теоретический коэффициент корреляции определяется следующим образом:
, (14)
где ; .
Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами:
1 ;
2 Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения.
При корреляционная связь представляется линейной функциональной зависимостью. При линейная корреляционная связь отсутствует.
В практических расчетах коэффициент корреляции генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка – выборочный парный коэффициент корреляции :
, (15)
где ; . (16)
Для оценки значимости коэффициента корреляции применяется -критерий Стьюдента. При этом наблюдаемое значение критерия определяется по формуле
. (17)
Если , то полученное значение коэффициента корреляции признается значимым.
При высоком уровне корреляции большие значения Y сопровождаются большими значениями X (произведения отклонений преимущественно дают положительные значения). Аналогично, если наблюдается тенденция соответствия большим значениям Y малых значений Х, то результат дает отрицательную корреляцию. При слабо выраженной зависимости корреляция близка к нулю.
Ковариация – статистическая мера взаимодействия двух случайных величин. Ковариация зависит от единиц, в которых измеряются переменные и . Поэтому для измерения силы связи между двумя переменными используется коэффициент корреляции.
Выборочная ковариация является мерой взаимосвязи между двумя переменными. Ковариация между двумя переменными и рассчитывается следующим образом:
, (18)
где ; .
Множественная корреляция.Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата - коэффициента детерминации. Показатель множественной корреляции оценивает тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной корреляции может быть определен по формуле:
(19)
Для линейной регрессии индекс множественной корреляции может быть рассчитан также по следующим формулам:
Индекс множественной корреляции равен совокупному коэффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, как и в парной регрессии, имеет место и для криволинейной зависимости, нелинейной по переменным.
Частная корреляция.Как было показано выше,ранжирование факторов, участвующих в линейной регрессии, может быть проведено с помощью частных коэффициентов корреляции. При нелинейной взаимосвязи исследуемых признаков эту функцию выполняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.
Частные коэффициенты (индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.
Сопоставление коэффициентов частной корреляции разного порядка по мере увеличения числа включаемых факторов показывает процесс «очищения» зависимости результативного признака с исследуемым фактором.
Хотя частная корреляция различных порядков и может представлять аналитический интерес, в практических исследованиях предпочтение отдают показателям частной корреляции самого высокого порядка, ибо именно эти показатели являются дополнением к уравнению множественной регрессии.
В общем виде при наличии факторов для уравнения коэффициент частной корреляции, измеряющий влияние на фактора , при неизменном уровне других факторов, можно определить по следующей реккурентной формуле:
. (22)
Рассчитанные по реккурентной формуле частные коэффициенты корреляции изменяются в диапазоне от минус единицы до плюс единицы. Как правило, частные коэффициенты корреляции обычно не имеют самостоятельного значения. В основном их используют на стадии формирования модели, в частности в процедуре отсева факторов. Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции по формуле
. (23)
Для сопоставления можно определить ковариацию и корреляцию между массивами х1 и y. Исходная информация и результаты приведены в таблицах 25, 26.
Таблица 25 – Результаты использования инструментов Ковариация и Корреляция
A
B
C
D
E
F
G
Ковариация
х2
y
х2
y
х2
y
1,2
6,56
Корреляция
х2
y
х2
y
0,3313
Таблица 26 – Результаты использования инструментов Ковариация и Корреляция
A
B
C
D
E
F
G
Ковариация
х1
y
х1
y
х1
y
3,6
6,56
Корреляция
х1
y
х1
y
0,9939
Как видно из таблиц 25, 26, во втором случае наблюдается значительно более тесная связь между анализируемыми массивами. В частности, коэффициент корреляции между х1 и y массивами равен 0,9939, а между массивами х2 и y всего 0,3313, что вполне соответствует исходным данным.