При изучении признаков с непрерывными и неизвестными законами распределения классические подходы корреляционного анализа неэффективны. В этих случаях для изучения тесноты связей применяют, например, метод ранговой корреляции.
Пусть дан вариационный ряд признака Х: . Рангом наблюдаемого значения
признака Х называется номер этого наблюдения в вариационном ряду, т.е. R(
) = j при условии, что неравенства строгие. Если встречаются одинаковые члены, то в качестве ранга берется среднее арифметическое соответствующих номеров. Например, сумма оценок, полученных студентами на двух экзаменах, образуют вариационный ряд: 5, 5, 5, 7, 8, 9, 10, 10. Ранг трех студентов в начале ряда (1 + 2 + 3) / 3 = 2 или R(5) = 2; R(7) = 4, R(8) = 5, R(9) = 6, R(10) = (7 + 8) / 2 = 7,5.
При изучении связи между Х и Y предположим, что выборка упорядочена по Х. Тогда ей соответствует следующая матрица (подстановка):
,
в которой первая строка состоит из рангов наблюдений Х, а вторая из рангов наблюдений Y.
Для изучения связи между Х и Y используют эти подстановки или ранги. Жесткой функциональной положительной связи между Х и Y соответствует подстановка:
,
а жесткой отрицательной связи подстановка:
.
Остальные n-2 подстановки получаются при той или иной степени связи.
Два элемента перестановки R() и R(
R(
) стоит левее R(j) и больше его. Если при этом условии R(
) меньше R(j), то инверсии нет, и они образуют порядок.
В качестве меры связи берут разность между суммами чисел порядков N и чисел беспорядков Q, образованных элементами второй строки подстановки.
С помощью комбинаторики можно определить вероятности получения перестановок заданной меры связи. Например, для подстановок из четырех элементов рассмотрим расчетную таблицу:
| Число порядков N
| Число инверсий Q
| Мера сходства
| Подстановки
| Вероятность
|
|
|
| -6
|
| 1/24
|
|
|
| -4
| 3421, 4231, 4321
| 3/24
|
|
|
| -2
| 3412, 4132, 4213, 2431, 3241
| 5/24
|
|
|
|
| 3214, 2413, 4123, 3142, 1432, 2341
| 6/24
|
|
|
|
| 2143, 1423, 2314, 3124, 1342
| 5/24
|
|
|
|
| 2134, 1324, 1243
| 3/24
|
|
|
|
|
| 1/24
|
Из таблицы видно, что распределения вероятностей симметричны относительно центра
= N – Q = 0. Отсюда следует, что таблицы для решения задач проверки гипотез относительно меры сходства (или связи) можно давать для неотрицательных значений
.
Коэффициент ранговой корреляции Кендалла определяется по формуле:
.
Коэффициент ранговой корреляции Спирмена определяется по формуле:
, где
.
Пример 3.В таблице приведены данные о стаже работы (Х) и времени выполнения печати текста (Y) 10 машинисток. Вычислить коэффициенты ранговой корреляции Кендалла и Спирмена.
| № машинистки
| Стаж, Х
| Время выполнения задания, Y
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Решение. Расположим пары наблюдений
в порядке возрастания Х, получаем таблицу:
По этой таблице составляем матрицу подстановок, в которой первая строка состоит из рангов наблюдений Х, а вторая – Y:
.
Подсчитываем меру сходства
, приписывая числу инверсий, образуемых элементами второй перестановки (строки), знак минус. Так, например, для 10 имеем -9, для 6 – (2 – 5) = -3, …, для 4 – 1. Суммируя их, получаем
= -31.
Вычисляем коэффициент ранговой корреляции Кендалла:
.
Вычисляем коэффициент корреляции
Спирмена. Сначала вычисляем

;
.
Итак, связь между стажем машинистки и временем, затраченным на работу, можно считать доказанной, т.е. чем больше стаж, тем меньше затраты времени.
Коэффициент корреляции Спирмена и Кендалла можно рассчитать в пакете «Stadia».
Тема 7. Парная линейная регрессия