Корреляция, или коэффициент корреляции является распространенной общей характеристикой двумерных данных в том же смысле, в каком среднее и стандартное отклонение являются важными характеристиками для анализа одномерного набора данных. Коэффициент корреляции характеризует «силу (тесноту)» линейной зависимости между двумя переменными. Возможные значения коэффициента корреляции лежат в диапазоне от –1 до +1. Отрицательный знак коэффициента корреляции указывает на то, что с увеличением значений одной переменной значения другой переменной будут уменьшаться (прямая с отрицательным углом наклона). В случае положительного коэффициента корреляции с увеличением значений одной переменной значения другой переменной также увеличиваются (прямая с положительным углом наклона).
Формула для вычисления выборочного коэффициента корреляции имеет вид:
,
где и – средние значения переменных X и Y, а Sx и Sy – стандартные отклонения этих переменных. Числитель в приведенной формуле включает в себя сумму попарных произведений, которая выражает взаимодействие двух переменных X и Y. Знаменатель в формуле введен для нормирования числителя таким образом, чтобы коэффициент корреляции стал безразмерным, и его можно было легко интерпретировать числом в диапазоне от –1 до +1.
Еще раз подчеркнем, что коэффициент корреляции характеризует только линейную зависимость. Если абсолютная величина коэффициента корреляции равна 1, то это указывает на идеальную (функциональную) линейную взаимосвязь. Если коэффициент корреляции равен 0, то это означает, что между переменными отсутствует линейная зависимость. В таком случае требуется дополнительный анализ, поскольку переменные либо являются независимыми, либо взаимосвязь между ними имеет нелинейный характер.
Задание 2.
Исследовать взаимосвязь между размером жилой площади и ценой объекта.
1. Откройте файл Двумерные данные.xls.
2. С Листа1 скопируйте данные вместе с метками (диапазон A1:B16) на Лист2 в тот же диапазон.
3. На Листе2 в ячейку D1 введите Инструмент анализа: Корреляция.
5. В диалоговом окне Корреляция установите параметры как указано ниже на рисунке.
6. Щелкните на кнопке ОК. Результаты будут расположены в диапазоне D2:F4 (см. рисунок ниже).
7. Результатом является матрица попарных корреляций. На диагонали расположены 1, показывающие, что каждая переменная положительно коррелированна сама с собой. Значение коэффициента корреляции (0,814651) указано в левой нижней части матрицы в ячейке E4. Правая верхняя часть матрицы пустая, т.к. ее значения совпадают с соответствующими значениями в левой нижней части.
8. Вычислите коэффициент корреляции, используя Мастер функций. Для этого в ячейку D6 введите Функция КОРРЕЛ. Выделите ячейку D7, вызовите Мастер функций и выберите статистическую функцию КОРРЕЛ. В диалоговом окне Аргументы функции щелкните в поле Массив1, а затем выделите диапазон A2:A16, не включая метку. Теперь щелкните в поле Массив2 и выделите диапазон B2:B16, не включая метку. Щелкните на кнопке ОК.
9. Полученное значение коэффициента корреляции (0,814651) близко к 1. Это указывает на то, что между ценой на недвижимость и размером площади существует сильная положительная линейная взаимосвязь. Точки данных довольно плотно сгруппированы (с небольшим случайным отклонением) вокруг прямой, направленной вверх и вправо.
Замечание. В отличие от инструмента анализа Корреляция статистическая функция КОРРЕЛ не статична, т.е. при изменении данных в исходном диапазоне значение коэффициента корреляции, рассчитанного с помощью функции КОРРЕЛ, тоже изменится.
10. Выделите ячейку B2 и введите в нее число 30. Нажмите [Enter].
Обратите внимание!Величина коэффициента корреляции в ячейке D7 изменилась, а в матрице попарных корреляций осталось прежнее значение.
11. Щелкните на кнопке Отменить на панели инструментов Стандартная, чтобы вернуться к исходному значению в ячейке B2.