Для выявления наличия и характера корреляционной связи в статистике используется ряд методов: сопоставления параллельных рядов; графический метод; метод аналитических группировок и корреляционных таблиц.
Метод сопоставления параллельных рядов.
При небольшом числе наблюдений наличие корреляционной связи между двумя признаками Х и у часто можно выявить визуально, путем простого параллельного сравнения их значений у отдельных единиц.
Для этого единицы наблюдения располагаются по возрастанию факторного признака Х и затем сравнивают с ним поведение значений результативного признака У. Недостаток метода заключается в том, что он не позволяет определить количественную меру связи между изучаемыми показателями.
Например, имеются данные по 10 однотипным предприятиям о стоимости основных средств производства Х и валовом выпуске продукции У. (Предприятия расположены по возрастанию значений Х).
Таблица II.1
Основные показатели деятельности предприятий (условные данные)
Предприятие
Стоимость основных средств производства, млн. руб.Хi
Валовой выпуск продукции, млн. руб.Уi
Знаки отклонений от средней величины
12345678910
121625384355608091100
284038658010195125183245
-----+ + + + +
-----+-+++
Итого
В приведенном примере по мере увеличения значений Х увеличиваются и значения У, хотя в отдельных случаях после возрастания наблюдается и уменьшение значений результативного признака. В целом же можно говорить, что чем больше стоимость основных средств, тем больше валовой выпуск продукции, т.е. связь между Х и У прямая.
Такое «субъективное» суждение о наличии корреляционной связи обычно сопровождается расчетом того или иного показателя, используемого для измерения тесноты связи: коэффициента Фехнера, ранговых коэффициентов корреляции, линейного коэффициента корреляции.
Коэффициент Фехнера(коэффициент корреляциизнаков) – простейший показатель тесноты связи. Он основан на сравнении поведения отклонений индивидуальных значений каждого признака (Х и У) от своей средней величины. При этом во внимание принимаются не величины отклонений и , а их знаки ( «+» или «-» ). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений и несовпадений. Если совпадение знаков обозначить символом С, а несовпадений – Н, то коэффициент Фехнера можно записать как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
Если знаки всех отклонений по каждому признаку совпадут, то и тогда . Это характеризует наличие прямой связи. Если все знаки не совпадут, то
И тогда (обратная связь). Если же , то . Коэффициент Фехнера может принимать значения от 0 до ±1. При этом, чем ближе значение к 1, тем больше (сильнее) теснота зависимости между х и у.
По приведенному примеру коэффициент Фехнера составит:
Такое значение показатели тесноты связи характеризует сильную зависимость.
Поскольку коэффициент Фехнера зависит только от знаков и не учитывает величину самих отклонений Х и У от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление. Так, в рассматриваемом примере по значению и знаку коэффициента Фехнера можно сказать, что между Х и У существует прямая корреляционная связь.
Графический метод.
Представление о связи можно получить при помощи ее графического изображения.
Несгруппированный материал располагают в системе координат, - откладывая на абсциссе значения факторного признака Х, на ординате – значения результативного признака У, получая, таким образом, диаграмму рассеивания.
При исследовании связи по диаграмме рассеивания принимают во внимание следующее: 1) Направление связи определяют по положению точек в системе координат. Если точки расположены слева снизу направо вверх – связь прямая. Если точки расположены сверху направо вниз – связь обратная;
2) О тесноте связи судят по плотности расположения точек;
3) В большинстве случаев нельзя получить определенных данных о форме связи, так как ее перекрывает рассеивание. Чем сильнее рассеивание, тем труднее судить о форме связи. Связь будет видна из графика гораздо отчетливее, если в системе координат вместо точек, представляющих отдельные величины, дать положение групповых средних. Соединив эти точки ломаной линией, получают эмпирическую линию связи.
Исследуя связь по эмпирической линии связи, можно установить следующее:
1) Как и при диаграмме распределения, направление связи получают из положения линии в системе координат. Если эмпирическая линия связи проходит параллельно абсциссе, связь распознать нельзя;
2)Форма связи проясняется яснее, так как образование групповых средних исключает вариацию внутри групп.
Построение корреляционных таблиц
Вначале проводят группировку значений факторного и результативного признаков.
В корреляционной таблице факторный признак х, как правило, располагают встроках,а результативный признак у – в столбцах (графах) таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту fijповторения данного сочетания значения х и у.
Таблица II.2
Макет заполнения корреляционной таблицы
У1
У2
Уj
Уn
Итого
Х1
f11
f12
f1j
f1n
Σf1j
Х2
f21
f22
f2j
f2n
Σf2j
Хi
fi1
fi2
fij
fin
Σfij
Хm
fm1
fm2
fmj
fmn
Σfmj
Итого
Σfi1
Σfi2
Σfij
Σfin
-
-
Если частоты расположены в таблице беспорядочно, то можно утверждать, что между факторами связь отсутствует, а если они образуют какой-либо порядок, то между факторами допустима связь, причем прямая или обратная, если частоты концентрируются около одной из диагоналей таблицы. При прямой связи в движении слева направо частоты располагаются вокруг воображаемой диагонали, идущей сверху вниз, а при обратной – вокруг воображаемой диагонали, идущей снизу вверх.
Например, установим взаимосвязь балансовой прибыли со стоимостным выпуском продукции по данным интервальной группировки 40 фирм, приведенным ниже:
По средним данным интервальной группировки заполняется корреляционная таблица:
Таблица II.4
Выпуск Х, млн.руб
Балансовая прибыль У, млн.руб
Итого
15
25
35
45
55
350450550650750
242--
-153-
--482
---24
----3
2511139
15,017,026,8234,2346,11
Итого
8
9
14
6
3
40
450
572
636
717
750
-
Корреляционная таблица свидетельствует о наличии прямой связи между выпуском продукции и балансовой прибылью фирм, поскольку их количества расположились вокруг диагонали, идущей сверху вниз направо.
Метод аналитических группировок
Чтобы выявить зависимость с помощью этого метода, необходимо произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Недостаток данного метода заключается в том, что он не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.
На этапе теоретического обоснования модели при построении аналитической группировки решаются две задачи: выбор факторных признаков и определение числа групп и границ интервалов. Решение первой из этих задач целиком основывается на качественном анализе изучаемых явлений.
Установление числа групп и границ интервалов определяется целями группировки. При построении аналитической группировки главная цель заключается в получении наиболее полной и достоверной характеристики линии регрессии. При этом приходится учитывать два противоречащих друг другу требования. С одной стороны, для более детального описания формы линии регрессии, и, следовательно, для более полного описания связи признаков, желательно выделить как можно больше групп. Но, с другой стороны, увеличение числа групп ведет к уменьшению числа единиц в каждой из них и, следовательно, уменьшает надежность групповых средних.
Например, имеются данные по 20 туристическим фирмам о затратах на рекламу, усл. ден.ед. (факторный признак, Х) и количестве туристов, воспользовавшихся услугами каждой фирмы, чел. (результативный признак, У). Для удобства дальнейших расчетов расположим предприятия в порядке возрастания факторного признака.
Таблица II.5
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Х
8
8
8
9
9
9
9
9
10
10
10
10
10
11
11
11
11
12
12
12
У
800
850
720
850
800
880
950
820
900
1000
920
1060
950
900
1200
1150
1000
1200
1100
1000
Так как в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, при проведении группировки выделим пять групп.
По каждой выделенной группе рассчитаем средние значения результативного признака.
Таблица II.6
Группы туристических фирм по затратам на рекламу, усл. ден.ед.
Число фирм в группе
Среднее число туристов. Воспользовавшихся услугами данной группы фирм, человек
8
3
790,0
9
5
860,0
10
5
966,0
11
4
1062,5
12
3
1100,0
Итого
20
952,5
Сравнив средние значения результативного признака по группам, можно сделать вывод, что рост затрат туристических фирм на рекламу влечет за собой увеличение числа клиентов, пользующихся услугами фирмы, т.е. в рассматриваемом примере можно предположить наличие прямой корреляционной зависимости между признаками.
Корреляционная зависимость отчетливо обнаруживается только при рассмотрении средних значений результативного признака, соответствующих определенным значениям факторного признака, так как при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться, и четче выступит зависимость результативного признака от фактора, положенного в основу группировки. Иными словами, предполагается, что все прочие причины, если они носят случайный характер, при определении средней по группам взаимопогашаются, т.е. дают в каждой группе один и тот же результат. Следовательно, различия в величине средних будут связаны только с различиями в величине данного факторного признака.
Методика измерения тесноты связи по результатам аналитической группировки вытекает из правила сложения дисперсий: ( Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий).
По приведенному примеру рассчитаем вначале общую дисперсию. Общая дисперсия признака У не зависит от группировки, и ее удобно вычислить по индивидуальным значениям признака У:
=
Вычислим межгрупповую дисперсию:
Внутригрупповую дисперсию можно вычислить, используя правило сложения дисперсий:
Общая дисперсия отражает различия фирм по количеству туристов в результате действия всех существующих факторов. Межгрупповая – характеризует вариацию результативного признака, связанную с вариацией признака, положенного в основание группировки. Внутригрупповая – характеризует вариацию результативного признака, связанную с вариацией всех факторных признаков, кроме признака, по которому построена группировка.
Правило сложения дисперсий приобретает, таким образом, в аналитической группировке следующий смысл. Из общей дисперсии выделяются две составные части, одна из которых (межгрупповая дисперсия) связана с группировочным признаком, а вторая (внутригрупповая) не связана с ним. Показатель, характеризующий тесноту связи, определяется как отношение вариации, связанной с действием группировочного признака и общей вариации, возникающей под действием всех причин. Этот показатель называется эмпирический коэффициент детерминации (η2).