русс | укр

Языки программирования

ПаскальСиАссемблерJavaMatlabPhpHtmlJavaScriptCSSC#DelphiТурбо Пролог

Компьютерные сетиСистемное программное обеспечениеИнформационные технологииПрограммирование

Все о программировании


Linux Unix Алгоритмические языки Аналоговые и гибридные вычислительные устройства Архитектура микроконтроллеров Введение в разработку распределенных информационных систем Введение в численные методы Дискретная математика Информационное обслуживание пользователей Информация и моделирование в управлении производством Компьютерная графика Математическое и компьютерное моделирование Моделирование Нейрокомпьютеры Проектирование программ диагностики компьютерных систем и сетей Проектирование системных программ Системы счисления Теория статистики Теория оптимизации Уроки AutoCAD 3D Уроки базы данных Access Уроки Orcad Цифровые автоматы Шпаргалки по компьютеру Шпаргалки по программированию Экспертные системы Элементы теории информации

Методы выявления корреляционной связи


Дата добавления: 2013-12-23; просмотров: 8642; Нарушение авторских прав


Вопрос II

Для выявления наличия и характера корреляционной связи в статистике используется ряд методов: сопоставления параллельных рядов; графический метод; метод аналитических группировок и корреляционных таблиц.

Метод сопоставления параллельных рядов.

При небольшом числе наблюдений наличие корреляционной связи между двумя признаками Х и у часто можно выявить визуально, путем простого параллельного сравнения их значений у отдельных единиц.

Для этого единицы наблюдения располагаются по возрастанию факторного признака Х и затем сравнивают с ним поведение значений результативного признака У. Недостаток метода заключается в том, что он не позволяет определить количественную меру связи между изучаемыми показателями.

Например, имеются данные по 10 однотипным предприятиям о стоимости основных средств производства Х и валовом выпуске продукции У. (Предприятия расположены по возрастанию значений Х).

Таблица II.1

Основные показатели деятельности предприятий (условные данные)

Предприятие Стоимость основных средств производства, млн. руб. Хi Валовой выпуск продукции, млн. руб. Уi Знаки отклонений от средней величины
1 2 3 4 5 6 7 8 9 10 12 16 25 38 43 55 60 80 91 100 28 40 38 65 80 101 95 125 183 245 - - - - - + + + + + - - - - - + - + + +
Итого    

 

В приведенном примере по мере увеличения значений Х увеличиваются и значения У, хотя в отдельных случаях после возрастания наблюдается и уменьшение значений результативного признака. В целом же можно говорить, что чем больше стоимость основных средств, тем больше валовой выпуск продукции, т.е. связь между Х и У прямая.



Такое «субъективное» суждение о наличии корреляционной связи обычно сопровождается расчетом того или иного показателя, используемого для измерения тесноты связи: коэффициента Фехнера, ранговых коэффициентов корреляции, линейного коэффициента корреляции.

Коэффициент Фехнера(коэффициент корреляциизнаков) – простейший показатель тесноты связи. Он основан на сравнении поведения отклонений индивидуальных значений каждого признака (Х и У) от своей средней величины. При этом во внимание принимаются не величины отклонений и , а их знаки ( «+» или «-» ). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений и несовпадений. Если совпадение знаков обозначить символом С, а несовпадений – Н, то коэффициент Фехнера можно записать как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:

Если знаки всех отклонений по каждому признаку совпадут, то и тогда . Это характеризует наличие прямой связи. Если все знаки не совпадут, то

И тогда (обратная связь). Если же , то . Коэффициент Фехнера может принимать значения от 0 до ±1. При этом, чем ближе значение к 1, тем больше (сильнее) теснота зависимости между х и у.

По приведенному примеру коэффициент Фехнера составит:

Такое значение показатели тесноты связи характеризует сильную зависимость.

Поскольку коэффициент Фехнера зависит только от знаков и не учитывает величину самих отклонений Х и У от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление. Так, в рассматриваемом примере по значению и знаку коэффициента Фехнера можно сказать, что между Х и У существует прямая корреляционная связь.

Графический метод.

Представление о связи можно получить при помощи ее графического изображения.

Несгруппированный материал располагают в системе координат, - откладывая на абсциссе значения факторного признака Х, на ординате – значения результативного признака У, получая, таким образом, диаграмму рассеивания.

При исследовании связи по диаграмме рассеивания принимают во внимание следующее: 1) Направление связи определяют по положению точек в системе координат. Если точки расположены слева снизу направо вверх – связь прямая. Если точки расположены сверху направо вниз – связь обратная;

2) О тесноте связи судят по плотности расположения точек;

3) В большинстве случаев нельзя получить определенных данных о форме связи, так как ее перекрывает рассеивание. Чем сильнее рассеивание, тем труднее судить о форме связи. Связь будет видна из графика гораздо отчетливее, если в системе координат вместо точек, представляющих отдельные величины, дать положение групповых средних. Соединив эти точки ломаной линией, получают эмпирическую линию связи.

Исследуя связь по эмпирической линии связи, можно установить следующее:

1) Как и при диаграмме распределения, направление связи получают из положения линии в системе координат. Если эмпирическая линия связи проходит параллельно абсциссе, связь распознать нельзя;

2)Форма связи проясняется яснее, так как образование групповых средних исключает вариацию внутри групп.

 

Построение корреляционных таблиц

Вначале проводят группировку значений факторного и результативного признаков.

В корреляционной таблице факторный признак х, как правило, располагают встроках,а результативный признак у – в столбцах (графах) таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту fij повторения данного сочетания значения х и у.

Таблица II.2

Макет заполнения корреляционной таблицы

 

У1 У2 Уj Уn Итого
Х1 f11 f12 f1j f1n Σf1j
Х2 f21 f22 f2j f2n Σf2j
Хi fi1 fi2 fij fin Σfij
Хm fm1 fm2 fmj fmn Σfmj
Итого Σfi1 Σfi2 Σfij Σfin -
-

 

Если частоты расположены в таблице беспорядочно, то можно утверждать, что между факторами связь отсутствует, а если они образуют какой-либо порядок, то между факторами допустима связь, причем прямая или обратная, если частоты концентрируются около одной из диагоналей таблицы. При прямой связи в движении слева направо частоты располагаются вокруг воображаемой диагонали, идущей сверху вниз, а при обратной – вокруг воображаемой диагонали, идущей снизу вверх.

Например, установим взаимосвязь балансовой прибыли со стоимостным выпуском продукции по данным интервальной группировки 40 фирм, приведенным ниже:

Таблица II.3

Выпуск продукции, Х, млн. руб. Балансовая прибыль, У, млн.руб. Число фирм
300-400 400-500 500-600 600-700 700-800 10-20, 20-30, 30-40 20-30, 30-40, 40-50 30-40, 40-50, 50-60 40-50, 50-60 50-60 2; 4; 2 1; 5; 3 4; 8; 2 2; 4 3

 

По средним данным интервальной группировки заполняется корреляционная таблица:

Таблица II.4

Выпуск Х, млн.руб Балансовая прибыль У, млн.руб Итого
15 25 35 45 55
350 450 550 650 750 2 4 2 - - - 1 5 3 - - - 4 8 2 - - - 2 4 - - - - 3 2 5 11 13 9 15,0 17,0 26,82 34,23 46,11
Итого 8 9 14 6 3 40
450 572 636 717 750 -

 

Корреляционная таблица свидетельствует о наличии прямой связи между выпуском продукции и балансовой прибылью фирм, поскольку их количества расположились вокруг диагонали, идущей сверху вниз направо.

Метод аналитических группировок

Чтобы выявить зависимость с помощью этого метода, необходимо произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Недостаток данного метода заключается в том, что он не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.

На этапе теоретического обоснования модели при построении аналитической группировки решаются две задачи: выбор факторных признаков и определение числа групп и границ интервалов. Решение первой из этих задач целиком основывается на качественном анализе изучаемых явлений.

Установление числа групп и границ интервалов определяется целями группировки. При построении аналитической группировки главная цель заключается в получении наиболее полной и достоверной характеристики линии регрессии. При этом приходится учитывать два противоречащих друг другу требования. С одной стороны, для более детального описания формы линии регрессии, и, следовательно, для более полного описания связи признаков, желательно выделить как можно больше групп. Но, с другой стороны, увеличение числа групп ведет к уменьшению числа единиц в каждой из них и, следовательно, уменьшает надежность групповых средних.

Например, имеются данные по 20 туристическим фирмам о затратах на рекламу, усл. ден.ед. (факторный признак, Х) и количестве туристов, воспользовавшихся услугами каждой фирмы, чел. (результативный признак, У). Для удобства дальнейших расчетов расположим предприятия в порядке возрастания факторного признака.

 

 

Таблица II.5

N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Х 8 8 8 9 9 9 9 9 10 10 10 10 10 11 11 11 11 12 12 12
У 800 850 720 850 800 880 950 820 900 1000 920 1060 950 900 1200 1150 1000 1200 1100 1000

Так как в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, при проведении группировки выделим пять групп.

По каждой выделенной группе рассчитаем средние значения результативного признака.

Таблица II.6

Группы туристических фирм по затратам на рекламу, усл. ден.ед. Число фирм в группе Среднее число туристов. Воспользовавшихся услугами данной группы фирм, человек
8 3 790,0
9 5 860,0
10 5 966,0
11 4 1062,5
12 3 1100,0
Итого 20 952,5

Сравнив средние значения результативного признака по группам, можно сделать вывод, что рост затрат туристических фирм на рекламу влечет за собой увеличение числа клиентов, пользующихся услугами фирмы, т.е. в рассматриваемом примере можно предположить наличие прямой корреляционной зависимости между признаками.

Корреляционная зависимость отчетливо обнаруживается только при рассмотрении средних значений результативного признака, соответствующих определенным значениям факторного признака, так как при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться, и четче выступит зависимость результативного признака от фактора, положенного в основу группировки. Иными словами, предполагается, что все прочие причины, если они носят случайный характер, при определении средней по группам взаимопогашаются, т.е. дают в каждой группе один и тот же результат. Следовательно, различия в величине средних будут связаны только с различиями в величине данного факторного признака.

Методика измерения тесноты связи по результатам аналитической группировки вытекает из правила сложения дисперсий: ( Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий).

По приведенному примеру рассчитаем вначале общую дисперсию. Общая дисперсия признака У не зависит от группировки, и ее удобно вычислить по индивидуальным значениям признака У:

=

Вычислим межгрупповую дисперсию:

Внутригрупповую дисперсию можно вычислить, используя правило сложения дисперсий:

 

Общая дисперсия отражает различия фирм по количеству туристов в результате действия всех существующих факторов. Межгрупповая – характеризует вариацию результативного признака, связанную с вариацией признака, положенного в основание группировки. Внутригрупповая – характеризует вариацию результативного признака, связанную с вариацией всех факторных признаков, кроме признака, по которому построена группировка.

Правило сложения дисперсий приобретает, таким образом, в аналитической группировке следующий смысл. Из общей дисперсии выделяются две составные части, одна из которых (межгрупповая дисперсия) связана с группировочным признаком, а вторая (внутригрупповая) не связана с ним. Показатель, характеризующий тесноту связи, определяется как отношение вариации, связанной с действием группировочного признака и общей вариации, возникающей под действием всех причин. Этот показатель называется эмпирический коэффициент детерминации (η2).

Квадратный корень из эмпирического коэффициента детерминации – эмпирическое корреляционное отношение( η).

Если связь отсутствует, то η=0. В данном случае все групповые средние будут равны между собой и межгрупповой вариации не будет.

Когда η=1, связь между признаками функциональная. В этом случае не будет внутригрупповой вариации.

Чем значения корреляционного отношения ближе к единице, тем теснее связь между признаками.

В нашем примере эмпирическое корреляционное отношение составит:

=

Следовательно, связь между рассматриваемыми признаками тесная.



<== предыдущая лекция | следующая лекция ==>
Сущность и виды связей между признаками | Нахождение уравнений регрессии


Карта сайта Карта сайта укр


Уроки php mysql Программирование

Онлайн система счисления Калькулятор онлайн обычный Инженерный калькулятор онлайн Замена русских букв на английские для вебмастеров Замена русских букв на английские

Аппаратное и программное обеспечение Графика и компьютерная сфера Интегрированная геоинформационная система Интернет Компьютер Комплектующие компьютера Лекции Методы и средства измерений неэлектрических величин Обслуживание компьютерных и периферийных устройств Операционные системы Параллельное программирование Проектирование электронных средств Периферийные устройства Полезные ресурсы для программистов Программы для программистов Статьи для программистов Cтруктура и организация данных


 


Не нашли то, что искали? Google вам в помощь!

 
 

© life-prog.ru При использовании материалов прямая ссылка на сайт обязательна.

Генерация страницы за: 0.006 сек.