Что характеризует частный коэффициент корреляции множественной. Коэффициенты корреляции. Отношения между переменными

РЕАЛИЗАЦИЯ ЗАДАЧ МНОГОМЕРНОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА

С ИСПОЛЬЗОВАНИЕМ ПАКЕТА MS EXCEL

Проведение корреляционного анализа рассмотрим на примере.

С целью анализа взаимосвязи показателей эффективности производства продукции бы­ли рассмотрены параметры производственно-хозяйственной деятельности 30 предприятий машиностроения.

Необходимо провести анализ взаимосвязи следующих экономических показателей:

Результативный признак:

Y 1 – производительность труда

Факторные признаки:

Х 10 - фондоотдача;

Х 14 - фондовооруженность труда;

Х 15 - оборачиваемость нормируемых оборотных средств;

X 16 -

Исходные данные представлены в файле Коррел. анализ.xls .

Предположим, что рассматриваемые признаки в генеральной совокупности подчиняются нормальному закону распределения, и указанные данные представляют выбор­ку из этой генеральной совокупности. Для решения данной задачи воспользуемся программным продуктом MS EXCEL.

1. Скопируйте в свою папку или на Рабочий стол файл Коррел. анализ.xls с диска U:\Общая информация\Эконометрика;

2. Откройте файл Коррел. анализ.xls иперейдите на лист Задание;

3. Подключите в Excel пакет анализа:

Меню СЕРВИС – Надстройки – Пакет анализа – ОК;

Меню СЕРВИС – Анализ данных – Корреляция – ОК;

4. Укажите следующие параметры диалогового окна «Корреляция»:

1. Входной интервал

Укажите массив исходных показателей, выделив мышкой все значения ис­следуемых переменных (Y 1 , Х 10 , Х 14 , Х 15 , X 16 ).

2. Группирование

Установите переключатель в положение по столбцам .

Метки в первой строке

Поставьте флажок в опции Метки в первой строке , чтобы добавить во входной диапазон верхнюю строку, содержащую названия переменных, тогда корреляци­онная матрица будет выведена с названиями переменных.

Выходной интервал

Поставьте точку в опции Выходной интервал , затем щелкните мышью в строке напротив надписи Выходной интервал и щелкните мышью в ячейку G1 листа Задание .



После установки указанных параметров нажмите на кнопку ОК .

Получим корреляционную матрицу в следующем виде:

Таблица 1

Y1 X10 Х14 Х15 X16
Y1
X10 -0,02152
Х14 0,577299 -0,03604
Х15 0,334637 0,153663 0,077981
X16 -0,2042 -0,34832 -0,16676 -0,25017

5. Для дальнейших расчётов необходимо привести корреляционную матрицу к обычному виду, заполнив верхний треугольник таблицы. При этом надо учесть, что матрица парных коэффициентов корреляции является симметричной, и коэффициенты r ij = r ji . Скопируйте нужные парные коэффициенты корреляции в соответствующие ячейки.

В результате мы получим матрицу парных коэффициентов корреляции размерности 5x5:

Таблица 2

Y1 X10 Х14 Х15 X16
Y1 -0,02152 0,577299 0,334637 -0,2042
X10 -0,02152 -0,03604 0,153663 -0,34832
Х14 0,577299 -0,03604 0,077981 -0,16676
Х15 0,334637 0,153663 0,077981 -0,25017
X16 -0,2042 -0,34832 -0,16676 -0,25017

6. Далее необходимо проверить значимость полученных коэффициентов корреляции, т.е. гипотезу Hо: r ij = 0. Для этого рассчитаем наблюдаемые значения t -статистики для всех ко­эффициентов корреляции по формуле:

Для этого скопируйте предыдущую таблицу и вставьте ее под самой собой, отступив две строки. Удалите из таблицы все числовые данные и установите курсор в ячейку на пересечении переменных Y 1 и Х 10. Находясь в указанной ячейке, введите в строку формул выражение для записи вышеуказанной формулы в следующем виде:

=(H3/КОРЕНЬ(1-H3*H3))*КОРЕНЬ(49).

При вводе данного выражения необходимо щелкать мышью в ячейку с соответствующим коэффициентом, для которого рассчитывается значение t -статистики, в данном случае в ячейку H3. Введя указанное выражение, нажмите ENTER. Растяните введенную формулу с помощью черного крестика по соседним ячейкам, в результате у вас должна получиться следующая матрица наблюдаемых значений t -статистики:

Таблица 3

t набл Y1 X10 Х14 Х15 X16
Y1
X10 -0,15071
Х14 4,949094 -0,25242
Х15 2,485769 1,088567 0,547536
X16 -1,4602 -2,60115 -1,18391 -1,80872

Мы вычислили наблюдаемые значения t -статистики только для нижнего треугольника таблицы, поскольку матрица парных коэффициентов корреляции является симметричной.

7. Наблюдаемые значения t t кр, найденным для уровня значимости α=0,05 и числа степенен свободы ν=п-2. Для этого используем встроенную функцию Excel ВСТАВКА Функция – Статистические – СТЬЮДРАСПОБР.

Для расчета t кр выделите пустую ячейку, затем вызовите функцию СТЬЮДРАСПОБР, введите в поле Вероятность число 0,05, а в поле Степени_свободы – число 49, поскольку всего мы имеем 51 наблюдение, поэтому ν=п-2=51-2=49. Нажав на кнопку ОК , мы получим следующее значение t кр = 2,009574.

Сравним рассчитанные нами наблюдаемые значения t -статистики с критическим (табличным) и опреде­лим, какие коэффициенты значимы, а какие нет. Коэффициент значим, если его |t набл | > t кр.

8. Отметьте жирным шрифтом в таблице значимые коэффициенты корреляции:

Таблица 4

Матрица парных коэффициентов корреляции исследуемых показателей с выделением зна­чимых коэффициентов (при α=0,05)

Y1 X10 Х14 Х15 X16
Y1 -0,02152 0,577299 0,334637 -0,2042
X10 -0,02152 -0,03604 0,153663 -0,34832
Х14 0,577299 -0,03604 0,077981 -0,16676
Х15 0,334637 0,153663 0,077981 -0,25017
X16 -0,2042 -0,34832 -0,16676 -0,25017

9. Для значимыхпарных коэффициентов корреляции построим с заданной надёжностью γ=0,95 интервальную оценку r min < r < r тах с помощью Z-преобразования Фишера (см. формулы в лекции). Z" можно найти, используя функцию Excel:

ВСТАВКА Функция – Статистические – ФИШЕР, в качестве аргумента вводится значение соответствующего выборочного коэффициента корреляции r .

10. Значение t γ рассчитаем, используя функцию Excel: ВСТАВКА – Функция – Статистические – НОРМСТОБР, где в поле Вероятность вводится значение 0,95.

Z min = ; Z max =

Для обратного преобразования используем функцию Excel: ВСТАВКА Функция – Статистические –ФИШЕРОБР, где в поле Y вводятсяячейки со значением Z min , Z max , т.е. для расчета r min вводим Z min , а для расчета r тах вводим Z max .

Расчеты представим в виде следующей таблицы:

Таблица 5

Расчёт доверительных интервалов для парных генеральных коэффициентов корреляции ис­следуемых экономических показателей с надёжностью γ = 0,95

r Z’ Z min Z max r min r тах
Y1X14 0,577299 0,658403 0,413403 0,903403 0,3913583 0,71795081
Y1X15 0,334637 0,348041 0,103041 0,593041 0,10267786 0,5320792
Х10Х16 -0,34832 -0,36353 -0,60853 -0,11853 -0,5430915 -0,11797801

Таким образом, доверительные интервалы с надёжностью γ = 0,95найдены для всех значимых парных коэффициентов корреляции.

По полученным данным можно сделать следующие выводы:

Между исследуемыми показателями выявлены значимые корреляционные зависимости.

1). Значимая обратная корреляционная взаимосвязь обнаружена между изучаемым при­знаком Х 10 - фондоотдача и факторным признаком X 16 - оборачиваемость ненормируемых оборотных средств.

2). Между производительностью труда (Y 1) и фондовооруженностью труда (Х 14) имежду производительно­стью труда (Y 1) иоборачиваемостью нормируемых оборотных средств (Х 15 ) существует прямая связь.

3). Наиболее сильная связь существует между результативным признаком производительность труда (Y 1) и факторным признаком фондовооруженность труда (Х 14), причем отмеченная связь прямая.

Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэф­фициентов корреляции.

Частные коэффициенты корреляции характеризуют взаимосвязь между двумя выбран­ными переменными при исключении влияния остальных показателей (т.е. характеризуют «чистую» связь только между этими признаками) и важны для понимания взаимодействия всего комплекса показателей, т.к. позволяют определить механизмы усиления-ослабления влияния переменных друг на друга.

Частный коэффициент (k-2)- гo порядка между переменными, например, между Y 1 и Х 10 , равен:

,

где R ij - алгебраическое дополнение элемента r ij корреляцион­ной матрицы R , равное , где M ij – минор-определитель матрицы, полученный из матрицы R путем вычеркивания i- той строки и j- го столбца.

11. Для расчета частных коэффициентов корреляции нужно сформировать в Excel соответст­вующие матрицы размерности 4*4.

Например, алгебраическое дополнение R 12 рассчитывается путем вычеркивания из нашей корреляционной матрицы первой строки и второго столбца:

Y1 X10 Х14 Х15 X16
Y1 -0,02152 0,577299 0,334637 -0,2042
X10 -0,02152 -0,036036 0,153663 -0,34832
Х14 0,577299 -0,03604 0,077981 -0,16676
Х15 0,334637 0,153663 0,077981 -0,25017
X16 -0,2042 -0,34832 -0,166761 -0,25017
0,577299 0,334637 -0,2042
0,577299 0,077981 -0,16676
0,334637 0,077981 -0,25017
-0,2042 -0,166761 -0,25017

Чтобы найти определители этих матриц используем функцию Excel: ВСТАВКА - Функция - Математические - МОПРЕД (указать в качестве массива соот­ветствующую матрицу переменных). Воспользовавшись функцией получаем:

-(-0,05438)

0,786557

0,528443

Подставив значения в формулу, получаем = - 0,084348

Аналогично проводятся расчеты для всех остальных частных коэффициентов корреляции:

R 13 =(-1) 1+3 * M 13 = - 0,42585 R 34 =(-1) 3+4 * M 34 = - (-0,1)

R 14 =(-1) 1+4 * M 14 = - 0,225305 R 35 =(-1) 3+5 * M 35 = 0,063223

R 15 =(-1) 1+5 * M 15 = 0,05218 R 45 =(-1) 4+5 * M 45 = - (-0,08965)

R 23 =(-1) 2+3 * M 23 = - (-0,02282) R 33 =(-1) 3+3 * M 33 = 0,702903

R 24 =(-1) 2+4 * M 24 = - 0,05483 R 44 =(-1) 4+4 * M 44 = 0,551944

R 25 =(-1) 2+5 * M 25 = - (-0,18526) R 55 =(-1) 5+5 * M 55 = 0,561651

r 13/245 = 0,572722 r 25/134 = - 0,340055

r 14/235 = 0,341947 r 34/125 = - 0,160548

r 15/234 = - 0,078507 r 35/124 = - 0,100622

r 23/145 = - 0,037443 r 45/123 = - 0,161016

r 24/135 = 0,101525


В результате получим матрицу следующего вида:

Таблица 6 Матрица частных коэффициентов корреляции исследуемых экономических показателей

Y1 X10 Х14 Х15 X16
Y1 - 0,084348 0,572722 0,341947 - 0,078507
X10 - 0,084348 - 0,037443 0,101525 - 0,340055
Х14 0,572722 - 0,037443 - 0,160548 - 0,100622
Х15 0,341947 0,101525 - 0,160548 - 0,161016
X16 - 0,078507 - 0,340055 - 0,100622 - 0,161016

где l - порядок частного коэффициента корреляции, совпадающий с количеством фиксируе­мых переменных случайных величин (в нашем случае l =3),

n - количество наблюдений.

Построим матрицу наблюдаемых значений t -статистик для всех коэффициентов r ij :

Таблица 7

Матрица наблюдаемых значений t-статистик для частных коэффициентов корреляции исследуе­мых экономических показателей

t набл Y1 X10 Х14 Х15 X16
Y1
X10 -0,574122
Х14 4,7385072 -0,254129
Х15 2,4679682 0,692152 -1,103200
X16 -0,534109 -2,452522 -0,685933 -1,106502

Наблюдаемые значения t -статистик необходимо сравнить с критическим значением t кр, най­денным для уровня значимости α =0,05 и числа степеней свободы v=n-l-2.

Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, α =0,05 и число степеней свободы v=n-l-2=51-3-2=46 .

13. Сравним расчетные значения с критическим и определим, какие коэффициенты значимы. По­лучим матрицу частных коэффициентов корреляции с выделенными значимыми коэффициента­ми:

Таблица 8

Матрица частных коэффициентов корреляции исследуемых показателей с выделением значи­мых коэффициентов (при α=0,05)

Y1 X10 Х14 Х15 X16
Y1 -0,084348 0,572722 0,341947 -0,078507
X10 -0,084348 -0,037443 0,101525 -0,34006
Х14 0,572722 -0,037443 -0,160548 -0,100622
Х15 0,341947 0,101525 -0,160548 -0,161016
X16 -0,078507 -0,34006 -0,100622 -0,161016

14.Для значимых частных коэффициентов корреляции построим с заданной надёжностью γ интервальную оценку r min < r < r тах с помощью Z-преобразования Фишера (см. формулы в лекции). Получим следующий результат:

Таблица 9

Расчёт доверительных интервалов для частных генеральных коэффициентов корреляции иссле­дуемых экономических показателей с надёжностью γ = 0,95

r Z’ Z min Z max r min r тах
Y1X14 0,572722 0,651564 0,406564 0,896564 0,385551 0,714621
Y1X15 0,341947 0,356296 0,111296 0,601296 0,110838 0,537971
Х10Х16 -0,340055 -0,354155 -0,599155 -0,109155 -0,536448 -0,108723

15. Построим таблицу сравнения выборочных парных и частных коэффициентов корреляции для всех переменных.

Таблица 10

Таблица сравнения выборочных оценок парных и частных коэффициентов корреляции исследуе­мых показателей с выделением значимых коэффициентов (при α=0,05)

Между переменными Коэффициент корреляции
парный частный
Y1X10 -0,0215248 -0,084348
Y1X14 0,5772995 0,572722
Y1X15 0,3346368 0,341947
Y1X16 -0,2042044 -0,078507
Х10Х14 -0,03604 -0,037443
Х10Х15 0,153663 0,101525
Х10Х16 -0,34832 -0,34006
Х14Х15 0,077981 -0,160548
Х14Х16 -0,166761 -0,100622
Х15Х16 -0,25017 -0,161016

По полученным данным можно сделать следующие выводы:

1. Значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции, подтвердились и при вычислении частных коэффициентов корреляции. При этом выявлены следующие механизмы воздействия переменных друг на друга: наиболее тесная связь наблюдается между изучаемым признаком Y 1 – производительность труда и факторными признаками Х 14 - фондовооруженность труда и Х 15 - оборачиваемость нормируемых оборотных средств (прямые зависимости) и между факторными признаками Х 10 – фондоотдача и X 16 - оборачиваемость ненормируемых оборотных средств(обратная зависимость).

2. Воздействие других переменных, что характерно для частного коэффициента корреляции (для парного коэффициента корреляции рассматриваются только две переменные без прочих посторонних), несколько ослабляет положительную взаимосвязь между производительностью труда (Y 1) и фондовооруженностью труда (Х 14), т.к. величина частного коэффициент корреляции r y 1 x 14 / x 10 x 15 x 16 = 0,573 меньше величины парного коэффициента корреляции r y 1 x 14 = 0,577.

3. Аналогичная ситуация наблюдается и для обратной связи между фондоотдачей (Х 10 ) и
оборачиваемостью ненормируемых оборотных средств (X 16 ) - при исключении воздействия других
переменных абсолютная величина (взятая по модулю) парного коэффициент корреляции превышает абсолютное
значение частного коэффициента корреляции.

4. Для связи между производительностью труда (Y 1 ) и оборачиваемостью нормируемых оборотных средств (Х 15) характерна об­ратная ситуация: воздействие других переменных усиливает эту взаимосвязь (величина част­ного коэффициента корреляции больше величины парного коэффициента корреляции).

5. Наиболее сильная связь, выявленная на этапе расчёта парных коэффициентов корреляции,
между производительностью труда (Y 1) и фондовооруженностью труда (Х 14) остаёт­ся наиболее тесной и значимой и при расчете частных коэффициентов корреляции. Направление связи между данными показателями, как и в случаях с двумя другими значимыми коэффициентами, совпадает для парных и частных коэффициентов корреляции.

Расчёт множественных коэффициентов корреляции

Множественные коэффициенты корреляции служат мерой связи одной переменной с совме­стным действием всех остальных показателей.

16.Вычислим точечные оценки множественных коэффициентов корреляции. Множествен­ный коэффициент корреляции, например, для 1-го показателя Y 1 вычисляется по формуле:

где |R | - определитель корреляционной матрицы R;

R ij - алгебраическое дополнение элемента r ij корреляцион­ной матрицы R.

Все алгебраические дополнения R ij были найдены ранее, на этапе расчёта частных коэф­фициентов корреляции, поэтому осталось вычислить только определитель самой корреляцион­ной матрицы.

Чтобы найти определитель корреляционной матрицы, воспользуемся встроенной математи­ческой функцией Excel МОПРЕД. Получим |R|= 0,453494.

Подставляя полученное значение определителя в формулу, получаем значения множественных коэффициентов корреляции:

= 0,650726

Множественный коэффициент детерминации получается возведением коэффициента корре­ляции в квадрат.

17. Проверим значимость полученных множественных коэффициентов корреляции и детерми­нации. Проверка осуществляется с помощью F -критерия:

где k - количество рассматриваемых факторов (в нашем случае k = 5 ),

п - количество наблюдений.

Произведя расчёты, получим следующую таблицу:

Таблица 11

Множественные коэффициенты корреляции и детерминации исследуемых показателей с выде­лением значимых коэффициентов (на уровне значимости α = 0,05)

18. Для определения значимости множественных коэффициентов корреляции и детерминации нужно найти критическое значение F -распределения для заданного уровня значимости α и числа степеней свободы числителя v1=k-1 и знаменателя v2=n-k.

Для определения F кр воспользуемся встроенной функцией Excel: ВСТАВКА - Функция - Статистические - FРАСПОБР, введя в диалоговое окно функции вероятность α = 0,05 и число степеней свободы v1=k-1=5-1=4 и v2=n-k=51-5-46 .

Получаем F кр = 2,574033

Если наблюдаемое значение F -статистики превосходит ее критическое значение, то гипотеза о равенстве нулю соответствующего множественного коэффициента корреляции отвергается.

Следовательно, в рассматриваемом примере значимыми являются множественные коэффициенты корреляции r y 1/ x10 x14 x15 x16, r x 14/ y1 x10 x15 x16, r x 16/ y1 x10 x14 x15 . Множественные коэффициенты корреляции r x 10/ y1 x14 x15 x16 и r x 15/ y1 x10 x14 x16 являются незначимыми.

Результаты проведенного анализа позволяют сделать следующие выводы:

1.Множественный коэффициент корреляции r y 1/ x10 x14 x15 x16 = 0,651 значим и имеет достаточно высокое значение, что говорит о том, показатель Y 1 – производительность труда имеет тесную связь с многомерным массивом факторных признаков Х 10 - фондоотдача, Х 14 - фондовооруженность труда, Х 15 - оборачиваемость нормируемых оборотных средств и X 16 - оборачиваемость ненормируемых оборотных средств. Это даёт ос­нование для проведения дальнейшего регрессионного анализа.

2.Множественный коэффициент детерминации r y 1/ x10 x14 x15 x16 2 = 0,423 показывает, что 42,3% доли дисперсии Y 1 – производительности труда, обусловлены изменениями факторных призна­ков.

3.Факторные признаки Х 14 - фондовооруженность труда и X 16 - оборачиваемость ненормируемых оборотных средств, также имеют значимые значения множественных коэффици­ентов корреляции и детерминации, что свидетельствует о их достаточно сильной взаимосвязи с рассматриваемыми признаками. Однако, хотя множественные коэффициенты фактора X 16 и значимы, но только 19,3% доли его дисперсии обусловлены изменениями переменных, включённых в рассматриваемую мо­дель, а, соответственно 80,7% его дисперсии обусловлены влиянием других, не включённых в модель факторов.

4.Полученные результаты корреляционного анализа, показавшие, что показатель Y 1 – производительность труда, имеет тесную связь с многомерным массивом факторных признаков, позволяют пе­рейти ко второму этапу статистического исследования - построению регрессионной модели.

Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!

Корреляция и причинность

Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.

Коэффициент корреляции: формула Пирсона и Спирмана

Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.

Отношения между переменными

Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.

Особенности применения

Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.

Множественный коэффициент корреляции

Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.

Области использования корреляционно-регрессионного анализа

Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:

  1. Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
  2. Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
  3. Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.

Человек в поисках причинно-следственной связи

Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.

Предвзятость средств массовой информации

Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.

Выводы

Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

где – общая дисперсия результативного признака;

–остаточная дисперсия для уравнения
.

Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

.

При правильном включении факторов в регрессионный анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что, сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора. Так, если рассматривается как функцияии получен индекс множественной корреляции
, а индексы парной корреляции при этом были
и
, то совершенно ясно, что уравнение парной регрессии
охватывало 67,2 % колеблемости результативного признака под влиянием фактора, а дополнительное включение в анализ фактораувеличило долю объясненной вариации до 72,3,%, т. е. уменьшилась доля остаточной вариации на 5,1 проц. пункта (с 32,8 до 27,7%).

Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:

.

Можно пользоваться следующей формулой индекса множественной корреляции:

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

,

где – стандартизованные коэффициенты регрессии;

– парные коэффициенты корреляции результата с каждым фактором.

Или, по-другому:

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции , или, что то же самое, совокупного коэффициента корреляции .

Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции:

где
– определитель матрицы парных коэффициентов корреляции;

–определитель матрицы межфакторной корреляции.

Для уравнения определитель матрицы коэффициентов парной корреляции примет вид:

Определитель более низкого порядка
остается, когда вычеркиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка, что и соответствует матрице коэффициентов парной корреляции между факторами:

Как видим, величина множественного коэффициента корреляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корреляции, не обращаясь при этом к уравнению множественной регрессии, а используя лишь парные коэффициенты корреляции.

При трех переменных для двухфакторного уравнения регрессии данная формула совокупного коэффициента корреляции легко приводится к следующему виду:

Индекс множественной корреляции равен совокупному коэффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, как и в парной регрессии, имеет место и для криволинейной зависимости, нелинейной по переменным.

В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения. Эта ошибка тем более значительна, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений . Если число параметров приравно
и приближается к объему наблюдений, то остаточная дисперсия будет близка к нулю, и коэффициент (индекс) корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используетсяскорректированный индекс (коэффициент) множественной корреляции .

Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно остаточная сумма квадратов
делится на число степеней свободы остаточной вариации
, а общая сумма квадратов отклонений
– на число степеней свободы в целом по совокупности
.

Формула скорректированного индекса множественной детерминации имеет вид:

где
– число параметров при переменных;

–число наблюдений.

Поскольку
, то величину скорректированного индекса детерминации можно представить в виде

Чем больше величина
, тем сильнее различия
и
.

Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется по той же формуле, что и индекс множественной корреляции, т.е. как корень квадратный из
. Отличие состоит лишь в том, что в линейной зависимости под
подразумевается число факторов, включенных в регрессионную модель, а в криволинейной зависимости
– число параметров прии их преобразованиях (,
и др.), которое может быть больше числа факторов как экономических переменных.

Пример . Предположим, что при
для линейного уравнения регрессии с четырьмя факторами
, а с учетом корректировки на число степеней свободы

Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются показатели
и
. Так, уже при
при том же значении
и т величина
составит 0,673.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) множественной корреляции (детерминации). Величина коэффициента множественной детерминации используется для оценки качества регрессионной модели. Низкое значение коэффициента (индекса) множественной корреляции означает, что в регрессионную модель не включены существенные факторы – с одной стороны, а с другой стороны – рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости.

Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.

Множественный коэффициент корреляции может быть вычислен по ряду формул 5 , в том числе:

    с использованием матрицы парных коэффициентов корреляции

, (3.18)

где r - определитель матрицы парных коэффициентов корреляции y ,
,

r 11 - определитель матрицы межфакторной корреляции
;

. (3.19)

Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается

. (3.20)

Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R 2 . Как и в случае парной регрессии, R 2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y , объясненную изменением функции регрессии f (x ) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле

. (3.21)

Однако использование R 2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.

Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации

(3.22)

Скорректированный коэффициент детерминации всегда меньше R 2 . Кроме того, в отличие от R 2 , который всегда положителен,
может принимать и отрицательное значение.

Пример (продолжение примера 1) . Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):

Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.

Коэффициент детерминации равен: R 2 =0,7399.

Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):

=0,7092.

Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.

Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.

Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки. 

Коэффициент обладает следующими свойствами:

1) не имеет размерности, следовательно, сопоставим для величин различных порядков;

2) изменяется в диапазоне от –1 до +1. Положительное значение свидетельствует о прямой линейной связи, отрицательное – об обратной. Чем ближе абсолютное значение коэффициента к единице, тем теснее связь. Считается, что связь достаточно сильная, если коэффициент по абсолютной величине превышает 0,7, и слабая, если он менее 0,3.

Значение коэффициента легко вычисляется при помощи MS Excel (функция КОРРЕЛ).

Величина r 2 называется коэффициентом детерминации . Он определяет долю вариации одной из переменных, которая объясняется вариацией другой переменной.

6. Коэффициент множественной корреляции

Экономические явления чаще всего адекватно описываются именно многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренное выше корреляционное отношение (6.4) на случай нескольких переменных.

Теснота линейной взаимосвязи между переменной y и рядом переменных x j , рассматриваемых в целом, может быть определена с помощью коэффициента множественной корреляции .

Предположим, что переменная y испытывает влияние двух переменных - x и z . В этом случае коэффициент множественной корреляции может быть определен по формуле:

. (6.9)

где r yx , r yz , r xz - простые коэффициенты линейной парной корреляции, определенные из соотношения (6.4).

Коэффициент множественной корреляции заключен в пределах 0 ≤ R ≤ 1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R 2 , называемая множественным коэффициентом детерминации , показывает, какую долю вариации исследуемой переменной (y ) объясняет вариация остальных учтенных переменных (x , z ).

7. Коэффициент частной корреляции

Иногда представляет интерес измерение частных зависимостей (между y и x j ) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции .

Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – x , y , z . Для них могут быть получены простые коэффициенты линейной парной корреляции – r yx , r yz , r xz . Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z .

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x ) при условии, что влияние на них третьего фактора (z ) устранено.

Соответствующая расчетная формула:

. (6.10)

Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.



Понравилась статья? Поделитесь ей
Наверх