Posibniki.com.ua Статистика Статистичне моделювання та прогнозування 2.3. РОЗВІДУВАЛЬНИЙ АНАЛІЗ КОРЕЛЯЦІЙ


< Попередня  Змiст  Наступна >

2.3. РОЗВІДУВАЛЬНИЙ АНАЛІЗ КОРЕЛЯЦІЙ


На етапі розвідувального аналізу важливе значення має також вимірювання взаємозв’язків між ознаками, що характеризують об’єкт моделювання. Методи вимірювання різняться залежно від типу взаємозв’язаних ознак:

— для даних, виміряних у метричних шкалах, застосовують коефіцієнт кореляції Пірсона і модель простої лінійної регресії;

— для ознак порядкової шкали (даних типу «краще — гірше») застосовують ранжирування і коефіцієнти рангової кореляції;

— для ознак номінальної шкали, зокрема бінарних (альтернативних) ознак, застосовують таблиці спряженості.

Очевидно, першим кроком розвідувального аналізу взаємозв’язків має бути визначення типу даних, другим — тестування гіпотез про незалежність ознак, тобто нульова гіпотеза формулюється як відсутність зв’язку між ознаками. Коли гіпотеза про незалежність ознак відхиляється, логічно оцінювати щільність зв’язку (рис. 2.1). На цьому кроці застосовують різні міри щільності зв’язку.

Рис. 2.12. Послідовність розвідувального аналізу взаємозв’язків

Рис. 2.12. Послідовність розвідувального аналізу взаємозв’язків

Для пари ознак метричної шкали, яким властивий спільний двовимірний розподіл, незалежність ознак еквівалентна умові відсутності кореляції, тобто нульооцінюючи щільність зв’язку, коефіцієнт кореляції вказує і на його напрям: за прямого зв’язку r — величина додатна, за зворотного — від’ємна. Нульова гіпотеза відхиляється, коли | r | перевищує критичне значення для вибраного рівня істотності.

ва гіпотеза формулюється так H

0 : r = 0, де r — коефіцієнт кореляції Пірсона ва гіпотеза формулюється так H

0 : r = 0, де r — коефіцієнт кореляції Пірсона ()[]()[] ???? ??? ??? ?? =

2

2 2

2 yynxxn yxxyn r . ()[]()[] ???? ??? ??? ?? =

2

2 2

2 yynxxn yxxyn r .

Значення коефіцієнта кореляції змінюються в діапазоні від –1 до +1, тобто,

Значення коефіцієнта кореляції змінюються в діапазоні від –1 до +1, тобто,

Для вимірювання кореляційного зв’язку між ознаками в модулі Basic Statistics / Tables передбачено меню Correlation matrices — кореляційні матриці. Як усі інші результати аналізу в системі Statistica, кореляційні матриці виводяться у вигляді таблиць. У діалоговому вікні Product-Moment and Partial Correlations (рис. 2.13) пропонується два типи кореляційних матриць: квадратна і прямокутна. Для квадратної матриці необхідно задати один список ознак — One variable list (square matrix), який буде представлено і по рядках, і по стовпцях матриці. На перетині рядків і стовпців розміщуються елементи матриці — коефіцієнти кореляції. Для прямокутної матриці задають два списки ознак — Two lists (rect. matrix), рядки і стовпці матриці представлені першим і другим списком відповідно.

Діалогове вікно Product-Moment and Partial Correlations містить три вкладки. За процедурами вкладки Quick (рис. 2.13) автоматично можна отримати:

• кореляційну матрицю — Summary: Correlations, елементами якої є парні коефіцієнти кореляції;

• 2D-діаграми розкиду (кореляційні поля) — Graphs;

• діаграми розкиду для вибраних ознак — Scatterplot matrix for selected variables.

Рис. 2.13. Діалогове вікно Product-Moment and Partial Correlations, вкладка Quick

Результати кореляційного аналізу розглянемо на прикладі взаємозв’язків між ознаками ефективності виробництва цукру (первинні дані в табл. 2.1). Вибираємо квадратну матрицю, тип матриці One variable list (square matrix), список ознак (Var1-Var4). У табл. 2.11 наведено просту кореляційну матрицю, елементами якої є коефіцієнти кореляції. Як видно, матриця симетрична, діагональні елементи представлені одиницями.

Таблиця 2.11

КОРЕЛЯЦІЙНА МАТРИЦЯ Correlations (Sugar1)

Судячи зі значень коефіцієнтів кореляції, на вихід цукру з 1 т цукрового буряку (Var1) істотно впливають усі фактори. При цьому найбільше значення коефіцієнта кореляції (–0,83) має ознака Var2 — втрати цукристості буряку під час транспортування і зберігання, найменше (–0,57) — ознака Var4

Судячи зі значень коефіцієнтів кореляції, на вихід цукру з 1 т цукрового буряку (Var1) істотно впливають усі фактори. При цьому найбільше значення коефіцієнта кореляції (–0,83) має ознака Var2 — втрати цукристості буряку під час транспортування і зберігання, найменше (–0,57) — ознака Var4

— втрати цукру в процесі переробки сировини.

Для візуалізації взаємозв’язків можна скористатися процедурою Graphs. Програма автоматично видає 2D-діаграму (кореляційне поле) з прямою регресією і 95 %-ю довірчою полосою, рівняння регресії наводиться в назві. Наприклад, на рис. 2.14 зв’язок між втратами цукристості буряку під час транспортування і зберігання (Var3) і виходом цукру з 1 т сировини (Var1) представлено у

вигляді лінії регресії з 95 %-ми довірчими межами: Var1 = 26,847 –16,50Var3. вигляді лінії регресії з 95 %-ми довірчими межами: Var1 = 26,847 –16,50Var3.

Для кожної із взаємозв’язаних ознак наводиться також діаграма розподілу. нак

Var1 = 26,847 - 16,50 * Var3 Correlation: r = -,8294 Scatterplot: Var3 vs. Var1 (Casewise MD deletion) Var1 = 26,847 - 16,50 * Var3 Correlation: r = -,8294

0

3

6

0,86

0,88

0,90

0,92

0,94

0,96

0,98

1,00

1,02

1,04

1,06

1,08

1,10 Var3

8,0

8,5

9,0

9,5

10,0

10,5

11,0

11,5

12,0

12,5

13,0

13,5 Var

1

036

95% confidence

Рис. 2.14. 2D-діаграма взаємозв’язку та гістограми розподілу взаємозв’язаних оз

За настановою Scatterplot matrix for selected variables кореляційна матриця може бути подана на одному графіку у вигляді матриці 2D-діаграм з гістограмами розподілу по діагоналі (рис. 2.15), що значно полегшує інтерактивний розвідувальний і порівняльний аналіз.

Correlations (Sugar1 5v*15c) Var1 Var2 Var3 Var4

Рис. 2.15. Кореляційна матриця у вигляді матриці 2D-діаграм

Вкладка Advanced / plot надає розширені послуги візуалізації кореляційних зв’язків, зокрема 2D- і 3D-діаграми (без позначок і з позначками спостережень), які сприяють поглибленому аналізу закономірностей і взаємозв’язків між ознаками (рис. 2.16). До процедур, які реалізуються на вкладці Quick, додається частинна кореляція — Partial Correlations.

Рис. 2.16. Діалогове вікно Product-Moment and Partial Correlations, вкладка Advanced / plot

Опція Matrix видає розширену кореляційну матрицю (табл. 2.12), яку можна конвертувати у файл первинних даних спеціального формату й використовувати як інформаційну базу компонентного аналізу (див. підрозд. 9.2).

Таблиця 2.12

РОЗШИРЕНА КОРЕЛЯЦІЙНА МАТРИЦЯ (формат *sta)

Sugar1

Var1 Var2 Var3 Var4
Var1 1,00000 0,62739 –0,82937 –0,57301
Var2 0,62739 1,00000 –0,55739 –0,03362
Var3 –0,82937 –0,55739 1,00000 0,36407
Var4 –0,57301 –0,03362 0,36407 1,00000
Means 10,90733 15,41067 0,96600 2,22600
Std.Dev. 0,81963 0,28574 0,04120 0,17888
No.Cases 15,00000
Matrix 1,00000

За допомогою опцій вкладки Options (рис. 2.17) можна змінити параметри кореляційного аналізу. Якщо встановити прапорець на Display r, p-levels, and N’s, у комірках кореляційної матриці поряд з коефіцієнтами кореляції будуть видані відповідні їм рівні істотності. За опцією Display detailed table of results поряд з коефіцієнтами кореляції будуть видані інші статистичні характеристики: середні, стандартні відхилення, значення t-критерію порівняння середніх та ін. Кожну комірку таблиці результатів можна розширити й подивитися кількість спостережень n, на основі яких визначено коефіцієнт кореляції, рівень істотності p, можна замовити всі описові статистики, виявити викиди.

Рис. 2.17. Діалогове вікно Product-Moment and Partial Correlations, вкладка Options

Рангова кореляція

Для вимірювання взаємозв’язків між ознаками порядкової шкали застосовують низку різних за змістом коефіцієнтів рангової кореляції, серед яких коефіцієнти Спірмена і Кендала, гамма-коефіцієнти. Ці коефіцієнти змінюється в напрям, проте мають різну інтерпретацію. Коефіцієнт Спірмена ? розглядають як аналог лінійного коефіцієнта кореляції, обчисленого на рангах:

межах від –1 до +1, оцінюючи водночас щільність зв’язку та вказуючи на його межах від –1 до +1, оцінюючи водночас щільність зв’язку та вказуючи на його

2 ? d n j де j d — відхилення між рангами; n

6

— кількість рангів.

— кількість рангів.

Коефіцієнт рангової кореляції Кендала ? визначають на основі послідовності об’єктів, розміщених у порядку зростання рангів за ознакою х. Починаючи з першого об’єкта для кожного наступного визначається кількість об’єктів з більшими і меншими значеннями рангів за ознакою y. Якщо сумарну кількість об’єктів з більшими значеннями рангів позначити P, а сумарну кількість об’єктів з меншими значеннями рангів — Q, формула коефіцієнта ? набуває вигляду: кореляції так: ???

QP+ ==? Q-P

1)-n(n Q)-2(P , QP+ ==? Q-P

1)-n(n Q)-2(P , QP+ ==? Q-P

1)-n(n Q)-2(P ,

Очевидно, що (P + Q) = ? n(n-1).

У табл. 2.13 наведено розрахунок коефіцієнтів рангової кореляції Спірмена і Кендала за результатами ранжирування експертами торговельних марок на ринку інструментів. Ознаки: х — якісні відмінності товару, у — імідж виробника.

Коефіцієнт кореляції рангів становить: за формулою Спірмена: 82,0

487

106

1= ? ? ?=?; за формулою Кендала: 62,0

417

417 = + ? =?.

Значення коефіцієнтів істотні, що свідчить про зв’язок між якісними відмінностями товару і іміджем виробника у. Співвідносяться коефіцієнти рангової за формулою Кендала: 62,0

417

417 = + ? =?.

Значення коефіцієнтів істотні, що свідчить про зв’язок між якісними відмінностями товару і іміджем виробника у. Співвідносяться коефіцієнти рангової

Очевидно, що (P + Q) = ? n(n-1).

У табл. 2.13 наведено розрахунок коефіцієнтів рангової кореляції Спірмена і Кендала за результатами ранжирування експертами торговельних марок на ринку інструментів. Ознаки: х — якісні відмінності товару, у — імідж виробника.

Коефіцієнт кореляції рангів становить: за формулою Спірмена: 82,0

487

106

1= ? ? ?=?; за формулою Кендала: 62,0

417

417 = + ? =?.

Значення коефіцієнтів істотні, що свідчить про зв’язок між якісними відмінностями товару і іміджем виробника у. Співвідносяться коефіцієнти рангової

3 , або 2? ? 3?. Коли багато пов’язаних рангів, перевагу віддають гамма-коефіцієнту.

2

Таблиця 2.13

ДО РОЗРАХУНКУ КОЕФІЦІЄНТІВ РАНГОВОЇ КОРЕЛЯЦІЇ

Торговельні марки Ранги за ознакою Відхилення рангів PQ
ху dd 2
Н 1211 5 1
Д 2 1 –1 1 5 0
К 3411 3 1
В 4511 2 1
Т 5 3 –2 4 2 0
С 6711 0 1
А 7 6 –1 1 0 0
Разом ?? 0 10 17 4

У системі Statistica інструменти рангової кореляції містяться в модулі Nonparametrics, меню Correlation (Spearman, Kendall tau, Gamma). Результати розрахунку за даними нашого прикладу наведено в табл. 2.14.

Таблиця 2.14 NONPARAMETRICS

Коефіцієнт кореляції рангів Спірмена Spearman Rank Order Correlations MD pairwise deleted Marked correlations are significant at p <,050 VariableVar1Var2 Var1 Var2 1,0000,821 0,8211,000
Коефіцієнт кореляції рангів Кендала Kendall Tau Correlations MD pairwise deleted Marked correlations are significant at p <,050 VariableVar1Var2 Var1 Var2 1,0000,619 0,6191,000

Для вимірювання зв’язку між трьома і більше ознаками порядкової шкали застосовують множинний коефіцієнт рангової кореляції — коефіцієнт конкордації W: де S — сума квадратів відхилень суми рангів кожного варіанта від середньої суми рангів; m — кількість ознак порядкової шкали (упорядкувань); n

— кількість варіантів (об’єктів) упорядкування.

— кількість варіантів (об’єктів) упорядкування.

Коефіцієнт конкордації W набуває будь-яких значень у межах [0 ? 1]. Перевірку його істотності здійснюють на основі критерію ?? з числом ступенів свободи (n1):

Коефіцієнт конкордації є одним з інструментів оцінювання ступеня узгодженості думок експертів під час обґрунтування складних управлінських рішень в умовах невизначеності, в довгостроковому прогнозуванні розвитку науки, техніки, економіки тощо (див. підрозд. 1.3).

Коефіцієнт конкордації є одним з інструментів оцінювання ступеня узгодженості думок експертів під час обґрунтування складних управлінських рішень в умовах невизначеності, в довгостроковому прогнозуванні розвитку науки, техніки, економіки тощо (див. підрозд. 1.3).

У системі Statistica розрахунок коефіцієнта конкордації можна здійснити в модулі Nonparametrics. Доступ: Comparing multiplt dep. samples (variables) ? ? Friedman ANOVA by ranks ? Summary Friedman & Kendalls concordame. У табл. 2.15 наведено результати розрахунку коефіцієнта конкордації в модулі Nonparametrics за даними табл. 1.2. Як бачимо, значення коефіцієнта конкорда

ції однакові (W = 0,64). ції однакові (W = 0,64).

Якщо дані згруповані, задля виявлення відмінностей між групами застосовують різні процедури й надбудови для внутрішьогрупового аналізу даних, діалог Внутрішньогрупові описові статистики і кореляції. На загал, вимірювання кореляцій одночасно з групуванням і складанням таблиць — стандартний перший крок будь-якого дослідження, пов’язаного з розвідувальним аналізом даних.

Таблиця 2.15

РАНГОВИЙ ДИСПЕРСІЙНИЙ АНАЛІЗ І КОЕФІЦІЄНТ КОНКОРДАЦІЇ КЕНДАЛА

2.4. ТАБЛИЦІ КРОСТАБУЛЯЦІЇ

< Попередня  Змiст  Наступна >
Iншi роздiли:
МОДЕЛІ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ
3.2. ОЦІНЮВАННЯ ЛАТЕНТНИХ ЯВИЩ ЗА ДОПОМОГОЮ ІНТЕГРАЛЬНИХ ПОКАЗНИКІВ
3.3. КЛАСТЕРНІ ПРОЦЕДУРИ КЛАСИФІКАЦІЇ
Частина 1. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
Частина 2. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)