Posibniki.com.ua Статистика Статистичне моделювання та прогнозування 7.2. РЕГРЕСІЯ НА ЗМІШАНИХ ФАКТОРНИХ МНОЖИНАХ


< Попередня  Змiст  Наступна >

7.2. РЕГРЕСІЯ НА ЗМІШАНИХ ФАКТОРНИХ МНОЖИНАХ


Якщо порівнювані варіанти моделей містять різну кількість параметрівстосовують скориговані коефіцієнти детермінації.

У моделях класичної регресії факторні ознаки х і належать до метричної шкали вимірювання — виражаються числом і значення їх варіює в певних межах. У соціально-економічних дослідженнях часто стикаються з ситуацією, коли окремі властивості явищ нечислові, текстові (форма власності, професія тощо). Це ознаки номінальної шкали — шкали найменувань, градацій. Використання таких ознак у регресійному аналізі передбачає їх оцифровування, тобто приписування кожній градації певного числа. Можливі різні варіанти оцифровування, проте на практиці найчастіше застосовують змінні бінарного типу, коли приписане k-й градації число u ik має лише два значення (0; 1).

Оцифровування ґрунтується на дотриманні двох умов:

• повнота шкали градацій;

• неперетинність градацій.

Повнота шкали градацій дає: ? u k = f k , де f k — частота k-ї градації. Для кожf u==. Величина u ik є власне ної з них середнє значення дорівнює частці k k d n f u==. Величина u ik є власне характеристикою розподілу сукупності, у математико-статистичній літературі її найчастіше називають фіктивною або dummy-змінною. В подальшому використовується останній термін.

Повнота шкали градацій дає: ? u k = f k , де f k — частота k-ї градації. Для кожної з них середнє значення дорівнює частці k k d n f u==. Величина u ik є власне характеристикою розподілу сукупності, у математико-статистичній літературі її найчастіше називають фіктивною або dummy-змінною. В подальшому використовується останній термін.

Умова неперетинності виключає одночасну належність одиниці сукупності ми метричної шкали. Такі моделі називають коваріаційними — ACOV-моделями (analysis of covariance). Як приклад розглянемо найпростішу модель, ознакова множина якої містить одну dummy-змінну u

до двох градацій: ? u k u s = 0, де k, s

градації (k ? s). Dummy-змінні часто використовують у регресійних моделях поряд з ознакадо двох градацій: ? u k u s = 0, де k, s

градації (k ? s). Dummy-змінні часто використовують у регресійних моделях поряд з ознака

1 і одну ознаку метричної шкали. Скажімо, залежність прибутку операторів мобільного зв’язку від абонентської де а

бази х

1 і технології надання послуг доступу до Iнтернету (u

1 = 1, якщо надає послуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: слуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: бази х

1 і технології надання послуг доступу до Iнтернету (u

1 = 1, якщо надає послуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: Y= а

0 + b

1 x

1 + а

1 u

1 . Y= а

0 + b

1 x

1 + а

1 u

1 .

вільний член рівняння (перетин); b

0

коефіцієнт регресії, характеризує ефект впливу абонентської бази на прибутковість; а

1

показує, наскільки середній прибуток операторів, котрі надають послуги за технологією 4G, відрізняється від середнього прибутку операторів, які надають послуги за технологією 3G.

1

Геометрично ACOV-модель прибутковості операторів мобільного зв’язку зображено на рис. 6.8. Як бачимо, модель розпадається на дві функції з однаковим нахилом, але різним перетином а

АДАПТАЦІЯ РЕГРЕу х

0 . Тобто середній прибуток операторів різниться залежно від технології надання послуг, але ефект впливу абонентської бази при цьому однаковий.

у х

Рис. 7.8. Схематичний приклад однофакторної ACOV-моделі

Отже, dummy-змінна розглядається як умовний код, що вказує на належність (1) чи неналежність (0) j-ї одиниці сукупності до k-ї градації. Щоб уникнути проблеми мультиколінеарності для ознаки, що має р градацій,ставиться у відповідність (p – 1) величин u

1 , u

2 , …, u p-1 . У регресійному аналізі до матриці використання землі у від якості ґрунтів х

ознакової множини моделі Х додається матриця dummy-змінних U = [ u

1 , u

2 , … , u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності ознакової множини моделі Х додається матриця dummy-змінних U = [ u

1 , u

2 , … , u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності

1 і виробничої спеціалізації господарств х

2 . Перший фактор вимірюється балами, другий — належить до номінальної шкали і має три градації: а) овочівництво, б) буряківництво і в) виробництво зерна. В ознакову множину моделі другий фактор х

2 вводиться двома dummy-змінними:

Відповідно формується два вектори значень цих величин (табл. 7.2). За такого варіанта оцифровування третя спеціалізація (виробництво зерна) дістає числові еквіваленти (0; 0) і стає базою порівняння для перших двох. Регресійна модель ефективності використання землі з урахуванням спеціалізації господарств має такий вигляд: де a

Відповідно формується два вектори значень цих величин (табл. 7.2). За такого варіанта оцифровування третя спеціалізація (виробництво зерна) дістає числові еквіваленти (0; 0) і стає базою порівняння для перших двох. Регресійна модель ефективності використання землі з урахуванням спеціалізації господарств має такий вигляд: де a

0 — вільний член рівняння (перетин);

0 — вільний член рівняння (перетин);

параметр b

1 характеризує чистий ефект впливу якості ґрунтів на ефективність використання землі за умови однакової спеціалізації; a

21 — показує різницю в ефективності використання землі в господарствах овочевої спеціалізації порівняно з господарствами зернового спрямування за умови однакової якості ґрунтів; a

22 — має таку саму інтерпретацію для господарств, які спеціалізуються на буряківництві.

Отже, теоретичний рівень ефективності використання землі для відповідної спеціалізації визначається:

Таблиця 7.2

Таблиця 7.2

ЧИСЛОВІ ЕКВІВАЛЕНТИ DUMMY-ЗМІННИХ СПЕЦІАЛІЗАЦІЇ АГРОГОСПОДАРСТВ

Числовий еквівалент

№ з/пСпеціалізація агрогосподарства u

1 u

2

1 Овочівництво 10

ACOV-модель можна розширити, включивши кілька номінальних ознак, кожна з яких має р градацій. Єдине застереження: кількість dummy-змінних для кожної номінальної ознаки має бути на одиницю меншою від кількості її градацій. Загальний вигляд регресійної моделі з dummy-змінними такий: ?

Ознакова множина такої моделі складається з двох блоків: перший — блок q факторних ознак метричної шкали, другий — блок dummy-змінних для (m — q) ознак номінальної шкали, кожна з яких має p градацій.

Ознакова множина такої моделі складається з двох блоків: перший — блок q факторних ознак метричної шкали, другий — блок dummy-змінних для (m — q) ознак номінальної шкали, кожна з яких має p градацій.

Коефіцієнти регресії вимірюють: b i

— чистий, елімінований від взаємозв’язків усередині моделі, ефект впливу фактора х і ; а rk — вплив k-ї градації r-го фактора (r ? i) на функцію y; алгебраїчно це різниця середніх значень функції y між k-ю градацією і градацією, взятою за базу порівняння (базовою градацією).

Моделювання на змішаних факторних множинах відбувається за процедурами модуля Multiplу Regression (див. підрозд. 5.3). Специфікація текстових ознак передбачає їх оцифровування. У системі Statistica ця процедура здійснюється для кожної ознаки окремо за командами: Current Specs (кнопка Vars) ? Text Values. У діалоговому вікні Менеджера текстових значень — Text Values Mana-ger вказуються числові еквіваленти (Text Value

— Numeric).

Як приклад розглянемо модель, що описує залежність капітальних витрат на будівництво атомних електростанцій з реактором водяного охолодження від номінальної потужності електростанцій, використання нагрівальної башти та типу силової установки. Два останні фактори представлені текстовими ознаками й підлягають оцифровуванню. У табл. 7.3 наведено дані щодо 23 АЕС: Var1— капітальні витрати на будівництво, млн дол. США, Var2 — потужність електростанції, МВт, Var3 приписано значення 1 і 0 залежно від того, використовує чи не використовує електростанція нагрівальну башту, Var4 аналогічно приписані значення стосовно використання силової установки виробництва фірми В

—W. ACOV-модель капітальних витрат на будівництво АЕС має вигляд:

Таблиця 7.3

Таблиця 7.3

МАТРИЦЯ ПЕРВИННИХ ДАНИХ ACOV-МОДЕЛІ НА ЗМІШАНИХ МНОЖИНАХ

№ з/п АЕС Var1 Var2 Var3 Var4
1 460 687 0 0
2 453 1065 0 1
3 443 1065 0 1
4 642 1065 1 1
5 272 822 0 0
6 317 457 0 0
7 457 822 0 0
8 350 560 0 0
9 402 790 0 0
10 412 530 1 0
11 394 850 0 1
12 423 778 0 0
13 712 845 0 0
14 881 1090 0 0

Закінчення табл. 7.3

№ з/п АЕСVar1Var2Var3Var4

15 491 1050 0 0
16 568 913 1 1

1762178610

18 473 538 1 0
19 207 745 0 0

2028488601

21 217 745 0 0
22 345 514 1 0
23 280 886 0 1

Значення параметрів наведено в табл. 7.4. Коефіцієнт детермінації становить 0,506, тобто включені в модель фактори пояснюють 50,6 % варіації вартості будівництва атомних електростанцій. Значення F-критерію і p-level свідчать про адекватність моделі, а t-критерію — про істотний вплив кожного фактора.

Аналізуючи параметри моделі, варто зазначити, що найвагоміший вплив на вартість будівництва має потужність електростанцій, значення ?-коефіцієнта для цього фактора становить 0,841. Ефекти впливу використання нагрівальної башти й силових установок приблизно однакові, але напрямок дії різний. На електростанціях, які використовують нагрівальні башти, вартість будівництва в середньому на 179,342 млн дол. вища, тоді як використання силових установок фірми В

—W, навпаки, зменшує капітальні витрати в середньому на 170,317 млн дол.

Таблиця 7.4

ПАРАМЕТРИ ACOV-МОДЕЛІ КАПІТАЛЬНИХ ВИТРАТ НА БУДІВНИЦТВО АЕС

Regression Summary for Dependent Variable: Var1
R= ,7114 RІ= ,5061 Adjusted RІ= ,4281
F(3,19)=6,49 p<,0033 Std.Error of estimate: 123,00
St. Err. St. Err.
BETA of BETA B of B t(19) p-level
Intercpt –129,295 137,448 –0,9406 0,3587
Var2 0,841 0,2054 0,714 0,174 4,0947 0,0006
Var3 0,495 0,1708 179,342 61,883 2,8980 0,0092
Var4 –0,493 0,1989 –170,317 68,753 –2,4772 0,0228

Очевидно, що інтерпретація параметрів моделі зміниться, якщо взяти іншу схему визначення dummy-змінних.

Розглянута методика використання dummy-змінних передбачає, що всі одиниці сукупності мають градації існуючої шкали. Якщо ця умова не виконується, то можна ввести додаткову групу для невизначених градацій.

Не завжди виконується й умова неперетинності груп — та сама одиниця сукупності може одночасно належати до різних градацій. Скажімо, робітник має кілька професій, і щоб забезпечити умову неперетинності, його відносять до градації, яка відповідає основній професії. Аналогічна проблема виникає під час обробки даних соціологічних обстежень, програмою яких передбачені питаннянабори. Наприклад, респондент може вказати декілька джерел інформації про валютний ринок: телебачення, пресу, особисті спостереження. Кожна градація набору розглядається як альтернативна ознака і може самостійно включатися в модель.


< Попередня  Змiст  Наступна >
Iншi роздiли:
7.4. РЕГРЕСІЯ НА ГРУПУВАННЯХ
7.5. СТАНДАРТИЗАЦІЯ ЕФЕКТІВ ВПЛИВУ
БАГАТОФАКТОРНІ ДИНАМІЧНІ МОДЕЛІ
8.2. МОДЕЛІ З ЛАГОВИМИ ЗМІННИМИ
8.3. НЕЛІНІЙНА РЕГРЕСІЯ НА ЧАСОВИХ РЯДАХ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)