Posibniki.com.uaСтатистикаСтатистичне моделювання та прогнозування7.2. РЕГРЕСІЯ НА ЗМІШАНИХ ФАКТОРНИХ МНОЖИНАХ


< Попередня  Змiст  Наступна >

7.2. РЕГРЕСІЯ НА ЗМІШАНИХ ФАКТОРНИХ МНОЖИНАХ


Якщо порівнювані варіанти моделей містять різну кількість параметрівстосовують скориговані коефіцієнти детермінації.

У моделях класичної регресії факторні ознаки х і належать до метричної шкали вимірювання — виражаються числом і значення їх варіює в певних межах. У соціально-економічних дослідженнях часто стикаються з ситуацією, коли окремі властивості явищ нечислові, текстові (форма власності, професія тощо). Це ознаки номінальної шкали — шкали найменувань, градацій. Використання таких ознак у регресійному аналізі передбачає їх оцифровування, тобто приписування кожній градації певного числа. Можливі різні варіанти оцифровування, проте на практиці найчастіше застосовують змінні бінарного типу, коли приписане k-й градації число u ik має лише два значення (0; 1).

Оцифровування ґрунтується на дотриманні двох умов:

• повнота шкали градацій;

• неперетинність градацій.

Повнота шкали градацій дає: ? u k = f k , де f k — частота k-ї градації. Для кожf u==. Величина u ik є власне ної з них середнє значення дорівнює частці k k d n f u==. Величина u ik є власне характеристикою розподілу сукупності, у математико-статистичній літературі її найчастіше називають фіктивною або dummy-змінною. В подальшому використовується останній термін.

Повнота шкали градацій дає: ? u k = f k , де f k — частота k-ї градації. Для кожної з них середнє значення дорівнює частці k k d n f u==. Величина u ik є власне характеристикою розподілу сукупності, у математико-статистичній літературі її найчастіше називають фіктивною або dummy-змінною. В подальшому використовується останній термін.

Умова неперетинності виключає одночасну належність одиниці сукупності ми метричної шкали. Такі моделі називають коваріаційними — ACOV-моделями (analysis of covariance). Як приклад розглянемо найпростішу модель, ознакова множина якої містить одну dummy-змінну u

до двох градацій: ? u k u s = 0, де k, s

градації (k ? s). Dummy-змінні часто використовують у регресійних моделях поряд з ознакадо двох градацій: ? u k u s = 0, де k, s

градації (k ? s). Dummy-змінні часто використовують у регресійних моделях поряд з ознака

1 і одну ознаку метричної шкали. Скажімо, залежність прибутку операторів мобільного зв’язку від абонентської де а

бази х

1 і технології надання послуг доступу до Iнтернету (u

1 = 1, якщо надає послуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: слуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: бази х

1 і технології надання послуг доступу до Iнтернету (u

1 = 1, якщо надає послуги за технологією 4G; u

1 = 0, якщо надає послуги за технологією 3G). ACOVмодель має вигляд: Y= а

0 + b

1 x

1 + а

1 u

1 . Y= а

0 + b

1 x

1 + а

1 u

1 .

вільний член рівняння (перетин); b

0

коефіцієнт регресії, характеризує ефект впливу абонентської бази на прибутковість; а

1

показує, наскільки середній прибуток операторів, котрі надають послуги за технологією 4G, відрізняється від середнього прибутку операторів, які надають послуги за технологією 3G.

1

Геометрично ACOV-модель прибутковості операторів мобільного зв’язку зображено на рис. 6.8. Як бачимо, модель розпадається на дві функції з однаковим нахилом, але різним перетином а

АДАПТАЦІЯ РЕГРЕу х

0 . Тобто середній прибуток операторів різниться залежно від технології надання послуг, але ефект впливу абонентської бази при цьому однаковий.

у х

Рис. 7.8. Схематичний приклад однофакторної ACOV-моделі

Отже, dummy-змінна розглядається як умовний код, що вказує на належність (1) чи неналежність (0) j-ї одиниці сукупності до k-ї градації. Щоб уникнути проблеми мультиколінеарності для ознаки, що має р градацій,ставиться у відповідність (p – 1) величин u

1 , u

2 , …, u p-1 . У регресійному аналізі до матриці використання землі у від якості ґрунтів х

ознакової множини моделі Х додається матриця dummy-змінних U = [ u

1 , u

2 , … , u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності ознакової множини моделі Х додається матриця dummy-змінних U = [ u

1 , u

2 , … , u p – 1 ], а модель включає додаткові члени a

1 u

1 + a

2 u

2 +…+ a p-1 u p – 1 . Параметри a k оцінюються одночасно з коефіцієнтами регресії b i при метричних ознаках. Так, наприклад, за даними агропідприємств моделюється залежність ефективності

1 і виробничої спеціалізації господарств х

2 . Перший фактор вимірюється балами, другий — належить до номінальної шкали і має три градації: а) овочівництво, б) буряківництво і в) виробництво зерна. В ознакову множину моделі другий фактор х

2 вводиться двома dummy-змінними:

Відповідно формується два вектори значень цих величин (табл. 7.2). За такого варіанта оцифровування третя спеціалізація (виробництво зерна) дістає числові еквіваленти (0; 0) і стає базою порівняння для перших двох. Регресійна модель ефективності використання землі з урахуванням спеціалізації господарств має такий вигляд: де a

Відповідно формується два вектори значень цих величин (табл. 7.2). За такого варіанта оцифровування третя спеціалізація (виробництво зерна) дістає числові еквіваленти (0; 0) і стає базою порівняння для перших двох. Регресійна модель ефективності використання землі з урахуванням спеціалізації господарств має такий вигляд: де a

0 — вільний член рівняння (перетин);

0 — вільний член рівняння (перетин);

параметр b

1характеризує чистий ефект впливу якості ґрунтів на ефективність використання землі за умови однакової спеціалізації; a

21 — показує різницю в ефективності використання землі в господарствах овочевої спеціалізації порівняно з господарствами зернового спрямування за умови однакової якості ґрунтів; a

22 — має таку саму інтерпретацію для господарств, які спеціалізуються на буряківництві.

Отже, теоретичний рівень ефективності використання землі для відповідної спеціалізації визначається:

Таблиця 7.2

Таблиця 7.2

ЧИСЛОВІ ЕКВІВАЛЕНТИ DUMMY-ЗМІННИХ СПЕЦІАЛІЗАЦІЇ АГРОГОСПОДАРСТВ

Числовий еквівалент

№ з/пСпеціалізація агрогосподарства u

1 u

2

1Овочівництво10

ACOV-модель можна розширити, включивши кілька номінальних ознак, кожна з яких має р градацій. Єдине застереження: кількість dummy-змінних для кожної номінальної ознаки має бути на одиницю меншою від кількості її градацій. Загальний вигляд регресійної моделі з dummy-змінними такий: ?

Ознакова множина такої моделі складається з двох блоків: перший — блок q факторних ознак метричної шкали, другий — блок dummy-змінних для (m — q) ознак номінальної шкали, кожна з яких має p градацій.

Ознакова множина такої моделі складається з двох блоків: перший — блок q факторних ознак метричної шкали, другий — блок dummy-змінних для (m — q) ознак номінальної шкали, кожна з яких має p градацій.

Коефіцієнти регресії вимірюють: b i

— чистий, елімінований від взаємозв’язків усередині моделі, ефект впливу фактора х і ; а rk — вплив k-ї градації r-го фактора (r ? i) на функцію y; алгебраїчно це різниця середніх значень функції y між k-ю градацією і градацією, взятою за базу порівняння (базовою градацією).

Моделювання на змішаних факторних множинах відбувається за процедурами модуля Multiplу Regression (див. підрозд. 5.3). Специфікація текстових ознак передбачає їх оцифровування. У системі Statistica ця процедура здійснюється для кожної ознаки окремо за командами: Current Specs (кнопка Vars) ? Text Values. У діалоговому вікні Менеджера текстових значень — Text Values Mana-ger вказуються числові еквіваленти (Text Value

— Numeric).

Як приклад розглянемо модель, що описує залежність капітальних витрат на будівництво атомних електростанцій з реактором водяного охолодження від номінальної потужності електростанцій, використання нагрівальної башти та типу силової установки. Два останні фактори представлені текстовими ознаками й підлягають оцифровуванню. У табл. 7.3 наведено дані щодо 23 АЕС: Var1— капітальні витрати на будівництво, млн дол. США, Var2 — потужність електростанції, МВт, Var3 приписано значення 1 і 0 залежно від того, використовує чи не використовує електростанція нагрівальну башту, Var4 аналогічно приписані значення стосовно використання силової установки виробництва фірми В

—W. ACOV-модель капітальних витрат на будівництво АЕС має вигляд:

Таблиця 7.3

Таблиця 7.3

МАТРИЦЯ ПЕРВИННИХ ДАНИХ ACOV-МОДЕЛІ НА ЗМІШАНИХ МНОЖИНАХ

№ з/п АЕСVar1Var2Var3Var4
146068700
2453106501
3443106501
4642106511
527282200
631745700
745782200
835056000
940279000
1041253010
1139485001
1242377800
1371284500
14881109000

Закінчення табл. 7.3

№ з/п АЕСVar1Var2Var3Var4

15491105000
1656891311

1762178610

1847353810
1920774500

2028488601

2121774500
2234551410
2328088601

Значення параметрів наведено в табл. 7.4. Коефіцієнт детермінації становить 0,506, тобто включені в модель фактори пояснюють 50,6 % варіації вартості будівництва атомних електростанцій. Значення F-критерію і p-level свідчать про адекватність моделі, а t-критерію — про істотний вплив кожного фактора.

Аналізуючи параметри моделі, варто зазначити, що найвагоміший вплив на вартість будівництва має потужність електростанцій, значення ?-коефіцієнта для цього фактора становить 0,841. Ефекти впливу використання нагрівальної башти й силових установок приблизно однакові, але напрямок дії різний. На електростанціях, які використовують нагрівальні башти, вартість будівництва в середньому на 179,342 млн дол. вища, тоді як використання силових установок фірми В

—W, навпаки, зменшує капітальні витрати в середньому на 170,317 млн дол.

Таблиця 7.4

ПАРАМЕТРИ ACOV-МОДЕЛІ КАПІТАЛЬНИХ ВИТРАТ НА БУДІВНИЦТВО АЕС

Regression Summary for Dependent Variable: Var1
R= ,7114 RІ= ,5061 Adjusted RІ= ,4281
F(3,19)=6,49 p<,0033 Std.Error of estimate: 123,00
St. Err.St. Err.
BETAof BETABof Bt(19)p-level
Intercpt–129,295137,448–0,94060,3587
Var20,8410,20540,7140,1744,09470,0006
Var30,4950,1708179,34261,8832,89800,0092
Var4–0,4930,1989–170,31768,753–2,47720,0228

Очевидно, що інтерпретація параметрів моделі зміниться, якщо взяти іншу схему визначення dummy-змінних.

Розглянута методика використання dummy-змінних передбачає, що всі одиниці сукупності мають градації існуючої шкали. Якщо ця умова не виконується, то можна ввести додаткову групу для невизначених градацій.

Не завжди виконується й умова неперетинності груп — та сама одиниця сукупності може одночасно належати до різних градацій. Скажімо, робітник має кілька професій, і щоб забезпечити умову неперетинності, його відносять до градації, яка відповідає основній професії. Аналогічна проблема виникає під час обробки даних соціологічних обстежень, програмою яких передбачені питаннянабори. Наприклад, респондент може вказати декілька джерел інформації про валютний ринок: телебачення, пресу, особисті спостереження. Кожна градація набору розглядається як альтернативна ознака і може самостійно включатися в модель.


< Попередня  Змiст  Наступна >
Iншi роздiли:
7.4. РЕГРЕСІЯ НА ГРУПУВАННЯХ
7.5. СТАНДАРТИЗАЦІЯ ЕФЕКТІВ ВПЛИВУ
БАГАТОФАКТОРНІ ДИНАМІЧНІ МОДЕЛІ
8.2. МОДЕЛІ З ЛАГОВИМИ ЗМІННИМИ
8.3. НЕЛІНІЙНА РЕГРЕСІЯ НА ЧАСОВИХ РЯДАХ
Дисциплiни

Англійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki