Posibniki.com.ua Статистика Статистичне моделювання та прогнозування АДАПТАЦІЯ РЕГРЕСІЙНИХ МОДЕЛЕЙ ДО СОЦІАЛЬНОЕКОНОМІЧНОЇ ІНФОРМАЦІЇ


< Попередня  Змiст  Наступна >

АДАПТАЦІЯ РЕГРЕСІЙНИХ МОДЕЛЕЙ ДО СОЦІАЛЬНОЕКОНОМІЧНОЇ ІНФОРМАЦІЇ


7.1. Забезпечення адекватності регресійних моделей

7.2. Регресія на змішаних факторних множинах

7.3. Адаптація регресійної моделі до неоднорідної сукупності

7.4. Регресія на групуваннях

7.5. Стандартизація ефектів впливу

Після вивчення цього розділу студент повинен знати: методологічні підходи до оцінювання адекватності регресійної моделі; умови забезпечення адекватності моделі; процедури перевірки сукупності на однорідність і залишків — на незалежність; правила введення в модель dummy-змінних; умови адаптації регресійної моделі до неоднорідної сукупності; особливості регресії на групуваннях; уміти: оцінювати адекватність моделі, перевіряти дотримання умов мультиколінеарності та гомоскедатичності; адаптувати регресійну модель до неоднорідної сукупності; за допомогою dummy-змінних відображати в моделі злами тенденцій розвитку; визначати стандартизовані ефекти впливу.

7.1. ЗАБЕЗПЕЧЕННЯ АДЕКВАТНОСТІ РЕГРЕСІЙНИХ МОДЕЛЕЙ

Адекватність регресійної моделі означає здатність її правильно описати реальну структуру взаємозв’язків між ознаками х і та у. Методологічною основою вирішення проблеми адекватності є теоретичний, змістовий аналіз матеріальної природи процесу (явища) й обґрунтування типу та структури моделі, яка описує механізм його формування. Практично з метою забезпечення адекватності моделі змістовий аналіз поєднується з формальними процедурами перевірки гіпотез про дотримання логіко-статистичних умов використання МНК.

Невідповідність між теоретичним (змістовим) і кількісним аналізом тягне за собою так звану хибну кореляцію, яка не має логічного чи професійного пояснення. Як один із класичних прикладів хибної кореляції в історії статистики наводять близький до функціонального зв’язок між кількістю народжених за рік

дітей і кількістю лелек, котрі звили гнізда, в південних районах Швеції. Насправді синхронна динаміка цих явищ пояснюється зміною рівня життя населення. Не менш красномовним прикладом хибної кореляції є виявлений зв’язок між збитками, спричиненими пожежами, і кількістю пожежників, які гасили ці пожежі. І в цьому разі проігноровано спільну для цих явищ причину — початковий масштаб пожежі.

Насправді хибна кореляція з’являється тоді, коли на два чи більше явищ впливають фактори, не задіяні в аналізі. Таку саму логічну основу має мультиколінеарність, коли включені до моделі фактори залежать від інших факторів, які не досліджуються. Наявність хибної кореляції вказує на необхідність поглиблення теоретичного аналізу явищ, що вивчаються.

Базою оцінювання адекватності регресійної моделі, як уже зазначалося в Інформативність включених до моделі факторних ознак залежить як від соціально-економічного змісту, так і від шкали вимірювання ознаки. Якщо ознака за змістом не інформативна, то ніякий спосіб моделювання не забезпечить належних результатів. Так само результати аналізу будуть істотно різнитися залежно від того, якою шкалою вимірювання представлена та сама ознака (метричною, ранговою чи номінальною).

підрозд. 5.3, слугують відхилення фактичних значень від теоретичних e j = y jY j . На величину цих відхилень впливає увесь комплекс умов, зокрема:

• інформативність включених до моделі факторів;

• обсяг та однорідність сукупності;

• незалежність спостережень;

• стабільність не врахованих у моделі (випадкових) факторів;

• тип моделі. підрозд. 5.3, слугують відхилення фактичних значень від теоретичних e j = y jY j . На величину цих відхилень впливає увесь комплекс умов, зокрема:

• інформативність включених до моделі факторів;

• обсяг та однорідність сукупності;

• незалежність спостережень;

• стабільність не врахованих у моделі (випадкових) факторів;

• тип моделі.

Ті властивості, що безпосередньо не вимірюються або не мають єдиного вимірника, включаються до моделі у вигляді інтегральних оцінок. Наприклад, погодні умови характеризуються середньодобовою температурою повітря, кількістю опадів, тривалістю сонячного світла, хмарністю. Усі ці характеристики агрегуються в індексі погодних умов.

Репрезентативність оцінок регресійного аналізу прямо пропорційна обсягу й однорідності сукупності. Саме недостатній обсяг сукупності та її неоднорідність вважаються найвагомішими чинниками неадекватності моделей. Тому під час формування ознакової множини моделі слід ураховувати співвідношення між обсягом вибірки і кількістю включених у модель факторів (воно має бути приблизно 8:1).

Оцінювання однорідності сукупності здійснюється на етапі розвідувального аналізу даних (див. підрозд. 3.1). Так, наявність аномальних значень, які не узгоджуються з розподілом основної маси даних, може бути наслідком помилок спостереження або результатом незвичайної комбінації причин і умов, в яких функціонує одиниця сукупності. Ідентифікація таких спостережень дозволяє усунути помилки, а якщо це неможливо, то вилучити аномальний об’єкт з подальшого аналізу. Коли сукупність розшарована на групи (кластери), то в моделі можна врахувати таку неоднорідність (див. підрозд. 6.2).

Важливою умовою регресійного аналізу є відсутність мультиколінеарності, яка веде до зсунення оцінок параметрів моделі і унеможливлює коректну інтерпретацію результатів. Термін «мультиколінеарність» означає, що два або більше включених до моделі факторів — висококорельовані. Така ситуація може виникнути, коли ці фактори формуються під впливом однакового причинного комплексу. Для виявлення мультиколінеарності застосовують кілька способів, зокрема:

— порівняння значень коефіцієнтів кореляції: два фактори вважаються колінеарними, якщо коефіцієнт кореляції між ними r ik перевищує парні коефіцієнти кореляції з результативною ознакою, тoбто ? ? ? yk yi ik r r rf

— високе значення коефіцієнта детермінації R? при неістотності коефіцієнтів регресії за t-критерієм.

Найпростіший спосіб усунення мультиколінерності — виключити одну з корельованих ознак з моделі або замінити її іншою, скажімо, дві абсолютні величини, що характеризують масштаб явища, замінити однією відносною величиною інтенсивності. Часом колінеарні фактори агрегуються в одну узагальнюючу оцінку методами багатовимірного оцінювання. Задля усунення мультиколінеарності застосовують також гребеневу регресію (ridg-regre-sion).

Стабільність не врахованих у моделі факторів означає, що вплив їх на варіацію у незначний і врівноважується, він однаковий в усіх частинах сукупності. Математичною основою дотримання цих передумов МНК слугує ймовірнісний розподіл залишків е j.

Передбачається, що:

• для кожного спостереження залишок е j — випадкова величина, яка має нормальний розподіл. Умова нормальності необхідна для визначення довірчих меж коефіцієнтів регресії та для перевірки гіпотез щодо їх істотності;

• математичне сподівання залишків М(е) = 0;

• дисперсія залишків однакова в усіх частинах сукупності:

2 e s = const; це умова гомоскедастичності, яка пов’язана з однорідністю сукупності; неоднорідність дисперсії залишкових величин називають гетероскедастичністю;

• залишки незалежні, тобто немає серійної кореляції чи автокореляції даних.

• математичне сподівання залишків М(е) = 0;

• дисперсія залишків однакова в усіх частинах сукупності:

2 e s = const; це умова гомоскедастичності, яка пов’язана з однорідністю сукупності; неоднорідність дисперсії залишкових величин називають гетероскедастичністю;

• залишки незалежні, тобто немає серійної кореляції чи автокореляції даних.

Перевірку забезпечення умови гомоскедастичності залишків можна здійснити візуально на основі графіка залишків або за допомогою спеціальних статистичних критеріїв На графіку залежності залишків від значень функції Y гетероскедастичність виявляється збільшенням розкиду залишків зі збільшенням значень функції (рис. 7.1б), в разі гомоскедастичності «хмарка» залишків розташовується паралельно осі абсцис (рис. 7.1а). Аналогічні графіки застосовують для аналізу залежності залишків від значень окремих включених до моделі факторних ознак, які апріорі можуть бути причиною гетероскедастичності.

а б

Рис. 7.1. Залежність залишків від вирівняних значень ознаки у: а) немає залежності; б) дисперсія залишків зростає зі зростанням значень ознаки Y

У невеликих за обсягом сукупностях виявити гетероскедастичність можна за допомогою коефіцієнта рангової кореляції, у великих сукупностях використовують різні критерії, серед них критерій Гольдфельда–Квандта, Парка та ін. Оскільки порушення умови гомоскедастичності найчастіше спричиняє невірна специфікація моделі або неоднорідність сукупності, то відповідно задля забезпечення цієї умови необхідно вибрати нову модель або поділити сукупність на однорідні групи.

У модулі Multiple Regression аналіз залишків (Residual Analysis) спирається як на статистичні, так і на візуальні методи. На вкладці Advanced (рис. 7.2) міститься кілька опцій: Summary: Residuals & predicted видає теоретичні значення результативної ознаки (Predicted value), залишки (Residuals), стандартні похибки (Std. err. pred. val.) та інші статистики для кожної одиниці сукупності, що уможливлює всебічний статистичний аналіз розподілу залишків.

Рис. 7.2. Діалогове вікно Residual Analysis, вкладка Advanced

Для перевірки гіпотези про незалежність залишків (відсутність серійної кореляції чи автокореляції) вкладка Advanced містить критерій Durbin

—Watson 2,097, що свідчить про незалежність залишків (табл. 7.1), коефіцієнт серійної кореляції неістотний (–0,077).

statistic d. Для регресійної моделі ефективності виробництва цукру критерій d = statistic d. Для регресійної моделі ефективності виробництва цукру критерій d =

Таблиця 7.1

ОЦІНКА КРИТЕРІЮ ДАРБІНА

—ВАТСОНА

Більш детально процедура перевірки незалежності залишків за допомогою критерію Durbin

Більш детально процедура перевірки незалежності залишків за допомогою критерію Durbin

—Watson d розглядається в підрозд. 8.1.

В арсеналі візуальних методів аналізу залишків діаграми розкиду, гістограми, нормальні й напівнормальні ймовірнісні графіки, графіки з вилученням тренда, графіки часткових кореляцій, діаграми залишків і викидів тощо. Вони розміщені на двох вкладках: гістограми розподілу залишків на вкладці Residuals, нормальні ймовірнісні графіки — на вкладці Probability plots (рис. 7.3 і 7.4).

Рис. 7.3. Діалогове вікно Residual Analysis, вкладка Residuals

Рис. 7.4. Діалогове вікно Residual Analysis, вкладка Probability plots

Доступ до графічних інструментів аналізу залишків ілюструє рис. 7.5.

Рис. 7.5. Доступ до графічних інструментів аналізу залишків

Рис. 7.5. Доступ до графічних інструментів аналізу залишків

Для візуального аналізу розподілу залишків регресійної моделі ефективності виробництва цукру застосуємо гістограму залишків (Histogram of residuals) та ймовірніснийграфік Half-normal plot. Як видно на гістограмі (рис. 7.6), через малий обсяг сукупності розподіл залишків помітно відхиляється від нормального розподілу.

Рис. 7.6. Гістограма залишків регресійної моделі Histogram of residuals

Рис. 7.6. Гістограма залишків регресійної моделі Histogram of residuals

На рис. 7.7 подано ймовірнісний графік розподілу залишків Half-normal plot (вкладка Probability plots). іко, реаде); ачизна, за

Normal Probability Plot of Residuals Residuals Ex pec ted Norm al Value -2,0 -1,5 -1,0 -0,5

0,0

0,5

1,0

1,5

2,0 -0,6-0,4-0,20,00,20,40,60,8

Рис. 7.7. Імовірнісний графік залишків регресійної моделі Half-normal plot

Пряма відповідає нормальному закону розподілу. По тому, як коливаються залишки навколо прямої, можна зробити висновок про дотримання логстатистичних передумов: нормальності розподілу, гомоскедастичності й незалежності. Тобто вплив не врахованих у моделі факторів незначний, їхня спільна дія однакова в усіх частинах сукупності, і варіація виходу цукру з 1 т сировини не залежить від рівня не врахованих у моделі, випадкових факторів. Отжезультати візуального аналізу залишків регресійної моделі підтверджують її кватність.

Вкладка Probability plots містить також процедуру аналізу викидів (Outliersпо сукупності цукрових заводів викидів не виявлено.

У діалоговому вікні Residual Analysis за вкладкою Predicted можна визнти для кожної одиниці досліджуваної сукупності теоретичні рівні результативного показника і залишки.

Отже, можна окреслити критерії вибору найліпшої регресійної моделі:

• статистична значущість усіх коефіцієнтів регресії;

• статистична значущість моделі в цілому;

• незалежність і гомоскедастичність залишків;

• мінімальна частка залишкової, нерозпізнаної варіації, тобто найбільше чення коефіцієнта детермінації;


< Попередня  Змiст  Наступна >
Iншi роздiли:
7.3. АДАПТАЦІЯ РЕГРЕСІЙНОЇ МОДЕЛІ ДО НЕОДНОРІДНОЇ СУКУПНОСТІ
7.4. РЕГРЕСІЯ НА ГРУПУВАННЯХ
7.5. СТАНДАРТИЗАЦІЯ ЕФЕКТІВ ВПЛИВУ
БАГАТОФАКТОРНІ ДИНАМІЧНІ МОДЕЛІ
8.2. МОДЕЛІ З ЛАГОВИМИ ЗМІННИМИ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)