Posibniki.com.ua Статистика Статистичне моделювання та прогнозування 9.2. ВИМІРЮВАННЯ ТА ІДЕНТИФІКАЦІЯ ГОЛОВНИХ КОМПОНЕНТ


< Попередня  Змiст  Наступна >

9.2. ВИМІРЮВАННЯ ТА ІДЕНТИФІКАЦІЯ ГОЛОВНИХ КОМПОНЕНТ


Визначальна функція моделі головних компонент — пошук у багатовимірних системах прихованих, але об’єктивно існуючих закономірностей,

зумовлених впливом внутрішніх і зовнішніх факторів. Моделі головних компонент застосовують у різних галузях знань, де закономірності формування властивих їм явищ і процесів мають статистичну природу й описуються великою кількістю взаємозв’язаних ознак: у метеорології, біології, медицині, психодіагностиці, соціології, політології, економіці тощо. Набутий досвід застосування методу головних компонент свідчить про те, що цей метод є універсальним ін-

струментом наукового пізнання. Серед прикладних завдань компонентного аналізу вирізняють такі основні напрями:

• конструювання інтегральних показників різного рівня;

• ранжирування і/або класифікація й компактна візуалізація даних щодо об’єктів дослідження на основі інтегральних показників;

• оцінювання прихованих, але об’єктивно існуючих взаємозв’язків між

ознаками-симптомами, які вимірюються, і латентними факторами, що безпосередньо не вимірюються;

• регресійний аналіз взаємозв’язків на головних компонентах;

• стиснення первинної інформації, що зберігається в базах даних, зменшення її обсягів без істотних втрат інформації (редукція даних).

Взаємозв’язок перелічених напрямів компонентного аналізу подано на рис. 9.3. Як уже зазначалося, кількісні оцінки головних компонент компактно й адекватно, без істотних втрат інформації, відображають латентні властивості досліджуваних явищ і процесів. Їх застосовують під час ранжирування та типології одиниць сукупності, вимірювання взаємозв’язків, вивчення закономірностей динаміки. Практика свідчить, що класифікація на основі головних компонент виявляється більш об’єктивною порівняно з багатовимірною класифікацією на підставі первинних даних. Головні компоненти мають незаперечні переваги в регресійному аналізі багатовимірних і багатофакторних систем, коли ознакова множина моделей виявляє мультиколінеарність. У системах одночасних рівнянь у разі застосування двокрокового МНК головні компоненти використовують на першому кроці як змінні спрощеної форми моделі (див. підрозд. 10.1).

Рис. 9.3. Напрями використання моделі головних компонент

Рис. 9.3. Напрями використання моделі головних компонент

Першочерговим завданням головних компонент в аналізі статистичних закономірностей є вимірювання головних компонент для окремих одиниць сукупності. Враховуючи, що в процесі факторного рішення виокремлюється нти. Процедура, за якою h-й одиниці сукупності надається певне значення j-ї компоненти G jh , називають факторним шкалюванням. Вимірювання компонент G j здійснюють у рамках моделі, що описує взаємозв’язок між первин-

р головних компонент (р < m), то вимірюванню підлягають саме ці компонер головних компонент (р < m), то вимірюванню підлягають саме ці компоне

ними ознаками й компонентами на основі лінійної комбінації первинних ознак: де G — матриця головних компонент розміром (n · s); A — матриця факторних навантажень розміром (s · m); A –1 — обернена матриця факторних навантажень m компонент; Z — матриця стандартизованих значень ознак і х розміром (n · m).

На практиці найчастіше застосовують стандартне значення компонент G j — з нульовим математичним сподіванням і одиничною дисперсією. Такі значення компонент забезпечує ділення факторних навантажень на j ?: де ? –1 — діагональна матриця m власних значень.

На практиці найчастіше застосовують стандартне значення компонент G j — з нульовим математичним сподіванням і одиничною дисперсією. Такі значення компонент забезпечує ділення факторних навантажень на j ?: де ? –1 — діагональна матриця m власних значень.

Алгебраїчно ця процедура зводиться до підсумовування значень ознак х і (у стандартизованому масштабі) з вагами, пропорційними факторним навантаженням (до обертання):

Алгебраїчно ця процедура зводиться до підсумовування значень ознак х і (у стандартизованому масштабі) з вагами, пропорційними факторним навантаженням (до обертання):

= i j

1 ? = ? = i hi j ij jh z a G

1 )( .

Знаки (+, –) свідчать про те, що значення компоненти в h-ї одиниці сукупнос? = ? = m i hi j ij jh z a G

1 )( .

Знаки (+, –) свідчать про те, що значення компоненти в h-ї одиниці сукупності вищий або нижчий за середній по сукупності. На основі оцінок латентних властивостей багатовимірного явища можна здійснити ранжирування чи класифікацію об’єктів сукупності.

Як приклад розглянемо модель головних компонент, побудовану на основі ків, як х

п’ятирічної поквартальної динаміки (n = 20) таких макроекономічних показнип’ятирічної поквартальної динаміки (n = 20) таких макроекономічних показни

сальдо рахунку поточних операцій в % до ВВП; х

зовнішній борг в % до ВВП; х

1

2

витрати на обслуговування зовнішнього боргу, % до експорту; х

3

відношення резервних активів до імпорту; х

5 — курс національної валюти.

4

Включені в модель показники характеризують збалансованість поточних платежів, боргове навантаження економіки та норму обслуговування боргу, міжнародну валютну ліквідність і ціну національної валюти. Зв’язки між ними відображає кореляційна матриця (табл. 9.3). Значення всіх коефіцієнтів кореляції близькі до одиниці, що свідчить про наявність одного латентного фактора — першопричини, що формує динаміку й волатильність показників. Таку першопричину можна розглядати в контексті зовнішньоекономічної позиції країни.

Таблиця 9.3

КОРЕЛЯЦІЙНА МАТРИЦЯ R

х 1 х 2 х 3 х 4 х 5
х 1 1 0,938 0,968 0,948 0,948
х 2 0,938 1 0,933 0,948 0,899
х 3 0,968 0,933 1 0,980 0,994
х 4 0,948 0,947 0,980 1 0,956
х 5 0,948 0,899 0,994 0,956 1

Власне значення кореляційної матриці ?

1 = 4,811. Факторні навантаження компоненти G

1 і внесок її в сумарну дисперсію наведено в табл. 9.4. Рівень факторизації моделі досить високий (4,811: 5) = 0,962, тобто 96,2 % сумарної варіаторизації моделі досить високий (4,811: 5) = 0,962, тобто 96,2 % сумарної варіа

Власне значення кореляційної матриці ?

1 = 4,811. Факторні навантаження компоненти G

1 і внесок її в сумарну дисперсію наведено в табл. 9.4. Рівень факторизації моделі досить високий (4,811: 5) = 0,962, тобто 96,2 % сумарної варіа

ції макроекономічних показників пояснює одна першопричина G

1 , ідентифікована як зовнішньоекономічна позиція країни.

Матриця факторних навантажень А слугує базою для розрахунку та економічної інтерпретації головних компонент. Сумарна дисперсія ознакової множини

моделі становить m = 5, дисперсія компоненти ?

1 = 4,811. Звідси розрахунок a G. значення компоненти в t-му кварталі має вигляд ? =

1

811,4 z i itt a G. моделі становить m = 5, дисперсія компоненти ?

1 = 4,811. Звідси розрахунок значення компоненти в t-му кварталі має вигляд ? =

5

1

811,4 z i itt a G.

Таблиця 9.4

ФАКТОРНІ НАВАНТАЖЕННЯ КОМПОНЕНТИ

Factor Loadings (Unrotated) (plb.sta)
Extraction: Principal components
(Marked loadings are > ,700000)
Factor 1
х 1 0,9803
х 2 0,9616
х 3 0,9871
х 4 0,9814
х 5 0,9942
Expl.Var4,8114
Prp.Totl0,9623

Поквартальна динаміка значень компоненти, яка набуває додатних або від’ємних значень, свідчить про значну волатильність зовнішньоекономічної позиції країни, пов’язану з чергуванням періодів економічного розвитку і рецесії (рис. 9.4). Від’ємні значення компоненти — це результат спаду виробництва, хронічної кризи неплатежів, незбалансованості зовнішньої торгівлі через не-

сприятливу кон’юнктуру на зовнішніх товарних ринках, зниження конкурентоспроможності товарів унаслідок погіршення умов торгівлі, ресурсної й фінансової залежності від критичного імпорту. Останнім часом простежується тенденція поступового зростання значень компоненти, що означає зміцнення зовнішньоекономічної позиції країни, але зростання поки що нестійке. Очевидно, стратегічним завданням для країни є вихід економіки на траєкторію стійкого економічного зростання і зміцнення своїх позицій на світовому ринку. -0,0800 -0,0600 -0,0400 -0,0200

0,0800

0,0600

0,0400

0,0200

0,0000

1234567891011121314151617181920

Порядковий номер квартала Gt

Рис. 9.4. Поквартальна динаміка зовнішньоекономічної позиції країни

У реальних багатовимірних сукупностях часто виокремлюється не одна, а кілька головних компонент, навантаження яких на окремі ознаки перетинається. Складна факторна структура значно ускладнює ідентифікацію компонент. Пошук простої факторної структури, коли а ij наближається до 1 або 0, здійснюється за допомогою різних процедур ортогонального чи косокутного обертання, яке спричиняє перерозподіл дисперсії й різноспрямовану зміну факторних навантажень (значення одних зростають, інших — зменшуються).

У сучасних статистичних пакетах реалізовані найбільш типові стратегії обертання факторного простору (current rotation), які забезпечують максимально можливу концентрацію дисперсії первинних даних на координатних осях виділених компонент і спрощують змістову інтерпретацію факторів:

— варімакс (Varimax) максимізує відмінності стовпчиків матриці факторних навантажень, зменшуючи кількість первинних ознак, пов’язаних з кожною компонентою;

— квартимакс (Quartimax) максимізує відмінності рядків матриці факторних навантажень, зменшуючи кількість компонент, пов’язаних з кожною ознакою;

— біквартимакс (Biquartimax) одночасно максимізує відмінності і стовпчиків, і рядків матриці факторних навантажень.

На практиці найчастіше використовують факторне обертання за процедурою Varimax, яка збільшує великі і зменшує малі значення факторних навантажень а ij , тим самим забезпечує просту факторну структуру для кожної компоненти. Критерій Varimax визначається за формулою m s m s де m — кількість ознак (показників); s — кількість стовпців матриці факторних навантажень; ij a — факторне навантаження j-ї компоненти на i-у ознаку.

В алгебраїчних термінах обертання означає перетворення матриці факторних навантажень А в матрицю простої факторної структури В. Необхідно знайти татрансформації Т залежить від кількості головних компонент та кута обертання ?, який не повинен перевищувати 45?. Для двох компонент при обертанні проти годинникової стрілки матриця трансформації має вигляд

В алгебраїчних термінах обертання означає перетворення матриці факторних навантажень А в матрицю простої факторної структури В. Необхідно знайти татрансформації Т залежить від кількості головних компонент та кута обертання ?, який не повинен перевищувати 45?. Для двох компонент при обертанні проти годинникової стрілки матриця трансформації має вигляд

Очевидно, що проста факторна структура недосяжна, але наближення до неї все ж спрощує ідентифікацію компонент. Наприклад, трансформуємо матрицю

Очевидно, що проста факторна структура недосяжна, але наближення до неї все ж спрощує ідентифікацію компонент. Наприклад, трансформуємо матрицю

На основі факторних навантажень матриці В можна зробити висновок, що перша компонента навантажує ознаки х

На основі факторних навантажень матриці В можна зробити висновок, що перша компонента навантажує ознаки х

1 та х

2 , друга — решту ознак. Зміст кожної компоненти визначається змістом ознак, які її представляють. матрицю трансформації, яка є добутком попарних матриць трансформації для годинникової стрілки повна матриця трансформації має вигляд

Якщо кількість головних компонент більше двох р > 2, застосовують повну

Якщо кількість головних компонент більше двох р > 2, застосовують повну всіх комбінацій головних компонент. Скажімо, для р = 3 при обертанні проти всіх комбінацій головних компонент. Скажімо, для р = 3 при обертанні проти

Т = Т

12 Т

13 Т

23 ,

Т = Т

12 ?Т

13 ?Т

23 ,

де

У кожній з наведених матриць діагональні елементи, що відповідають номерам осей, які не обертаються, дорівнюють 1, недіагональні — 0. Загалом необхідно здійснити 2/)1(?kk послідовних обертань систем координат для всіх пар виокремлених головних компонент. При цьому кути обертання і ? невідомі, пошук найбільш придатних їхніх значень ведеться за критеріями обраної процедури обертання.

У кожній з наведених матриць діагональні елементи, що відповідають номерам осей, які не обертаються, дорівнюють 1, недіагональні — 0. Загалом необхідно здійснити 2/)1(?kk послідовних обертань систем координат для всіх пар виокремлених головних компонент. При цьому кути обертання і ? невідомі, пошук найбільш придатних їхніх значень ведеться за критеріями обраної процедури обертання.

Практика показує, що обертання матриці факторних навантажень певною мірою змінює внески компонент у сумарну варіацію первинних ознак, вони можуть істотно відрізнятися від власних значень кореляційної матриці. Тому в розрахунках індивідуальних значень компонент використовують факторні навантаження до обертання.

Найбільш складною процедурою факторного шкалювання є інтерпретація головних компонент. Як приклад розглянемо процедуру пошуку та інтерпретації головних компонент на основі множини показників, що характеризують інноваційно-інвестиційну діяльність 20 підприємств машинобудування: х

обсяг інвестицій в основний капітал до власної доданої вартості (ВДВ), %; х

1

2 обсяг прямих іноземних інвестицій до ВДВ, %; х

обсяг інноваційних витрат на дослідження і розробки, % до до загального обсягу інноваційних витрат; темпів зростання (спаду) ВДВ, рази; х

3

х

4

частка товарів інноваційної продукції в експорті, %; х

5

відношення темпів зростання (спаду) інвестицій в основний капітал до

6 обсяг інвестицій в основний капітал відносно вартості основних засобів, рази.

Матрицю коефіцієнтів кореляції наведено в табл. 9.5.

Таблиця 9.5

КОРЕЛЯЦІЙНА МАТРИЦЯ R

х 1 х 2 х 3 х 4 х 5 х 6
х 1 1 0,4166 0,2206 0,1913 0,2537 0,3208
х 2 0,4166 1 0,0206 –0,0181 0,1994 0,3547
х 3 0,2206 0,0206 1 0,2131 0,3076 0,0298
х 4 0,1913 –0,0181 0,2131 1 0,0724 –0,0423
х 5 0,2537 0,1994 0,3076 0,0724 1 0,1971
х 6 0,3208 0,3547 0,0298 –0,0423 0,1971 1

Припускаючи стохастичний характер формування показників, перевіримо значущість кореляційної матриці, відмінність її від одиничної матриці за допомогою критерію ? 2 , Статистичну характеристику критерію визначимо за формулою де ? ik r 2

— сума квадратів усіх коефіцієнтів кореляції, які розміщені вище (ниж

— сума квадратів усіх коефіцієнтів кореляції, які розміщені вище (ниж

<ki че) головної діагоналі матриці.

Перевірка здійснюється за стандартною процедурою, число ступенів свободи df = m (m – 1)/2. Коли ?

2 < )(

2

05,01 df ? ?, кореляційні зв’язки неістотні і компонен<ki

2 = 20 · 0,77921 = 15,58. Критичне значення .261,7)15(

2

05,01 =? ?

Оскільки фак2 більше за критичне, то з імовірністю 0,95 можна зробити висновок, що кореляційна матриця істотно відрізняється від одиничної, щільність кореляційних зв’язків між показниками інноваційно-інвестиційної діяльності уможливлює компонентний аналіз даних. У табл. 9.6 наведено власні значення кореляційної матриці і внесок кожної компоненти в сумарну дисперсію первинних ознак.

Таблиця 9.6 ?

2 = 20 · 0,77921 = 15,58. Критичне значення .261,7)15(

2

05,01 =? ?

Оскільки фак2 більше за критичне, то з імовірністю 0,95 можна зробити висновок, що кореляційна матриця істотно відрізняється від одиничної, щільність кореляційних зв’язків між показниками інноваційно-інвестиційної діяльності уможливлює компонентний аналіз даних. У табл. 9.6 наведено власні значення кореляційної матриці і внесок кожної компоненти в сумарну дисперсію первинних ознак.

Таблиця 9.6 тний аналіз не має сенсу. У наведеній матриці ik r 2 = 0,77921, df = 15, значення <ki че) головної діагоналі матриці.

Перевірка здійснюється за стандартною процедурою, число ступенів свободи df = m (m – 1)/2. Коли ?

2 < )(

2

05,01 df ? ?, кореляційні зв’язки неістотні і компонентний аналіз не має сенсу. У наведеній матриці ? <ki ik r 2 = 0,77921, df = 15, значення ?

2 = 20 · 0,77921 = 15,58. Критичне значення .261,7)15(

2

05,01 =? ?

Оскільки фактичне значення ? 2 більше за критичне, то з імовірністю 0,95 можна зробити висновок, що кореляційна матриця істотно відрізняється від одиничної, щільність кореляційних зв’язків між показниками інноваційно-інвестиційної діяльності уможливлює компонентний аналіз даних. У табл. 9.6 наведено власні значення кореляційної матриці і внесок кожної компоненти в сумарну дисперсію первинних ознак.

Таблиця 9.6

ДИСПЕРСІЇ КОМПОНЕНТ І ВНЕСОК ЇХ У СУМАРНУ ВАРІАЦІЮ ОЗНАК

G 1 G 2 G 3 G 4 G 5 G 6 Разом
? і 2,00 1,28 0,91 0,66 0,64 0,51 6
Частка варіації, % 33,31 21,29 15,14 11,01 10,65 8,60 100,0
Кумулятивна частка, % 33,31 54,6 69,74 80,75 91,40 100,0 ?

За критерієм Кайзера головними є перші дві компоненти. Рівень факторизації моделі невисокий — 54,7 %. У табл. 9.7 наведено факторні навантаження головних компонент. Перша компонента навантажує ознаки х

1 , х

2 , х

5 і х

6 . ЇЇ можна ідентифікувати як інвестиційну активність, друга компонента навантажує ознаки х

3 і х

4 , що характеризує інноваційну активність.

Таблиця 9.7

ФАКТОРНІ НАВАНТАЖЕННЯ ГОЛОВНИХ КОМПОНЕНТ

Показник аі 1 аі 2
х 1 Обсяг інвестицій в основний капітал до ВВП, % 0,7671 –0,0197

х

Обсяг прямих іноземних інвестицій до ВВП, %0,6584–0,4401

2

х 3 Обсяг інноваційних витрат на дослідження й розробки, % до до загального обсягу інноваційних витрат 0,4388 0,6459
х 4 Частка товарів інноваційної продукції в експорті, % 0,2467 0,6399

Відношення темпів зростання (спаду) інвестицій в основний капітал до темпів зростання (спаду) ВВП, рази

х

0,60100,2266

5

х 6 Обсяг інвестицій в основний капітал відносно вартості основних засобів, разів 0,6016 –0,4531

< Попередня  Змiст  Наступна >
Iншi роздiли:
СТРУКТУРНЕ МОДЕЛЮВАННЯ СКЛАДНИХ КОРЕЛЯЦІЙНИХ ВЗАЄМОЗВ’ЯЗКІВ
10.2. ІНСТРУМЕНТИ СТРУКТУРНОГО МОДЕЛЮВАННЯ В СИСТЕМІ STATISTICA
10.3. АНАЛІТИЧНІ МОЖЛИВОСТІ РЕКУРСИВНОЇ МОДЕЛІ
Частина 2. 8.4. МОДЕЛЮВАННЯ НА ОСНОВІ ПАНЕЛЬНИХ ДАНИХ
Частина 1. 8.4. МОДЕЛЮВАННЯ НА ОСНОВІ ПАНЕЛЬНИХ ДАНИХ
8.3. НЕЛІНІЙНА РЕГРЕСІЯ НА ЧАСОВИХ РЯДАХ
8.2. МОДЕЛІ З ЛАГОВИМИ ЗМІННИМИ
БАГАТОФАКТОРНІ ДИНАМІЧНІ МОДЕЛІ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)