< Попередня  Змiст  Наступна >

МОДЕЛІ КОМПОНЕНТНОГО АНАЛІЗУ


9.1. Концептуальні засади компонентного аналізу

9.2. Вимірювання та ідентифікація головних компонент

9.3. Метод головних компонент у системі Statistica

Після вивчення цього розділу студент повинен знати: сутність і сферу використання компонентного аналізу; логіку та етапи вимірювання латентних явищ; правила виокремлення та ідентифікації головних компонент; аналітичні можливості реалізованих у системі обробки даних Statistica модулів факторного аналізу і методу головних компонент; уміти: відповідно до мети статистичного дослідження формувати інформаційну базу моделі головних компонент; оцінювати рівень факторизації моделі; ідентифікувати виокремлені головні компоненти; визначати індивідуальні значення компонент у межах досліджуваної сукупності; застосовувати моделі головних компонент у дослідженнях взаємозв’язків та тенденцій розвитку.

9.1. КОНЦЕПТУАЛЬНІ ЗАСАДИ КОМПОНЕНТНОГО АНАЛІЗУ

Метод головних компонент (англ. Principal component analysis) — один з основних методів зменшення розмірності багатовимірного простору з мінімальними втратами інформації щодо закономірностей, притаманних об’єкту дослідження. Багатовимірність соціально-економічних явищ породжує значні за розмірами інформаційні потоки. Велика кількість взаємозв’язаних ознак, які характеризують різні аспекти багатовимірного об’єкта, призводить до певної «надлишковості інформації». Задля дослідження внутрішньої структури об’єкта необхідно «стиснути» розмірність початкової ознакової множини, замінити значну кількість первинних, взаємозв’язаних між собою ознак х і мінімальною кількістю внутрішніх (латентних) факторів G j , які безпосередньо не вимірюються, але можуть пояснити варіацію і взаємозв’язки первинних ознак:

факторів (р < m) грунтується на припущенні, що первинні ознаки х і є лише індикаторами певних об’єктивно існуючих властивостей явища, які безпосеред

Трансформація m первинних ознак у р нових максимально інформативних факторів (р < m) грунтується на припущенні, що первинні ознаки х і є лише індикаторами певних об’єктивно існуючих властивостей явища, які безпосеред

ньо не вимірюються. Так, хвороба людини виявляється певними симптомами, рівень життя населення — умовами праці, побуту та дозвілля. Взаємозв’язки між ознаками-симптомами зумовлені тим, що вони, з одного боку, характеризують різні аспекти одного латентного фактора, а з другого — саме цей фактор є тим прихованим механізмом, що спричиняє взаємозв’язок між ознакамисимптомами. Внутрішній (латентний) фактор, що агрегує певну множину взаємозв’язаних ознак, називають компонентою.

Логіку переходу від m первинних ознак множини Х до р нових найбільш інформативних компонент G j , які пояснюють кореляції між первинними ознаками багатовимірного явища, схематично подано на рис. 9.1: сім корельованих між собою індикаторних ознак х і замінюються двома некорельованими, (ортогональними) компонентами G j . Кожна компонента G j агрегує корельовані між собою ознаки, у результаті чого відбувається перерозподіл варіації (дисперсії) між компонентами і створюється максимально проста й наочна факторна структура.

Рис. 9.1. Взаємозв’язки між ознаками-індикаторами і головними компонентами

Рис. 9.1. Взаємозв’язки між ознаками-індикаторами і головними компонентами

Головні компоненти G j , зберігаючи всю інформацію про об’єкт дослідження, мають змістову інтерпретацію, тобто їм можна надавати певний зміст. Ідентифікація j-ї компоненти залежить від того, які саме первинні ознаки х і вона навантажує і наскільки щільний зв’язок між ними. Як правило, ознакову множину Х формують на основі теоретично обґрунтованої гіпотези щодо природи латентних властивостей явища. Коли ж такої гіпотези немає, використовують максимальну кількість ознак, покладаючись на спроможність методу виявити латентні властивості. Однак у такому разі інтерпретація компонент ускладнюється.

Отже, основні завдання методу головних компонент:

• виокремити та ідентифікувати компоненти G j ;

• визначити для кожної h-ї одиниці статистичної сукупності значення компонент G jh .

Оскільки компоненти є гіпотетичними величинами, то виміряти їх можна лише опосередковано за допомогою спеціально сконструйованих моделей. Така

модель ґрунтується на припущенні, що первинні ознаки х і є лінійною комбінацією певних гіпотетичних величин, якими є компоненти G j : i сіями; сумарна дисперсія дорівнює кількості ознак m; а ijфакторне навантаження j-ї компоненти на і-ту ознаку; характеризує щільність зв’язку між і-ю ознакою та j-ю компонентою і як будь-яка міра щільності зв’язку змінюється в межах від 0 до ±1; G jh — значення j-ї компоненти для h-ї одиниці сукупності.

У концептуальній схемі факторного аналізу визначальними є поняття факторне відображення і факторна структура.

У концептуальній схемі факторного аналізу визначальними є поняття факторне відображення і факторна структура.

Факторним відображенням взаємозв’язку між ознаками і х і компонентами G j є система m рівнянь (кількість компонент дорівнює кількості ознак). Скажі

Якщо виключити неістотні зв’язки, факторне відображення трансформується у факторну структуру (табл. 9.1). Кількість ознак, пов’язаних з компонентою G j , свідчить про навантаження компоненти, а кількість компонент, з якими пов’язана ознака і х, характеризує складність факторної структури. Що менше компонент навантажує ознаку, то простішою вважається її факторна структура. Компонента, що навантажує найбільшу кількість ознак, вважається головною. За даними табл. 9.1 найбільше навантаження має

Якщо виключити неістотні зв’язки, факторне відображення трансформується у факторну структуру (табл. 9.1). Кількість ознак, пов’язаних з компонентою G j , свідчить про навантаження компоненти, а кількість компонент, з якими пов’язана ознака і х, характеризує складність факторної структури. Що менше компонент навантажує ознаку, то простішою вважається її факторна структура. Компонента, що навантажує найбільшу кількість ознак, вважається головною. За даними табл. 9.1 найбільше навантаження має

1 G .

Таблиця 9.1

ФАКТОРНА СТРУКТУРА ВЗАЄМОЗВ’ЯЗКУ

G j і х 1 G 2 G 3 G Складність структури
1 х ++ 2
2 х +—+ 2
3 х +— 1
Навантаження компонент 31 1 5

Завдання компонентного аналізу полягає в тому, щоб визначити факторні навантаження а ij і значення головних компонент для кожної h-ї одиниці сукупності G jh . Послідовність етапів факторного рішення ілюструє рис. 9.2. На першому етапі формується ознакова множина латентного явища X, на другому — ознаки підлягають стандартизації X ? Z, на третьому визначають кореляційну

Кореляційна матриця з одиницями на головній діагоналі є інформаційною базою компонентного аналізу. Власні значення і власні вектори матриці R визначають факторні навантаження а ij і внесок окремих компонент G j у сумарну дисперсію первинних ознак. Розрахунок факторних навантажень а ij ґрунтується на основоположному рівнянні факторного аналізу, згідно з яким кореляційну матрицю R можна подати через матрицю факторних навантажень А: де T — символ транспонування матриці.

Кореляційна матриця з одиницями на головній діагоналі є інформаційною базою компонентного аналізу. Власні значення і власні вектори матриці R визначають факторні навантаження а ij і внесок окремих компонент G j у сумарну дисперсію первинних ознак. Розрахунок факторних навантажень а ij ґрунтується на основоположному рівнянні факторного аналізу, згідно з яким кореляційну матрицю R можна подати через матрицю факторних навантажень А: де T — символ транспонування матриці.

Рис. 9.2. Етапи компонентного аналізу

Рис. 9.2. Етапи компонентного аналізу

Рівняння T

АAR=має однозначний розв’язок за умови максимізації дисперсії. Кожна компонента враховує певну частку сумарної дисперсії, яка дорівнює кількості ознак m.

Рівняння T

АAR=має однозначний розв’язок за умови максимізації дисперсії. Кожна компонента враховує певну частку сумарної дисперсії, яка дорівнює кількості ознак m.

У моделі головних компонент немає залишків, тобто апріорі передбачається, що всі m компонент повністю пояснюють сумарну дисперсію ознакової множини. За умови ортогональності компонент квадрат факторного навантаження

2 ij a характеризує внесок j-ї компоненти у варіацію і-ї ознаки. Повний внесок j-ї персію ознакової множини Х можна подати як суму дисперсій компонент ? ? m j

компоненти в сумарну дисперсію m ознак становить ? =? m ijj a

1

2 .

У процесі компонентного аналізу сумарна варіація m первинних ознак х і перерозподіляється між компонентами G j з дисперсіями j ?. Тобто сумарну дискомпоненти в сумарну дисперсію m ознак становить ? =? m ijj a

1

2 .

У процесі компонентного аналізу сумарна варіація m первинних ознак х і перерозподіляється між компонентами G j з дисперсіями j ?. Тобто сумарну дис

1 або через факторні навантаження

Схему декомпозиції сумарної дисперсії ознакової множини Х подано у вигляді матриці (табл. 9.2).

Схему декомпозиції сумарної дисперсії ознакової множини Х подано у вигляді матриці (табл. 9.2).

Таблиця 9.2

ДЕКОМПОЗИЦІЯ СУМАРНОЇ ДИСПЕРСІЇ ОЗНАКОВОЇ МНОЖИНИ

G 1 G 2 G m Дисперсія z i
z 1 2 11 a 2 12 a 2 1m a 1
z 2 2 21 a 2 22 a 2 2m a 1
z 3 2 31 a 2 32 a 2 3m a 1
……

2

2

2 mm a

z m

1

1m a

2m a

Дисперсія G j 1 ? 2 ? m ? m

Аналіз матриці за рядками показує, які компоненти і з якою вагою формують варіацію і-ї ознаки. Кожній ознаці притаманна своя факторна структура. Аналіз матриці за стовпцями показує, які ознаки є індикаторами j-ї компоненти. Компоненти впорядковуються за значеннями дисперсій — перша компонента має найбільшу дисперсію, друга — меншу, остання — найменшу: понент, внесок більшості з них у сумарну варіацію виявляється незначним. Левова частка сумарної варіації припадає на кілька перших компонент. Як свідчить досвід, кількість таких вагомих компонент становить 10—15 % від кіль-

?

1 > ?

2 > ?

3 > ... > ? m . ?

1 > ?

2 > ?

3 > ... > ? m .

Незважаючи на те що замість m ознак визначається така сама кількість ком

кості первинних ознак. Саме вони називаються головними компонентами й підлягають змістовій інтерпретації.

Отже, модель головних компонент трансформує m-вимірний ознаковий проm характеризує повноту факторизації. На практиці задовільним вважають рівень факторизації моделі не менше як 70 %.

стір у р-вимірний простір компонент (р < m). Сумарна дисперсія головних комстір у р-вимірний простір компонент (р < m). Сумарна дисперсія головних компонент менша за сумарну дисперсію ознакового простору. Відношення p j ? ?

1

У термінах матричної алгебри дисперсії компонент j ? — це власні числа кореляційної матриці R. Кожному з них відповідає власний вектор V, який забезпечує рівняння де Е — одинична матриця.

Отже, виокремлення головних компонент є класичним завданням визначення власних чисел ? та власних векторів V кореляційної матриці R. Головними вважаються компоненти, для яких

Отже, виокремлення головних компонент є класичним завданням визначення власних чисел ? та власних векторів V кореляційної матриці R. Головними вважаються компоненти, для яких

• за критерієм Кайзера j ?>1;

• внесок у сумарну дисперсію становить %;10100? ? = m d j j

• повнота факторизації, як зазначалося вище, не менша як 70 %.

Наприклад, для кореляційної матриці

• за критерієм Кайзера j ?>1;

• внесок у сумарну дисперсію становить %;10100? ? = m d j j

• повнота факторизації, як зазначалося вище, не менша як 70 %.

Наприклад, для кореляційної матриці

2,08,01

16,02,0

16,02,0

Отже, факторні навантаження j-ї компоненти не що інше, як її нормований

Сума квадратів факторних навантажень дорівнює власному значенню

Сума квадратів факторних навантажень дорівнює власному значенню

?

1 = 2,1.

Як бачимо, розрахунок головних компонент зводиться до розрахунку власних значень і власних векторів кореляційної матриці R. Слід зауважити також, що власні значення і власні вектори кореляційної матриці залежать від масштабу та одиниць вимірювання ознак. Компонентний аналіз ефективний тоді, коли одиниці вимірювання всіх ознак однакові. Скажімо, структура витрат компанії, структура споживання домогосподарств тощо. В іншому випадку значення ознак Х стандартизують (нормують і центрують).

Практичне використання компонентного аналізу вимагає дотримання певних логіко-статистичних умов, зокрема:

— усі ознаки мають бути кількісними, сукупність — однорідна, а розподіл — симетричний;

— кількість спостережень має перевищувати кількість ознак щонайменше вдвічі. ?

1 = 2,1.

Як бачимо, розрахунок головних компонент зводиться до розрахунку власних значень і власних векторів кореляційної матриці R. Слід зауважити також, що власні значення і власні вектори кореляційної матриці залежать від масштабу та одиниць вимірювання ознак. Компонентний аналіз ефективний тоді, коли одиниці вимірювання всіх ознак однакові. Скажімо, структура витрат компанії, структура споживання домогосподарств тощо. В іншому випадку значення ознак Х стандартизують (нормують і центрують).

Практичне використання компонентного аналізу вимагає дотримання певних логіко-статистичних умов, зокрема:

— усі ознаки мають бути кількісними, сукупність — однорідна, а розподіл — симетричний;

— кількість спостережень має перевищувати кількість ознак щонайменше вдвічі.

Модель компонентного аналізу з певними уточненнями можна поширити на часові ряди, яким властива автокореляція. У такому разі ведеться пошук тих внутрішніх факторів, які визначають не причинно-наслідкові, а супутні зв’язки між показниками, а також синхронність змін різних часових рядів, що зумовлено дією спільних причин їхньої варіації. Це стосується широкого спектра соціально-економічних показників: макроекономічних, ділової активності, ринкової кон’юнктури тощо.


< Попередня  Змiст  Наступна >
Iншi роздiли:
9.3. МЕТОД ГОЛОВНИХ КОМПОНЕНТ У СИСТЕМІ STATISTICA
СТРУКТУРНЕ МОДЕЛЮВАННЯ СКЛАДНИХ КОРЕЛЯЦІЙНИХ ВЗАЄМОЗВ’ЯЗКІВ
10.2. ІНСТРУМЕНТИ СТРУКТУРНОГО МОДЕЛЮВАННЯ В СИСТЕМІ STATISTICA
10.3. АНАЛІТИЧНІ МОЖЛИВОСТІ РЕКУРСИВНОЇ МОДЕЛІ
Частина 1. 8.4. МОДЕЛЮВАННЯ НА ОСНОВІ ПАНЕЛЬНИХ ДАНИХ
8.3. НЕЛІНІЙНА РЕГРЕСІЯ НА ЧАСОВИХ РЯДАХ
8.2. МОДЕЛІ З ЛАГОВИМИ ЗМІННИМИ
БАГАТОФАКТОРНІ ДИНАМІЧНІ МОДЕЛІ
7.5. СТАНДАРТИЗАЦІЯ ЕФЕКТІВ ВПЛИВУ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)