Posibniki.com.ua Статистика Статистичне моделювання та прогнозування МОДЕЛІ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ


< Попередня  Змiст  Наступна >

МОДЕЛІ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ


3.1. Методологічні засади багатовимірної класифікації

3.2. Оцінювання латентних явищ за допомогою інтегральних показників

3.3. Кластерні процедури класифікації

3.3.1. Ієрархічні кластер-процедури

3.3.2. Метод k-середніх

3.4. Модель дискримінантного аналізу

Після вивчення цього розділу студент повинен знати: логіку багатовимірної класифікації; види метрик, за якими здійснюється об’єднання схожих між собою об’єктів в однорідні класи; сферу використання ієрархічних агломеративних кластерпроцедур; правила формування кластерів за принципом k-середніх; сферу використання дискримінантного аналізу; аналітичні можливості реалізованих у системі Statistica модулів кластерного і дискримінантного аналізу; уміти: відповідно до мети статистичного дослідження вибирати метод багатовимірної класифікації; формувати інформаційну базу моделі; оцінювати латентні явища за допомогою інтегральних показників і застосовувати їх для порівняльного аналізу об’єктів; на основі дискримінантної функції ідентифікувати нові об’єкти; здійснювати пошук структури даних методами багатовимірної класифікації з використанням реалізованих у системі Statistica інструментів кластерного і дискримінантного аналізу.

3.1. МЕТОДОЛОГІЧНІ ЗАСАДИ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ

Однією з передумов забезпечення адекватності статистичних моделей реальним процесам є однорідність досліджуваних сукупностей. Лише в однорідній сукупності виявлені закономірності сталі й їх можна застосувати до всіх одиниць сукупності. Поняття однорідності пов’язують із наявністю в усіх одиниць сукупності таких спільних властивостей і рис, які визначають їхню одноякісність, належність до того самого типу. Між тим будь-яка статистична сукупність внутрішньо диференційована. Це зумовлено нерівномірністю розвитку

окремих одиниць сукупності (різний вік, належність до різних поколінь тощо) і своєрідністю умов, у яких вони функціонують (природних, технологічних тощо). За одними ознаками сукупності поділяються на чітко визначені, ізольовані класи (групи, типи), за іншими — межі між окремими складовими розмиті. Багатовимірність об’єктів моделювання ускладнює завдання поділу їх на однорідні групи (класи, таксони, кластери). Ідея класифікації ґрунтується на поняттях подібності і відмінності. Методологічний принцип класифікації містить два фундаментальні положення:

• в один клас об’єднуються подібні, схожі між собою одиниці сукупності;

• ступінь подібності, схожості одиниць, які належать до одного класу, вища, ніж ступінь подібності одиниць, віднесених до різних класів.

Оцінку подібності здійснюють на основі однієї чи кількох ознак, які, на думку експертів, формують «образ класу». У традиційній схемі класифікації ці ознаки ієрархічно впорядковуються за своєю вагомістю. Наприклад, класифікація шахт за гірничо-геологічними умовами виробництва: потужністю пласта, нахилом його залягання, глибиною розробки лав, загазованістю лав тощо. Саме так складається більшість комбінаційних угруповань. На кожному кроці поділу сукупності до уваги береться лише одна ознака, тобто відбувається послідовне формування, покрокове уточнення, більш докладний опис класів. У невеликих за обсягом сукупностях можливості використання такої схеми класифікації обмежені.

Друга схема класифікації використовує множину класифікаційних ознак одночасно. Будь-яка одиниця сукупності, описана множиною ознак, геометрично інтерпретується як точка в багатовимірному просторі, а близькість двох точок розглядається як подібність їх, однорідність. Існують різні варіанти реалізації багатовимірної схеми класифікації. Їх можна об’єднати у два блоки:

• конструювання багатовимірних інтегральних оцінок (індексів, рейтингів), на основі яких здійснюють класифікацію за традиційною схемою;

• автоматична багатовимірна класифікація, коли поняття однорідності задається певними метриками.

Варто зазначити, що класифікація за будь-якою схемою певною мірою суб’єктивна, оскільки результати її визначаються передусім множиною класифікаційних ознак та їхніми розмежувальними властивостями. мації описується m ознаками (х j1 , х j2 , …, х jm ). Вибір класифікаційних ознак ґрунтується на двох гіпотезах щодо первинної інформації.

Кожний j-й об’єкт (j = 1, 2, 3, …, n), що підлягає класифікації, як носій інфор

Кожний j-й об’єкт (j = 1, 2, 3, …, n), що підлягає класифікації, як носій інфор

1. Ознаки відображають найважливіші щодо мети дослідження властивості об’єктів і можуть бути основою поділу сукупності на сегменти. Скажімо, під час вивчення інвестиційної привабливості об’єктів такими ознаками можуть бути техніко-економічні показники, фінансові результати, конкурентні позиції на ринку тощо.

2. Зміна масштабу вимірювання ознак не впливає на результати багатовимірної класифікації. Якщо відібрані на стадії апріорного аналізу ознаки мають різні одиниці вимірювання — натуральні, вартісні, трудові тощо, необхідно за допомогою стандартизації привести їх до одного виду, який би уможливлював формальне зіставлення об’єктів.

Стандартизація означає заміну індивідуальних значень ознак x іj = (x

1j , x

2j , …, x mj ) стандартизованими z ij = (z

1j , z

2j , …, z mj ) зі збереженням наявних між показниками співвідношень. Її здійснюють за допомогою центрування і нормування. стандартизованими z ij = (z

1j , z

2j , …, z mj ) зі збереженням наявних між показниками співвідношень. Її здійснюють за допомогою центрування і нормування.

Стандартизація означає заміну індивідуальних значень ознак x іj = (x

1j , x

2j , …, x mj ) стандартизованими z ij = (z

1j , z

2j , …, z mj ) зі збереженням наявних між показниками співвідношень. Її здійснюють за допомогою центрування і нормування.

Центрування — це заміна індивідуальних значень ознаки відхиленнями від центру (середньої, медіани), нормування — ділення первинних значень ознаки чи відхилень від центру розподілу на певне число (максимальне, мінімальне, середнє чи еталонне значення ознаки, стандартне відхилення, варіаційний розмах тощо).

Наведемо найпоширеніші способи стандартизації: де z ijсереднємінімалi не відхилення і-ї ознаки; (х max x min ) — варіаційний розмах.

Спосіб стандартизації обирають залежно від соціально-економічного змісту та статистичної природи показників. Зазвичай, коли певну множину показників x і об’єднують в інтегральний показник G, перевагу віддають тому способу стандартизації, за яким показник G набуває значень в інтервалі [0 ? 1].

Спосіб стандартизації обирають залежно від соціально-економічного змісту та статистичної природи показників. Зазвичай, коли певну множину показників x і об’єднують в інтегральний показник G, перевагу віддають тому способу стандартизації, за яким показник G набуває значень в інтервалі [0 ? 1].

Про однорідність, подібність j-го і k-го об’єктів сукупності свідчить геометрична їх близькість у вигляді точок стандартизованої ознакової множини z

1 , z

2 , z

3 , …, z m . І навпаки, віддаленість об’єктів один від одного розглядається як несхожість, неоднорідність. Тож однорідність чи неоднорідність досліджуваної сукупності задається певним правилом обчислення метрики, що характеризує ступінь подібності (схожості) j-го і k-го об’єктів сукупності. Для ознак метричної шкали такою метрикою може бути геометрична відстань між об’єктами в багатовимірному ознаковому просторі d(j,k), для ознак номінальної шкали — коефіцієнт спряженості (квантифікований коефіцієнт зв’язку), для бінарних ознак — коефіцієнт асоціативності r jk .

Відстань є фундаментальним поняттям багатовимірної класифікації. Саме відстань дозволяє виміряти близькість (віддаленість) об’єктів і встановити однорідність (неоднорідність) досліджуваної сукупності. Очевидно, що менша відстань між об’єктами, то вони більше схожі, і навпаки. Обчислені на ознаках метричної шкали відстані в більшості своїй не мають обмежень зверху, і значення їх залежать від обраної шкали (масштабу) вимірювання ознак.

Залежно від алгоритму обчислення вирізняють відстані: Евклідову, Хемінгову (Манхеттенську), Чебишева, Мінковського, Махаланобіса та ін.

Евклідова відстань (Euclidеan distances) найбільш популярна й обчислюється за формулою де z ij і z ik — стандартизовані значення і-ї ознаки у j-го та k-го об’єктів сукупності.

Хемінгова відстань (City-block (Manhattan) distances) обчислюється за модулями відхилень, що зменшує вплив окремих великих різниць (викидів) на її величину:

Для дихотомічних (бінарних) ознак Хемінгова відстань — це кількість розбіжностей між значеннями відповідних ознак на j-му і k-му об’єктах.

Для дихотомічних (бінарних) ознак Хемінгова відстань — це кількість розбіжностей між значеннями відповідних ознак на j-му і k-му об’єктах.

Відстань Чебишева (Chebychev distance metric) застосовують тоді, коли необхідно виявити несхожі об’єкти за якоюсь однією координатою: бишева:

Близькі, схожі за обраною метрикою об’єкти вважаються належними до одного типу, однорідними. Вибір метрики є вузловим моментом кластерного аналізу, від якого залежить кінцевий варіант поділу сукупності на класи. Як прик

Близькі, схожі за обраною метрикою об’єкти вважаються належними до одного типу, однорідними. Вибір метрики є вузловим моментом кластерного аналізу, від якого залежить кінцевий варіант поділу сукупності на класи. Як прик

лад обчислимо Евклідову відстань на ознаковій множині m = 5 (табл. 3.1). Згідно з даними d(j,k) =94,0= 0,7. лад обчислимо Евклідову відстань на ознаковій множині m = 5 (табл. 3.1). Згідно з даними d(j,k) =94,0= 0,7.

Таблиця 3.1

ОБЧИСЛЕННЯ ЕВКЛІДОВОЇ ВІДСТАНІ МІЖ ОБ’ЄКТАМИ

Одиниця сукупності Стандартизовані значення і-ї ознаки Разом
z 1j z 2j z 3j z 4j z 5j
j 0,4 0,9 0,3 1,1 0,5 ?
k 0,8 0,6 0,5 0,9 0,7 ?
(z ij – z ik ) 2 0,16 0,09 0,04 0,16 0,04 0,49

Якщо ознаки x i різновагомі і ваги кожної з них w i обґрунтовані, то можна обчислювати зважену Евклідову відстань:

За своєю квадратичною формою Евклідова відстань вписується у традиційні статистичні конструкції, проте на практиці іноді використовують квадрат Евклідової відстані, інші метрики.

За своєю квадратичною формою Евклідова відстань вписується у традиційні статистичні конструкції, проте на практиці іноді використовують квадрат Евклідової відстані, інші метрики.

Особливою метрикою є відстань Махалонобіса, яка узагальнює Евклідові метрики. Розрахунок цієї відстані спирається не лише на вектори точок у багатовимірному просторі, але й на кореляційну матрицю R, яка відображає парні кореляційні зв’язки всіх ознак: де R -1 — матриця, обернена до матриці коефіцієнтів парної кореляції розміром (m ? m); (z ij

— z ik ) T — вектор-стовпчик, транспонований відносно вектора-рядка (z ij

— z ik ) T — вектор-стовпчик, транспонований відносно вектора-рядка (z ij

— z ik ).

Відстані між об’єктами багатовимірного простору формують симетричну матрицю відстаней з нульовими діагональними елементами:

Протилежним до поняття відстані в багатовимірному ознаковому просторі є поняття подібності (близькості) об’єктів. Що менша відстань між об’єктами d(j,k), то більше значення метрики подібності с(j,k), і навпаки. Спираючись на взаємозв’язок між ними, за необхідності можна перейти від однієї метрики до іншої:

Протилежним до поняття відстані в багатовимірному ознаковому просторі є поняття подібності (близькості) об’єктів. Що менша відстань між об’єктами d(j,k), то більше значення метрики подібності с(j,k), і навпаки. Спираючись на взаємозв’язок між ними, за необхідності можна перейти від однієї метрики до іншої:

Очевидно, що метрика подібності змінюється в межах від 0 до 1. Метрики подібності багатовимірного простору, як і метрики відстані, формують симетричну матрицю, але з одиничними діагональними елементами:

Очевидно, що метрика подібності змінюється в межах від 0 до 1. Метрики подібності багатовимірного простору, як і метрики відстані, формують симетричну матрицю, але з одиничними діагональними елементами:

Метрикою відстані між об’єктами, описаними атрибутивними ознаками, слугує коефіцієнт розбіжності (Percent disagreement):

Метрикою відстані між об’єктами, описаними атрибутивними ознаками, слугує коефіцієнт розбіжності (Percent disagreement):

Наприклад, необхідно з’ясувати ставлення споживачів до марки кави. Виділені основні атрибути кави: а) аромат; б) міцність; в) ціна; г) терпкість. Один респондент назвав важливими атрибути: а, б, в; другий — а, б, г. Звідси два атрибути збігаються, один не збігається, тож коефіцієнт розбіжності становить (1 : 4) = 0,25.

Наприклад, необхідно з’ясувати ставлення споживачів до марки кави. Виділені основні атрибути кави: а) аромат; б) міцність; в) ціна; г) терпкість. Один респондент назвав важливими атрибути: а, б, в; другий — а, б, г. Звідси два атрибути збігаються, один не збігається, тож коефіцієнт розбіжності становить (1 : 4) = 0,25.

Для оцінювання ступеня подібності об’єктів, описаних бінарними змінними, використовують різні коефіцієнти асоціативності r jk , розрахунок яких ґрунтується на співвідношенні кількості ознак, значення яких збігаються чи не збіга-

ються. Наприклад, оцінюється якість продукції за m параметрами. Для параметУ табл. 3.2 таких об’єктів два.

ра, що відповідає стандарту, х = 1, для параметра, що не відповідає стандарту, х = 0. Кожний об’єкт характеризується вектором значень параметрів якості. ра, що відповідає стандарту, х = 1, для параметра, що не відповідає стандарту, х = 0. Кожний об’єкт характеризується вектором значень параметрів якості.

Таблиця 3.2

ПЕРВИННІ ДАНІ ДЛЯ РОЗРАХУНКУ КОЕФІЦІЄНТІВ ПОДІБНОСТІ

Об’єкт Параметри якості
АБ В Г ДЕ Ж З
j 110 0 10 10
k 011 0 11 10

Частоти збіжних і незбіжних значень ознак зручно подавати у вигляді 4-клітинкової таблиці (табл. 3.3). У нашому прикладі кількість пар однакових

значень ознаки: одиничних а(1,1) = 3; нульових d(0,0) = 2. Кількість пар ознак, значення яких не збігаються: с(0,1) = 2; b(1,0) = 1. значень ознаки: одиничних а(1,1) = 3; нульових d(0,0) = 2. Кількість пар ознак, значення яких не збігаються: с(0,1) = 2; b(1,0) = 1.

Таблиця 3.3

ЧАСТОТИ ЗБІЖНИХ І НЕЗБІЖНИХ ЗНАЧЕНЬ БІНАРНИХ ОЗНАК

Значення ознаки 10
1 a = 3 b = 1
0 c = 2 d = 2

За умови, що одиничні й нульові ознаки рівновагомі, використовують відношення

Коли значущими вважаються лише одиничні ознаки, то частоту а відносять або до загальної кількості ознак (коефіцієнт Рао), або до загальної кількості одиничних значень (коефіцієнт Джекарда): Іноді важливо надати подвійну вагу одиничним ознакам, скажімо, коли 1 позначає відхилення і-го параметра від нормативу (коефіцієнт Дейка):

Коли значущими вважаються лише одиничні ознаки, то частоту а відносять або до загальної кількості ознак (коефіцієнт Рао), або до загальної кількості одиничних значень (коефіцієнт Джекарда): Іноді важливо надати подвійну вагу одиничним ознакам, скажімо, коли 1 позначає відхилення і-го параметра від нормативу (коефіцієнт Дейка):

У практиці багатовимірного аналізу, крім перелічених, використовують інші коефіцієнти ступеня подібності об’єктів. Значення їхколиваються в межах 0 ? r jk ? 1. Очевидно, що значення коефіцієнтів, розрахованих для тих самих

У практиці багатовимірного аналізу, крім перелічених, використовують інші коефіцієнти ступеня подібності об’єктів. Значення їхколиваються в межах 0 ? r jk ? 1. Очевидно, що значення коефіцієнтів, розрахованих для тих самих

об’єктів за різними формулами, різняться. За даними табл. 3.2 коефіцієнти подібності становлять відповідно: 0,725; 0,275; 0,50; 0,64. Вибір коефіцієнта r jk визначається відносною значущістю одиничних і нульових значень ознак, важливістю порозрядної збіжності чи розбіжності їхніх значень, а отже, певною мірою є суб’єктивним.

Якщо ознакова множина обсягом m різнотипна (q — кількість бінарних ознак, (m – q) — кількість ознак метричної шкали), міра подібності розраховується так:

*** )–( jkjkjk r m qm r m q r+=, *** )–( jkjkjk r m qm r m q r+=, де q a r jk jk = * ( jk a — кількість бінарних ознак, значення яких збігаються в об’єктів з номерами j і k); jk jk dd r + = ** (d

— середня відстань по всіх парах об’єктів; jk d

— відстань Махаланобіса в просторі кількісних ознак).

У дослідженнях багатовимірних об’єктів поряд із проблемою формування однорідних груп часто виникає завдання розпізнання нових об’єктів. У процесі вивчення нових об’єктів щодо кожного з них роблять висновок, чи належить він до вже встановлених груп. Скажімо, для інвестора важливо знати, до якої групи об’єктів — прибуткових чи збиткових — потрапить підприємство-емітент, в акції якого він має намір вкласти кошти. Задля вирішення таких завдань застосовують модель дискримінантного аналізу. jk dd d r + = ** (d

— середня відстань по всіх парах об’єктів; jk d

— відстань де q a r jk jk = * ( jk a — кількість бінарних ознак, значення яких збігаються в об’єктів з номерами j і k); jk jk dd d r + = ** (d

— середня відстань по всіх парах об’єктів; jk d

— відстань Махаланобіса в просторі кількісних ознак).

У дослідженнях багатовимірних об’єктів поряд із проблемою формування однорідних груп часто виникає завдання розпізнання нових об’єктів. У процесі вивчення нових об’єктів щодо кожного з них роблять висновок, чи належить він до вже встановлених груп. Скажімо, для інвестора важливо знати, до якої групи об’єктів — прибуткових чи збиткових — потрапить підприємство-емітент, в акції якого він має намір вкласти кошти. Задля вирішення таких завдань застосовують модель дискримінантного аналізу.


< Попередня  Змiст  Наступна >
Iншi роздiли:
3.3. КЛАСТЕРНІ ПРОЦЕДУРИ КЛАСИФІКАЦІЇ
Частина 1. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
Частина 2. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ТЕНДЕНЦІЙ РОЗВИТКУ
4.2. ТРАНСФОРМАЦІЇ ЧАСОВИХ РЯДІВ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)