Posibniki.com.ua Статистика Статистичне моделювання та прогнозування Частина 1. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ


< Попередня  Змiст  Наступна >

Частина 1. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ


Багатовимірна класифікація, зокрема кластерний аналіз, передують дискримінантному аналізу, становлять його основу (навчальну вибірку). У процесі вивчення нових об’єктів щодо кожного з них роблять висновок, належить чи не належить цей об’єкт до вже встановлених груп.

Серед методів розпізнавання образів особливе місце посідає дискримінантний аналіз. На відміну від кластерного аналізу, дискримінантний не утворює нових класів, а допомагає виявити різницю між наявними класами і віднести новий (нерозпізнаний) об’єкт до одного з них за принципом максимальної схожості. Наприклад, банк, спираючись на певну систему характеристик фінансового стану клієнтів, які звертаються за позиками, класифікує їх на дві категорії — надійні і ненадійні. Дискримінантний аналіз використовують у медичній діагностиці, під час з’ясування ризику відмови приладів у технічних системах тощо. Основне завдання дискримінантного аналізу — визначити таке вирішальне правило, за яким помилка розпізнавання нових об’єктив і віднесення їх до певної категорії (класу) була б мінімальна. Вирішальне правило, за яким здійснюється багатовимірна класифікація нових об’єктів, визначається на основі спеціальних, дискримінантних функцій.

Дискримінантна функція — найчастіше це лінійна комбінація певної множини ознак, які називаються класифікаційними і на основі яких ідентифікуються класи. Особливість дискримінантної функції в тому, що класи подаються n — обсяг сукупності. Функціонально пов’язані та висококорельовані ознаки до ознакової множини моделі не включаються. де а іj — коефіцієнт функції (змістової інтерпретації не має); ij x — середнє значення і-ї ознаки у j-му класі.

шкалою найменувань, а класифікаційні ознаки х і , де і = 1, 2, …, m, вимірюються метричною шкалою. Кількість останніх не може перевищувати (n – 2), де шкалою найменувань, а класифікаційні ознаки х і , де і = 1, 2, …, m, вимірюються метричною шкалою. Кількість останніх не може перевищувати (n – 2), де

Дискримінантну функцію f j визначають для кожного j-го класу (j = 1,2, …, p):

Дискримінантну функцію f j визначають для кожного j-го класу (j = 1,2, …, p): mjmjjjjjjj xaxaxaaf++++=...

22110 , mjmjjjjjjj xaxaxaaf++++=...

22110 ,

Параметри функції а іj визначаються так: m де b ik — елемент матриці, оберненої до внутрішньогрупової матриці сум попарp n j m

У геометричній інтерпретації f j — це уявна точка m-вимірного Евклідового простору, координатами якої є середні значення класифікаційних ознак j-го класу. Значення f j для p класів розглядають як центри їх тяжіння і називають центроїдами.

У геометричній інтерпретації f j — це уявна точка m-вимірного Евклідового простору, координатами якої є середні значення класифікаційних ознак j-го класу. Значення f j для p класів розглядають як центри їх тяжіння і називають центроїдами.

Процедура класифікації ґрунтується на геометричній близькості h-ї одиниці (з координатами значень ознак х ih ) до центроїдів зазначених класів. Належність її до того чи іншого класу визначають на основі відстані Махаланобіса, яку можна записати так:

Дискримінантна функція максимізує різницю між класами й мінімізує дисперсію всередині класу. Критерієм оптимального поділу сукупності на класи є максимум відношення міжкласової варіації до внутрішньокласової.

Дискримінантна функція максимізує різницю між класами й мінімізує дисперсію всередині класу. Критерієм оптимального поділу сукупності на класи є максимум відношення міжкласової варіації до внутрішньокласової.

2 к ff j ? , а внутрішньокласову — середній квадрат відстаней між точками, що належать j-у класу, і центроїдами цих класів: p n j де n j

Міжкласову варіацію характеризує квадрат різниці центроїдів ()

— кількість одиниць j-го класу.

— кількість одиниць j-го класу.

Отже, критерій оптимального поділу на класи можна подати відношенням f яке називають узагальненою міжкласовою відстанню Махаланобіса.

Для оцінки спроможності дискримінантної функції розпізнавати класи в багатовимірному ознаковому просторі використовують також ?-статистику Уілкса (WilksLambda): де ? j — власні значення матриці коваріацій. ?-статистика враховує як відмінності між класами, так і однорідність кожного класу. Оскільки ? розраховується як обернена величина, то чим більше розрізняються центроїди, тим менше її значення, і навпаки, якщо центроїди збігаються, то ? прямує до 1. Отже, близькі до 0 значення ? свідчать про високу розпізнавальну спроможність дискримінантної функції. Істотність різниці зна-

Для оцінки спроможності дискримінантної функції розпізнавати класи в багатовимірному ознаковому просторі використовують також ?-статистику Уілкса (WilksLambda): де ? j — власні значення матриці коваріацій. ?-статистика враховує як відмінності між класами, так і однорідність кожного класу. Оскільки ? розраховується як обернена величина, то чим більше розрізняються центроїди, тим менше її значення, і навпаки, якщо центроїди збігаються, то ? прямує до 1. Отже, близькі до 0 значення ? свідчать про високу розпізнавальну спроможність дискримінантної функції. Істотність різниці зна-

чень центроїдів перевіряється також за допомогою критерію ?? чи дисперсійного F-критерію, які функціонально пов’язані з ?-статистикою.

У системі Statistica процедури дискримінантного аналізу об’єднані в модулі Discriminant Analysis

— Дискримінантний аналіз, який міститься в блоці Multivariate Exploratory Techniques

— Багатовимірні дослідницькі методи. У стартовому вікні Discriminant Function Analysis (рис. 3.12) необхідно:

— визначитися з ознаковою множино (Variables);,

— вибрати класифікаційну (Grouping) і незалежні (Independent) ознаки;

— вказати коди груп (Codes for grouping variable).

За командою на виконання процедури дискримінації відкривається вікно Discriminant Function Analysis Results, у функціональній частині якого вказується кількість ознак, значення критерію F і ?-статистики.

Порядок використання модуля розглянемо на умовному прикладі професійної психодіагностики, методика якої передбачає дискримінацію претендентів на заміщення вакансій на дві групи: відповідають вимогам професії (група С) і не відповідають (група NC). Діагностичні ознаки: Var2 — оперативна пам’ять, Var3 — концентрацiя уваги. Значення цих ознак у балах наведено в табл. 3.11.

Таблиця 3.11

РЕЗУЛЬТАТИ ПРОФЕСІЙНОЇ ПСИХОДІАГНОСТИКИ ПРЕТЕНДЕНТІВ

НА ЗАМІЩЕННЯ ВАКАНСІЙ

Претендент Var1 Var2 Var3
1 C 72 75
2 C 57 70
3 C 59 62
4 C 67 72
5 C 75 59
6 C 62 73
7N C 67 50
8N C 56 59
9N C 58 54
10 NC 47 60

У стартовому вікні модуля проведемо селекцію ознак: ідентифікатор груп (grouping variable) — Var1; незалежні ознаки (independent variables) — Var2 і Var3; метод аналізу — Standard, за яким усі обрані ознаки одночасно включаються до моделі.

Рис. 3.12. Стартове вікно дискримінантного аналізу

Подальший аналіз необхідно здійснювати за командами діалогового вікна Discriminant Function Analysis Results (рис. 3.13). В інформаційній частині діалогового вікна вказується кількість класифікаційних ознак, значення ?-статистики (WilksLambda) і пов’язаного з нею F-критерію, а також фактичний ріщо поділ сукупності на групи статистично надійний.

вень істотності р-level. Зважаючи на значення наведених характеристик (? = 0,270; F(2,7) = 9,456; p-level < 0,0102), з імовірністю 0,99 можна стверджувати, вень істотності р-level. Зважаючи на значення наведених характеристик (? = 0,270; F(2,7) = 9,456; p-level < 0,0102), з імовірністю 0,99 можна стверджувати,

Функціональна частина діалогового вікна містить три вкладки: Quick, Advanced і Classification. Задля обмеження використання лінійно залежних ознак у вкладках Quick і Advanced за настановою Summary: Variables in the model програма видає результати перевірки толерантності (tolerance) кожної ознаки. У першому стовпчику наведено значення WilksLambda, які є результатом виключення відповідної ознаки з моделі. Що більше значення ?, то більш бажаною є наявність цієї ознаки в процедурі дискримінації. Значення Partial Lambda (частинна лямбда) характеризує внесок відповідної змінної в дискримінаційну потужність моделі. Чим менше значення цієї статистики, тим більший внесок у загальну дискримінацію. Як видно з даних табл. 3.12, більший внесок у процедуру дискримінації претендентів дає Var3 — концентрацiя уваги. Значення критерію F-remore і рівень його істотності p-level пов’язані з відповідною WilksLambda.

Рис. 3.13. Меню результатів дискримінантного аналізу, вкладка Advanced

2 і ), де R

2 і — коефіцієнт детермінації і-ї ознаки з іншими, включеними до моделі ознаками. Очевидно, чим вищий показник толерантності, тим більш незалежною від інших ознак є і-та ознака, і навпаки, за наявності мультиколінеарності (1 — R

Оцінкою ступеня толерантності і-ї ознаки слугує (1 – R

2 і ) прямує до нуля. Результати перевірки свідчать про досить високий рівень толерантності

включених до дискримінаційної моделі ознак (1 — R

2 і = 0,859) і низький рівень мультиколінеарності (R

2 і = 0,141), що вказує на придатність дискримінантної функції. мультиколінеарності (R

2 і = 0,141), що вказує на придатність дискримінантної функції. включених до дискримінаційної моделі ознак (1 — R

2 і = 0,859) і низький рівень мультиколінеарності (R

2 і = 0,141), що вказує на придатність дискримінантної функції.

Таблиця 3.12

ОЦІНКА СТУПЕНЯ ТОЛЕРАНТНОСТІ ОЗНАК

Wilks Partial F-remove

У модулі Discriminant Analysis передбачена нижня межа толерантності (за умовчанням 0,01), вихід за яку сигналізує про високу мультиколінеарність ознак. При цьому з’являється повідомлення системи «мінімальна толерантність

менше встановленої межі» і подальші розрахунки за процедурою Standard припиняються. У такому разі слід застосувати процедуру покрокового включення ознак (Forward stepwise) чи виключення (Backward stepwise) з одночасним тестуванням толерантності кожної ознаки, яка включається до моделі. Крім того, слід зауважити, що процедура дискримінації передбачає наявність у кожній групі не менш як двох об’єктів, у разі порушення цієї вимоги програма повідомляє про неможливість розрахунків.

Для подальшого аналізу повернімося у вікно Discriminant Function Analysis Results і активуємо вкладку Classification (класифікація). Опції дискримінантної функції аналізу результатів наведено на рис. 3.14. Розглянемо їхнє аналітичне призначення.

Рис. 3.14. Меню результатів дискримінантного аналізу, вкладка Classification Classification Functions — це лінійні функції класифікації спостережень. Значення параметрів дискримінантної фукції по кожному з виділених класів наведено в табл. 3.13:

Таблиця 3.13

ПАРАМЕТРИ ДИСКРИМІНАНТНОЇ ФУНКЦІЇ

Classification Functions; grouping: VAR1 (new.sta)
CN C
p=,60 p=,40
VAR2 1,987 1,694
VAR3 2,969 2,454
Constant –167,0933 –117,593

Classification matrix (матриця класифікації) містить інформацію про кількість і проценти правильно класифікованих спостережень у кожній групі. Так, у групі С із шести спостережень неправильно класифіковане одне, в групі NC

— таких спостережень немає. Які саме спостереження неправильно класифіковані, позначені * в опції Classification of cases (класифікація спостережень). У табл. 3.14 таким спостереженням є № 3.

Таблиця 3.14

КЛАСИФІКАЦІЯ СПОСТЕРЕЖЕНЬ

Опція Squared Mahalanobis Distances (квадрати відстаней Махаланобіса) видає таблицю відстаней окремих спостережень до центроїдів груп (табл. 3.15). Ці відстані аналогічні квадратам Евклідових відстаней, але враховують кореляції між ознаками в рамках моделі. Спостереження належить до тієї групи, квадрат відстані до центроїда якої найменший. Наприклад, перше спостереження нале

жить до групи С, оскільки 3,180 < 22,786, а сьоме — до групи NC, оскільки 11,077 > 2,004.жить до групи С, оскільки 3,180 < 22,786, а сьоме — до групи NC, оскільки 11,077 > 2,004.

Таблиця 3.15

КВАДРАТИ ВІДСТАНЕЙ МАХАЛАНОБІСА ДО ЦЕНТРОЇДІВ ГРУП Іноді метою дискримінантного аналізу є не віднесення спостережень до того чи іншого класу, а визначення апостеріорних імовірностей належності до цих класів. Результати такого аналізу дає опція Posterior Probabilities (апостеріорні імовірності). Очевидно, що спостереження буде приписано до того класу, до якого апостеріорна імовірність класифікації найбільша (табл. 3.16).

Таблиця 3.16

АПОСТЕРІОРНІ ЙМОВІРНОСТІ НАЛЕЖНОСТІ СПОСТЕРЕЖЕНЬ

ДО ВІДПОВІДНОГО КЛАСУ

Отже, за даними розглянутого прикладу дискримінантна функція виявилася спроможною визначити професійно придатних осіб з мінімальною ймовірністю

помилки. Частка правильно класифікованих спостережень становить 90 %. Це дає підстави розглядати можливість класифікації нових спостережень.

Нові, нерозпізнані об’єкти належать до того класу, для якого індивідуальні значення дискримінантної функції більші. Скажімо, у нашому прикладі новий претендент на заміщення вакансії набрав 65 балів за тестом «оперативна пам’ять» і 68 балів — за тестом «концентрація уваги». Підставим його координати в обидві класифікаційні функції: Індивідуальні значення дискримінантної функції за таких балів становлять: для групи С — 163,957, для групи NC —159,39. Оскільки перше значення функції більше, то претендент належить до групи С.

Розглянуту процедуру класифікації можна використати й тоді, коли кількість

Розглянуту процедуру класифікації можна використати й тоді, коли кількість

класів m > 2; важливо, щоб кількість одиниць у кожному класі була не менше 2. класів m > 2; важливо, щоб кількість одиниць у кожному класі була не менше 2.

РЕЗЮМЕ

Однією з передумов статистичного моделювання є однорідність об’єктів моделювання. Лише в однорідній сукупності виявлені закономірності сталі й їх можна застосувати до всіх одиниць сукупності. Серед форм неоднорідності сукупностей соціально-економічних явищ найбільш поширена їх внутрішня розшарованість. Це зумовлено нерівномірністю розвитку окремих одиниць сукупності (різний вік, належність до різних поколінь тощо) і своєрідністю умов, в яких вони функціонують (природних, технологічних тощо). Одні сукупності поділяються на чітко визначені, ізольовані класи (групи, типи), іншим властива латентна, прихована структура.

Латентні явища неможливо виміряти безпосередньо (конкурентоспроможність продукції, інвестиційна привабливість об’єкта, рівень життя населення регіону тощо), вони виявляються певною множиною ознак-симптомів x i , тож кількісно оцінити їхню величину можна лише побічно агрегуванням ознак-симптомів x i в одну інтегральну оцінку G j . Така оцінка геометрично інтерпретується як точка в багатовимірному просторі, координати якої вказують на масштаб або позицію j-ї одиниці.

Під час формування ознакової множити латентного явища важливо забезпечити інформаційну односпрямованість показників х і . Задля цього показники подiляють на стимулятори і дестимулятори. Зв’язок між оцінкою G j і показником-стимулятором x st прямий, між оцінкою G j і показником-дестимулятором x dst — обернений. При об’єднанні ознак дестимулятори необхідно перетворити на стимулятори.

На основі інтегральної оцінки можна ранжирувати об’єкти, виділити серед них лідерів і аутсайдерів, що в сучасних умовах набуває особливої актуальності

(вибір перспективних ділових парнерів, пошук оптимальної кон’юнктурної позиції на ринку тощо). Існує безліч варіантів побудови інтегральних оцінок, серед них на особливу увагу заслуговує таксономічний показник, який на відміну від інших інтегральних оцінок визначає позицію j-го об’єкта у стандартному для всіх ознак-симптомів діапазоні варіації та з однаковими координатами еталона чи антиеталона. Саме такий спосіб розрахунку інтегрального показника уможливлює порівняльний аналіз об’єктів за рівнем розвитку латентного явища як у просторі, так і в часі.

Кластерний аналіз (кластеризація) — це багатовимірна статистична процедура, основне завдання якої — формування однорідних груп у сукупності об’єктів (спостережень). Мета кластерного аналізу полягає в пошуку наявних структур, що виражається в утворенні груп схожих між собою об’єктів — кластерів. Алгоритми кластеризації дозволяють здійснити послідовний поділ сукупності об’єктів за певним правилом. Інформаційною базою кластерного аналізу на ознаках метричної шкали є матриця відстаней розміром n ? n з нульовими діагональними елементами. Очевидно, чим менша відстань між об’єктами, тим вони більше схожі, і навпаки. На практиці застосовують різні метрики відстаней: Евклідова, Манхеттенська, Чебишева, Махалонобіса D 2 та ін.

Близькі, схожі за обраною метрикою об’єкти вважаються належними до одного типу, однорідними. Вибір метрики є вузловим моментом кластерного аналізу, від якого залежить кінцевий варіант поділу сукупності на класи. Послідовність об’єднання кластерів можна подати візуально у вигляді деревовидної діаграми — дендрограми.

На відміну від ієрархічної процедури, яка вимагає розрахунку і збереження матриці відстаней чи подібності, ітераційна процедура методом k-середніх реалізує ідею утворення груп за принципом найближчого центру. При цьому формуються кластери одного рангу, ієрархічно не підпорядковані. Метод k-середніх передбачає, що класифікаційні ознаки неперервні, кількість кластерів визначена а priori, а алгоритм кластеризації дозволить віднайти ці кластери так, щоб вони максимально різнилися один від одного.

Незважаючи на цільові настанови, тип первинних даних і застосований алгоритм, можна окреслити п’ять кроків багатовимірної класифікації: вибір сукупності для кластеризації; обґрунтування ознакової множини; вибір метрики; застосування методу кластерного аналізу для формування однорідних груп; перевірка істотності результатів класифікації. У системі Statistica методи кластерного аналізу реалізовані в модулі Cluster Analysis.

Серед методів розпізнавання образів особливе місце посідає дискримінантний аналіз. Дискримінантна функція — це лінійна комбінація певної множини ознак, які називаються класифікаційними і на основі яких ідентифікуються класи. Особливість дискримінантної функції полягає в тому, що класи подаються шкалою найменувань, а класифікаційні ознаки вимірюються метричною шкалою. На відміну від кластерного аналізу, дискримінантний не утворює нових класів, а допомагає виявити різницю між наявними класами і віднести новий (нерозпізнаний) об’єкт до одного з них за принципом максимальної схожості.

ПИТАННЯ І ЗАДАЧІ ДЛЯ САМОПІДГОТОВКИ

1. Поясніть сутність і методологічні принципи багатовимірної класифікації.

2. Чому відстань є фундаментальним поняттям багатовимірної класифікації?

3. За наведеними даними визначте Евклідові відстані між регіонами за рівнем розвитку ринку праці, складіть матрицю відстаней.

Регіон Стандартизовані значення показників
рівень зайнятості населення середня тривалість безробіття навантаження на одну вакансію навчено новим професіям
А 1,15 –0,16 0,72 0,26

Б–0,36–0,430,580,27

В 0,64 1,02 1,45 0,38

4. Як оцінюють подібність об’єктів на основі бінарних ознак?

5. За даними про відповідність окремих параметрів робочого місця нормативам («1» — відповідає, «0» — не відповідає) обчисліть попарні міри подібності, на їх основі складіть матрицю подібності. Обґрунтуйте, яку міру подібності доцільно використати.

Робоче місце

Параметри робочого місця

1234

Шум 011 1
Температура 010 1

Загазованість1110

Освітленість 100 1

6. Яка аналітична функція покладається на інтегральні показники?

Поясніть методологічні засади розрахунку цих показників.

7. Визначте рейтинги країн за рівнем економічного розвитку. Обґрунтуйте вибір узагальнюючої оцінки і спосіб стандартизації показників. Класифікуйте показники на стимулятори і дестимулятори.

Країна ВВП на кг енерговитрат Норма інвестицій, % Рівень безробіття,% Державний борг, % до ВВП

А4,2251428

Б 1,6 30 10 56
В 0,9 28 15 45

8. Визначте рейтинги конкурентоспроможності країн, класифікуйте показники на стимулятори і дестимулятори. Обґрунтуйте спосіб стандартизації показників.

Країна Покриття валютними резервами імпорту, тижнів Борг, % до експорту Обслуговування боргу, % до бюджетних надходжень
А 2,41 53 ,5
Б 2,72 84 ,0
В 2,21 65 ,2
Ваговий коефіцієнт 0,50 0,30 0,20

9. Структура заборгованості суб’єктів господарської діяльності регіону А з партнерами з інших регіонів характеризується даними, %:

Заборгованість Партнери з регіону
БВГ Д
Дебіторська 2,8 2,8 2,7 2,4
Кредиторська 2,9 2,6 2,8 2,6

Оцініть рівень фінансової дисципліни суб’єктів господарської діяльності регіону А щодо партнерів з інших регіонів, зробіть висновки.

10. Поясніть особливості розрахунку таксономічного показника.

11. За допомогою таксономічного показника оцініть рівень розвитку малого підприємництва в регіонах. У таблиці наведено стандартизовані значення показників: z

1 — кількість малих підприємств на 10 000 наявного населення; z

— середньомісячна заробітна плата одного найманого працівника; z

2

3 — обсяг валових капітальних інвестицій.

Показник А Б В
z 1 0,56 0,37 0,51
z 2 0,08 0,13 0,38
z 3 1,45 0,22 0,72

< Попередня  Змiст  Наступна >
Iншi роздiли:
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ТЕНДЕНЦІЙ РОЗВИТКУ
4.2. ТРАНСФОРМАЦІЇ ЧАСОВИХ РЯДІВ
4.3. ТИПИ ТРЕНДОВИХ МОДЕЛЕЙ
4.4. МОДЕЛЮВАННЯ ПРОЦЕСІВ З НАСИЧЕННЯМ
МОДЕЛІ КОРОТКОСТРОКОВОГО ПРОГНОЗУВАННЯ ДИНАМІЧНИХ ПРОЦЕСІВ ТА СЕЗОННИХ КОЛИВАНЬ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)