< Попередня  Змiст  Наступна >

2.4. ТАБЛИЦІ КРОСТАБУЛЯЦІЇ


Таблиці частот, складені за двома і більше ознаками, називають таблицями кростабуляції (спряженості) — Сrosstabulation tables. Зазвичай групувальні ознаки атрибутивні або дискретні з невеликою кількістю градацій. Якщо групувальна ознака неперервна, скажімо, доходи домогосподарств, перш ніж складати таблицю, необхідно перекодувати ознаку, розбивши діапазон її варіації на кілька інтервалів: низький, середній, високий. У таблиці за двома ознаками в рядках розміщуються значення першої ознаки, у стовпчиках — другої ознаки. У клітинках таблиці на перетині рядків і стовпчиків записується кількість спостережень за комбінацією ознак (табл. 2.16), в останньому рядку і в останньому стовпчику таблиці — загальна кількість спостережень відповідно по рядках і стовпчиках. Через те, що ці підсумки розміщені по краях таблиці, їх називають маргінальними частотами.

Відмінності в розподілі частот по рядках (частот умовного розподілу) і відповідними маргінальними частотами вказують на наявність стохастичного зв’язку між ознаками. Чим помітніші ці відхилення, тим щільніший зв’язок між ознаками.

Таблиця 2.16

МАКЕТ ТАБЛИЦІ КРОСТАБУЛЯЦІЇ

На противагу уявленню про взаємозв’язок ознак, перевірці піддається гіпотеза про їхню незалежність критерію Пірсона

2 ? , яка визначається на основі розподілу частот у таблиці кростабуляції: чне, нульова гіпотеза про відсутність стохастичного зв’язку відхиляється. З імовірністю 0,95 зв’язок між ознаками визнається істотним.

2 ? , яка визначається на основі розподілу частот у таблиці кростабуляції: чне, нульова гіпотеза про відсутність стохастичного зв’язку відхиляється. З імовірністю 0,95 зв’язок між ознаками визнається істотним.

Слід зазначити, що величина 2 ? лише вказує на наявність зв’язку, а оцінюють його силу за допомогою коефіцієнтів взаємної спряженості С, серед яких коефіцієнт спряженості Крамера: де min m — мінімальна кількість груп за тією чи іншою ознакою ( x mабо y m ). зв’язку 1?C.

Слід зазначити, що величина 2 ? лише вказує на наявність зв’язку, а оцінюють його силу за допомогою коефіцієнтів взаємної спряженості С, серед яких коефіцієнт спряженості Крамера: де min m — мінімальна кількість груп за тією чи іншою ознакою ( x mабо y m ). зв’язку 1?C.

У практиці статистичних досліджень часто доводиться аналізувати взаємозв’язки між бінарними ознаками, що мають протилежні, взаємозаперечні характеристики. У такому разі складають таблиці розміром 2?2 — Two-way tables. Відносною мірою щільності зв’язку в таблиці 2?2 є коефіцієнт контингенції, за змістом ідентичний коефіцієнту взаємної спряженості й функціонально пов’язаний із

У практиці статистичних досліджень часто доводиться аналізувати взаємозв’язки між бінарними ознаками, що мають протилежні, взаємозаперечні характеристики. У такому разі складають таблиці розміром 2?2 — Two-way tables. Відносною мірою щільності зв’язку в таблиці 2?2 є коефіцієнт контингенції, за змістом ідентичний коефіцієнту взаємної спряженості й функціонально пов’язаний із

2 ? :

Для складання таблиць кростабуляцій у модулі Basic Statistics / Tables передбачена процедура Tables and banners. У діалоговому вікні методу Crosstabula-tion Тables (рис. 2.18) за настановою Specity tables (select variables) необхідно ввести імена ознак для аналізу, розмістивши їх за списками, а за настановою Use selected grouping codes only — вказати коди груп.

Рис. 2.18. Діалогове вікно метода Crosstabulation Тables

За командою на виконання відкривається діалогове вікно Crosstabulation Тables Results, яке містить три вкладки: Quick, Advаnced та Options (рис. 2.19). Деталі виводу таблиці визначаються параметрами в полі Compute tables на вкладці Options. Розглянемо їхнє функціональне призначення.

Вкладка Advаnced містить дві настанови: Summary: Review summary tables — видає підсумкову таблицю кростабуляції за двома і більше групувальними ознаками; групи за останньою ознакою розміщені по стовпчиках, решта — по рядках (табл. 2.18). Detailed two-way tables — таблиці результатів кростабуляції за двома ознаками (таблиці розміром 2?2). За настановою Display long text labels програма відображає довгі позначки ознак у першому стовпчику таблиці результатів.

Для візуалізації кроскореляцій передбачені Сategorized histograms — категорізовані гістограми, Interaction plots of frequencies — графіки взаємозв’язку частот і 3D histograms.

Рис. 2.19. Діалогове вікно Crosstabulation Тables Results, вкладка Advаnced

Вкладка Options — Опції містить настанови в Compute tables, які визначають параметри виведення результатів кростабуляції, і статистики для таблиць розміру 2?2

— Statistics for two-way tables (рис. 2.20).

Серед настанов в Compute tables :

• розрахунок теоретичних частот (Еxpected frequencies), які були б за умови незалежності групувальних ознак, і відповідних їм залишкових частот (Resi-dual frequencies);

• розрахунок часток розподілу в процентах: а) від загальної кількості спостережень (Percentages of total count); б) відносно кількості спостережень у відповідному рядку (Percentages of row counts); в) відносно кількості спостережень у відповідному стовпчику (Percentages of column counts).

Якщо не встановлено прапорця на Display selected %`s in sep.tables, то проценти будуть виведені в тих же таблицях, що й частоти.

У меню настанов Statistics for two-way tables реалізовані критерії для перевірки істотності зв’язку між двома ознаками: критерій Пірсона ?? — Pearson & M-L Chi-square, ?? з поправкою Йєтса для таблиць 2 ? 2 з невеликою кількістю спостережень (Yates), коефіцієнт Крамера (Cramer’s), коефіцієнт контингенції (Contingency coefficient) та ін. Доступні також коефіцієнти

рангової кореляції Спірмена (Spearman rank order correlation), Кендала (Kendall’s tau-b & tau-c) та ін.

Рис. 2.20. Crosstabulation Тables Results, вкладка Options

Розглянемо методику складання й аналізу таблиць кростабуляцій за даними опитування 50 трудових мігрантів. Фрагмент файлу даних наведено в табл. 2.17: Var1 — стать: М — чоловіки, F

— жінки; Var2 — форма трудового договору: Р — письмова, U

— усна; Var3 — статус зайнятості в країні перебування: група А — наймані працівники підприємств, установ, організацій; група В — наймані працівники в домогосподарствах; Var4 — частка витрат на проживання, у % до заробітку: L — низька (до 20 %), S — середня (20—40 %), H — висока (40 % і більше).

Таблиця 2.17

ФРАГМЕНТ ФАЙЛУ ДАНИХ ОПИТУВАННЯ ТРУДОВИХ МІГРАНТІВ

№ зп VAR1 VAR2 VAR3 VAR4
1 МР А S
2F U B L
3F РА S
4 МР А L
………
50 МР А H

Складемо таблицю кростабуляції за трьома групувальними ознаками: формою трудового договору, статусом зайнятості в країні перебування і витратами

на проживання. Послідовність команд: Tables and banners ? Specity tables ? ? вибираємо ознаки для аналізу (Var2 — Var4) і кожну з них розміщуємо у відповідному списку (першому, другому і третьому) ? Use selected grouping codes only ? встановлюємо коди Codes ? Summary: Review summary tables.

Результати кростабуляції наведено в табл. 2.18. Таблиця містить одно-, дво- і тривимірні підмножини, аналіз яких дозволяє встановити наявність (відсутність) взаємозв’язків між групувальними ознаками.

Таблиця 2.18

РОЗПОДІЛ ТРУДОВИХ МІГРАНТІВ ЗА ФОРМОЮ ТРУДОВОГО ДОГОВОРУ,

СТАТУСОМ ЗАЙНЯТОСТІ І ВИТРАТАМИ НА ПРОЖИВАННЯ

За даними таблиці видно, що письмова форма трудового договору переважає в найманих працівників підприємств, установ, організацій, усна — у найманих працівників, що працюють у домогосподарствах. Основна маса респондентів (33 із 50) витрачає на проживання 20—40 % від заробітку (група S), дев’ять респондентів вдаються до режиму найсуворішої економії (група L), значні витрати (група Н) у поєднанні зі стабільним правовим статусом (РА) вказують на виразнішу орієнтацію цих респондентів на тривале проживання за кордоном.

За даними таблиці видно, що письмова форма трудового договору переважає в найманих працівників підприємств, установ, організацій, усна — у найманих працівників, що працюють у домогосподарствах. Основна маса респондентів (33 із 50) витрачає на проживання 20—40 % від заробітку (група S), дев’ять респондентів вдаються до режиму найсуворішої економії (група L), значні витрати (група Н) у поєднанні зі стабільним правовим статусом (РА) вказують на виразнішу орієнтацію цих респондентів на тривале проживання за кордоном.

Для візуалізації кростабуляцій найчастіше застосовують категоріальні гістограми. Суть їх полягає в тому, що на кожному рівні однієї групувальної ознаки подаються розподіли інших ознак у вигляді індивідуальних гістограм. Наскільки суттєво різняться розподіли між різними категоріями, можна оцінити за допомогою спеціальних статистичних критеріїв, зокрема критерію ??.

На рис. 2.21 подано категоріальні гістограми розподілу трудових мігрантів за часткою витрат на проживання (Var4) залежно від статусу зайнятості в країні перебування (Var3). Гістограми розподілу підтверджують, що кількість осіб, котрі вдаються до суворої економії, в групі А порівняно з групою В менша, натомість група з відносно високим рівнем витрат на проживання Н — помітно більша.Categorized Histogram: Var3 x Var4 Var4 No of obs Var3: A LSH

0

2

4

6

8

10

12

14

16

18

20 Var3: B LSH

Рис. 2.21. Категоризовані гістограми розподілу трудових мігрантів

Оцінювання зв’язку між ознаками ґрунтуються на порівнянні групових частот із маргінальними. Такі порівняння можна проводити на основі відносних частот, тобто часток (у %). Щоб у таблиці кростабуляції замінити частоти частками, необхідно на вкладці Options встановити прапорець на одній з опцій Percentages…, а в діалоговому вікні Crosstabulation Тables Results — активізувати настанову Display selected %’s in sep. Tables. Команда на виконання — Detailed two-way tables.

У табл. 2.19 наведені таблиці розміром 2?2 з процентами розподілу трудових мігрантів по рядках а) і стовпцях б).

Таблиця 2.19

РОЗПОДІЛ ТРУДОВИХ МІГРАНТІВ ЗА ФОРМОЮ ТРУДОВОГО ДОГОВОРУ І СТАТУСОМ ЗАЙНЯТОСТІ В КРАЇНІ ПЕРЕБУВАННЯ

2-Way Summary Table: Percentages of Row Totals (Мігранти) а)

2-Way Summary Table: Percentages of Column Totals (Мігранти) б) Percentages of Row Totals Var2Var3 A Var3 B Row Totals P71,43%28,57%56,00% U13,64%86,36%44,00% All Grps46,00%54,00% Percentages of Column Totals Var2Var3 A Var3 B Row Totals P86,96%29,63%56,00% U13,04%70,37%44,00% All Grps46,00%54,00%

Таблиця 2.20

ЗНАЧЕННЯ КРИТЕРІЇВ ПІРСОНА ??

Обидва розподіли свідчать про наявність зв’язку між формою трудового договору і статусом зайнятості трудових мігрантів у країні перебування. Значення 0,00005 і 0,00002 відповідно, підтверджують істотність зв’язку (табл. 2.20).

Обидва розподіли свідчать про наявність зв’язку між формою трудового договору і статусом зайнятості трудових мігрантів у країні перебування. Значення 0,00005 і 0,00002 відповідно, підтверджують істотність зв’язку (табл. 2.20).

критерію Пірсона ?? — Pearson Chi-square & M-L Chi-square, для яких р = критерію Пірсона ?? — Pearson Chi-square & M-L Chi-square, для яких р =

РЕЗЮМЕ

Розвідувальний аналіз даних — перший і надзвичайно важливий етап статистичного моделювання. На цьому етапі формується уявлення про тип даних, з’ясовується структура даних, визначаються взаємозв’язки між даними і здійснюється попередній вибір методів аналізу. Основні завдання розвідувального аналізу такі:

— обґрунтувати множину ознак, за допомогою дескриптивних статистик описати й узагальнити основні властивості об’єкта моделювання;

— здійснити частотний аналіз сукупності, перевірити узгодженість емпіричного розподілу з нормальним;

— перевірити гіпотези щодо окремих параметрів і характеру розподілу сукупності за ознаками, що вивчаються;

— виміряти кореляційні зв’язки між ознаками.

Фундаментом розвідувального аналізу є вибір ознак, які найбільш адекватно відображають образ об’єкта моделювання й підлягають аналізу. Ця процедура ґрунтується на певній сумі професійних знань про інформативність кожної ознаки і структури зв’язків між ними.

Однією з умов статистичного моделювання є однорідність сукупності. Лише в однорідній сукупності виявлені закономірності сталі й їх можна застосувати до всіх одиниць сукупності. Неоднорідність даних виявляється по-різному: асиметричністю розподілу, наявністю викидів, належністю спостережень до різних класів.

За наявності викидів їх можна вилучити з подальшого аналізу або застосувати стійкі до викидів (робастні) статистичні методи. Прийняття об’єктивного рішення щодо вилучення підозрілого спостереження з подальшого аналізу передбачає перевірку його нетиповості за допомогою критеріїв математичної статистики.

Проблема неоднорідності даних може виникнути також у структурованій сукупності, яка об’єднує дві і більше складові. Завдання розвідувального аналізу — відповісти на питання, чи правомірно це об’єднання, чи кожна складова

має свою специфіку, а отже, аналізувати їх треба окремо. У разі двох складових для перевірки однорідності даних використовують t-критерій Стьюдента. Якщо кількість груп більше двох, нульова гіпотеза висувається не для двох, а для m ідентифікованих у певний спосіб груп. Тестування розбіжностей між груповими середніми здійснюють за допомогою F-критерію.

На етапі розвідувального аналізу важливе значення має також вимірювання взаємозв’язків між ознаками, що характеризують об’єкт моделювання. Методи оцінювання щільності зв’язку різняться залежно від типу взаємозв’язаних ознак:

— для даних, виміряних у метричних шкалах, застосовують коефіцієнт кореляції Пірсона і модель простої лінійної регресії;

— для ознак порядкової шкали (даних типу «краще — гірше») використовують ранжирування і коефіцієнти рангової кореляції;

— для ознак номінальної шкали, зокрема бінарних (альтернативних) ознак, застосовують таблиці спряженості.

Важливою процедурою розвідувального аналізу є частотний аналіз структури первинних даних. Практично будь-який дослідницький проект починається зі складання таблиць частот та гістограм. Таблиця частот містить інтервали групувань за однією з ознак, які характеризують об’єкт моделювання, групові частоти і частки, кумулятивні частоти і частки. Кожному ряду розподілу притаманна певна закономірність, яка виявляється взаємозв’язком між варіантами і частотами. Закономірності розподілу можна зобразити графічно, їх можна також подати аналітично у вигляді закону розподілу. У процесі частотного аналізу одночасно з групуванням перевіряється узгодженість емпіричного розподілу з нормальним законом розподілу за допомогою критеріїв узгодженості — ?? Пірсона і K-S Колмогорова-Смирнова.

Вимірювання взаємозв’язів між категоріальними ознаками здійснюють на основі таблиць кростабуляції.

У системі Statistica розвідувальний аналіз даних здійснюють у модулі Basic Statistics and Tables

— Основні статистики і таблиці, який містить широкий спектр методів дескриптивної (описової) статистики, частотного аналізу даних, вимірювання взаємозв’язків, тестування гіпотез і візуалізації даних.

ПИТАННЯ І ЗАДАЧІ ДЛЯ САМОПІДГОТОВКИ

1. Поясніть сутність і основні етапи розвідувального аналізу даних.

2. Сформулюйте вирішальне правило перевірки нетиповості окремих значень ознак.

3. Ціна і собівартість 1 т концентрату на семи гірничо-збагачувальних підприємствах становили, грн:

Максимальний рівень Мінімальний рівень Середній рівень Середнє квадратичне відхилення
Ціна 94,4 74,0 88,2 1,3
Собівартість 68,3 64,8 65,2 0,5

За допомогою критерію Граббса перевірте однорідність гірничо-збагачувальних підприємств за ціною і собівартістю концентрату. Висновок зробіть з імовірністю 0,95.

4. Як перевірити однорідність сукупності, яка містить дві і більше складові?

5. Як перевірити гіпотези про однорідність середніх і дисперсій у групах?

6. Поясніть сутність і процедури проведення частотного аналізу.

7. Як перевірити узгодженість розподілу cукупності з нормальним?

8. Розподіл мігрантів за віком характеризується даними:

Вік, років 40—44 44—48 48—52 52—563834 56—60
12
12

Перевірте узгодженість розподілу мігрантів за віком з нормальним розподілом за допомогою критерію Колмогорова-Смирнова.

9. Розподіл 400 домогосподарств за рівнем середньодушового доходу характеризується такими даними:

Номер групи Частка емпіричного розподілу, % Імовірність теоретичного розподілу, %
нормального лог-нормального
1 5,5 6,7 5,3
2 9,4 8,0 11,6
3 17,2 12,7 16,3
4 15,3 16,6 17,6
5 15,0 17,8 15,0
6 13,0 15,5 12,7
7 10,2 11,2 9,0
8 8,5 6,6 6,5
9 3,8 3,1 4,0
10 2,0 1,8 2,0
Разом 100 100 100

За допомогою критерію 2 ? перевірте, з нормальним чи лог-нормальним розподілом узгоджується розподіл домогосподарств за середньодушовим доходом. Висновки зробіть з імовірністю 0,95.

10. Яку роль у розвідувальному аналізі даних відіграє кореляційна матриця?

11. Яке призначення має розширена кореляційна матриця?

12. Поясніть особливості вимірювання взаємозв’язків ознак рангової шкали.

13. Поясніть сутність та аналітичні функції таблиць кростабуляції.

ЗАВДАННЯ ДЛЯ ПРАКТИЧНИХ ЗАНЯТЬ

2.1. Використовуючи процедури модуля Basic Statistics and Tables, здійсніть розвідувальний аналіз даних файлу Activities (папка Examples системи Statistica):

1) визначте статистичні характеристики, які опишуть закономірності розподілу кожним показником: центр розподілу, варіацію, форму розподілу; перевірте наявність викидів;

2) за допомогою гістограми і блочної діаграми зобразіть розподіли графічно, прокоментуйте форму розподілу для кожного показника;

3) встановіть, чи є взаємозв’язки між показниками і, якщо є, виміряйте їх щільність і перевірте істотність;

4) перевірте гіпотезу про нормальність розподілу.

Пропущеним даним приписуйте коди, які зафіксовані в специфікації ознак.

2.2. За даними самостійно сформованого файлу (розділ 1, задача 1.5), використовуючи процедури модуля Basic Statistics and Tables, здійсніть розвідувальний аналіз даних щодо фінансового стану комерційних банків.

2.3. За даними файлу Beverag.sta (папка Examples системи Statistica), використовуючи процедури Tables and Banners, здійсніть аналіз кроскореляцій, зробіть висновки.

РЕКОМЕНДОВАНА ЛІТЕРАТУРА

1. Боровиков В. П. Statistica® — Статистический анализ и обработка данных в среде Windows® / В. П. Боровиков, И. П. Боровиков. — М. : Информ.-издат. дом «Филинъ», 1998. — С. 351—401.

2. Єріна А. М. Статистичне моделювання та прогнозування : навч. посіб. / А. М. Єріна. — К. : КНЕУ, 2001.

— С. 20—35.

3. Тюрин Ю. Н. Статистический анализ данных на компьютере / Ю. Н. Тюрин, А. А. Макаров ; под ред. В. Э. Фигурнова. — М. : ИНФРА-М. 1998. — С. 15

—345.

4. Халафян А. А. Statistica 6. Статистический анализ данных : учебник / А. А. Халафян. — М. : Бином-Пресс, 2007. — С. 59

—153.


< Попередня  Змiст  Наступна >
Iншi роздiли:
3.2. ОЦІНЮВАННЯ ЛАТЕНТНИХ ЯВИЩ ЗА ДОПОМОГОЮ ІНТЕГРАЛЬНИХ ПОКАЗНИКІВ
3.3. КЛАСТЕРНІ ПРОЦЕДУРИ КЛАСИФІКАЦІЇ
Частина 1. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
Частина 2. 3.4. МОДЕЛЬ ДИСКРИМІНАНТНОГО АНАЛІЗУ
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ТЕНДЕНЦІЙ РОЗВИТКУ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)