Posibniki.com.ua Статистика Статистичне моделювання та прогнозування РОЗВІДУВАЛЬНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ


< Попередня  Змiст  Наступна >

РОЗВІДУВАЛЬНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ


2.1. Інструменти і стратегії розвідувального аналізу даних

2.2. Частотний аналіз структури даних

2.3. Розвідувальний аналіз кореляцій

2.4. Таблиці кростабуляцій

Після вивчення цього розділу студент повинен знати: етапи розвідувального аналізу даних; логіку тестування сукупності на однорідність; способи відтворення пропущених даних та ідентифікації аномальних спостережень; аналітичні можливості модуля Basic Statistics and Tables; уміти: відповідно до мети статистичного дослідження описувати об’єкт моделювання, відтворювати пропущені дані; уніфікувати типи ознак; аналізувати структуру даних, оцінювати їхню однорідність, ідентифікувати аномальні спостереження; оцінювати взаємозв’язки між ознаками; здійснювати розвідувальний аналіз даних у системі Statistica.

2.1. ІНСТРУМЕНТИ І СТРАТЕГІЇ РОЗВІДУВАЛЬНОГО АНАЛІЗУ ДАНИХ

Першим і надзвичайно важливим етапом статистичного моделювання є розвідувальний аналіз структури даних. З позиції статистичного моделювання термін «структура даних» об’єднує характер розподілу сукупності за ознаками, що описують об’єкт моделювання, і характер взаємозв’язків між цими ознаками. Термін «розвідувальний аналіз» (exploratory data analysisEDA) був уперше введений Дж. Тьюкі, він же сформулював основні його завдання:

— максимальне проникнення в дані;

— вибір найважливіших ознак:

— аналіз основних структур;

— виявлення відхилень і аномалій;

— перевірка основних гіпотез щодо законів розподілу і взаємозв’язків;

— апробація моделей.

Отже, на етапі розвідувального аналізу формується уявлення про тип даних, оцінюється їхня однорідність, з’ясовується структура об’єкта моделювання, виявляються взаємозв’язки між ознаками. За допомогою дескриптивних статистик описуються й узагальнюються основні властивості об’єкта моделювання, частотний аналіз і графічна візуалізація допомагають визначитися щодо методів подальшого аналізу і моделей, які треба застосувати, а також яких результатів можна очікувати. Без розвідувального аналізу даних моделювання буде наосліп.

Фундаментом розвідувального аналізу є вибір ознак, які найбільш адекватно відображають образ об’єкта моделювання і підлягають аналізу. Ця процедура ґрунтується на певній сумі професійних знань щодо інформативності кожної ознаки і структури зв’язків між ними. На кількість і перелік ознак накладає відбиток призначення моделі, можливість і точність вимірювання ознак, трудомісткість збирання даних, діапазон варіації та можливість регулювання значень ознак, інші міркування.

Для того щоб отримати якомога більше інформації про об’єкт моделювання, виявити властиві об’єктові загальні риси, закономірності й тенденції, в процесі розвідувального аналізу даних застосовують методи і прийоми, спрямовані на визначення типових рівнів і діапазону варіації ознак, виявлення аномальних спостережень, описування основних структур і законів розподілу первинних даних, оцінювання кореляційних зв’язків між ознаками тощо. Застосування тієї чи іншої процедури розвідувального аналізу даних визначається шкалами вимірювання ознак і відповідними їм допустимими операціями над числами. Скажімо, у метричній шкалі змістовними є результати будь-яких арифметичних дій, у порядкових шкалах має значення лише послідовність результатів вимірювання, а не їхні числові значення. У номінальних шкалах число слугує для розрізнення окремих властивостей, замінюючи їх назви та імецих шкалах немає.

на; ніяких змістовних співвідношень, окрім (х = у) чи (х ? у) між значеннями в на; ніяких змістовних співвідношень, окрім (х = у) чи (х ? у) між значеннями в

У системі Statistica розвідувальний аналіз даних здійснюють у модулі Basic Statistics and Tables, який містить широкий спектр методів дескриптивної (описової) статистики — Dеscriptive statistics, частотного аналізу даних — Frequency tables, вимірювання взаємозв’язків — Correlation matrices, тестування гіпотез і візуалізації даних (рис. 2.1). У кожному блоці модуля Basic Statistics and Tables, як і в інших модулях системи Statistica, доступні процедури докладної діагностики даних і графічні інструменти.

Найбільший вибір методів первинної обробки даних містить блок Dеscriptive Statistics на вкладках Quick — Швидко і Advanced — Поглиблено (рис. 2.2). Перша вкладка видає результати аналізу автоматично, друга — за настановами користувача.Рис. 2.1. Перелік доступних статистичних процедур у модулі Basic Statistics and Tables

Рис. 2.2. Діалогове вікно Dеscriptive Statistics, вкладка Quick

На вкладці Quick кількісні та графічні методи розвідувального аналізу об’єднані в п’ять груп: Summary: Statistics — автоматично видає основні, найбільш уживані на початковому етапі обробки даних статистичні характеристики кожної ознаки: середню, мінімум, максимум, стандартне відхилення; Frequency Tablesвидає таблиці частот за результатами групування даних (кількість інтервалів за умовчанням); Histograms

— у графічному вигляді подає таблиці частот з покладеними на них функціями нормального розподілу; Summary: Graphs

— пропонує різні варіанти візуалізації даних; Box & whisker plot for all variables

— ілюструє розкид даних за вказаними ознаками.

Перелічені інструменти розвідувального аналізу даних широко представлені на інших вкладках блоку Dеscriptive Statistics і в подальшому будуть розглядатися в контексті властивих їм аналітичних функцій.

Вкладка Advanced пропонує практично вичерпний набір описових статистик — Summary: Statistics, вони представлені трьома меню: Location valid N; Variation moments; Percentiles, ranges (рис. 2.3).

Рис. 2.3. Діалогове вікно Dеscriptive Statistics, вкладка Advanced

Меню Location містить характеристики центру розподілу (медіану, моду, різні види середніх); меню Variation moments — характеристики варіації (дисперсію, стандартне відхилення, коефіцієнт варіації), а також коефіцієнти асиметрії та ексцесу і довірчі межі для середньої; меню Percentiles, ranges — характеристики положення даних на числовій осі: мінімальне і максимальне значення ознаки, верхній і нижній квартилі, квинтилі, децилі, перцентилі; варіаційний і квартильний розмахи.

Аналітичні можливості процедур вкладки Advanced розглянемо за даними 15-ти цукрових заводів (файл Sugar1 (5v*15c)). У табл. 2.1 наведено значення показника ефективності виробництва цукру (ознака Vаr1) і факторів, які впливають на ефективність виробництва (ознаки Vаr2—Vаr4 та NewVar): Vаr1 — вихід цукру з 1 т цукрового буряку, %; Vаr2 — цукристість буряку, %; Vаr3 — втрати цукристості буряку під час транспортування і зберігання, %; Vаr4 — втрати цукру в процесі переробки сировини, %; NewVar — тривалість виробництва, днів.

Таблиця 2.1

ФАЙЛ ПЕРВИННИХ ДАНИХ ЗА СУКУПНІСТЮ ЦУКРОВИХ ЗАВОДІВ Sugar1

У стартовому вікні Dеscriptive Statistics, натиснувши кнопку Variables, виберемо ознаки Vаr1

У стартовому вікні Dеscriptive Statistics, натиснувши кнопку Variables, виберемо ознаки Vаr1

—Vаr4, а в меню вкладки Advanced задамо описові статистики: Mean — середня величина, Standart Error — стандартна похибка середньої,

Lower and Upper Quartile — нижній і верхній квартилі, Std. Dev.

стандартне відхилення, Coef. Var. — коефіцієнт варіації, Skewness — коефіцієнт асиметрії. Після команди на виконання — Summary: statistics — система створює електронну таблицю Scrollsheet з результатами розрахунку (табл. 2.2).

Як свідчать дані, сукупність цукрових заводів характеризується невисокою варіацією ознак ефективності виробництва цукру (коефіцієнт варіації не перевищує 10 %) і помітною асиметрією, особливо за рівнем втрат цукру під час переробки сировини (Var4); для виходу цукру з 1 т сировини характерна лівостороння асиметрія.

Таблиця 2.2

ДЕСКРИПТИВНІ СТАТИСТИКИ ОЗНАК ФАЙЛУ Sugar1

Descriptive Statistics (Sugar1 (4v*15c))
Mean Standart Error Lower Quartile Upper Quartile Std.Dev. Coef.Var. Skewness
Var1 10,91 0.21 10,46 11,53 0,820 7.51 –0,398
Var2 15,37 0.07 15,16 15,52 0,286 1.85 0,603
Var3 0,97 0.01 0,93 0,99 0,041 4.26 0,372
Var4 2,23 0.05 2,06 2,27 0,179 8.03 1,275

Однорідність даних

Однією з умов статистичного моделювання є однорідність сукупності. Лише в однорідній сукупності виявлені закономірності сталі й їх можна застосувати до всіх одиниць сукупності. Поняття однорідності пов’язують із наявністю в усіх одиниць сукупності таких спільних властивостей і рис, які визначають їхню одноякісність, належність до одного типу. Неоднорідність даних виявляється по-різному: асиметричністю розподілу, наявністю викидів, належністю спостережень до різних класів.

Викидами в статистиці називають окремі спостереження, у яких значення ознаки далеко віддалені від центру розподілу і нетипові для сукупності в цілому, аномальні. Значні відхилення в первинних даних можуть виникнути внаслідок порушення стандартних умов збирання даних або через помилки реєстрації. Наявність у даних хоча б одного з викидів може істотно змінити оцінки середньої і дисперсії, порушивши умови використання чутливих до всіляких відхилень традиційних статистичних методів аналізу.

Виявити підозрілі на аномальність спостереження можна візуально, переглядаючи первинні дані, графіки розкиду, варіаційні ряди розподілу або гістограми з великою кількістю інтервалів групування. На рис. 2.4 наведено графік розкиду даних — Box & whisker plot за тривалістю виробництва в днях на цукрових за-

водах (NewVar). Одне віддалене від основного масиву даних значення ознаки (72 дні) програма ідентифікує як викид (Outliers). За наявності викидів їх можна вилучити з подальшого аналізу або застосувати стійкі до викидів (робастні) стаженмогою мак між альне може таб, то тним, і , а ма. У д., доки

Median = 107= (97, 112)= (90, 118)? ? = xx T n n , тистичні методи. Box Plot of NewVar Sugar1 5v*15c Median = 107 25%-75% = (97, 112) Non-Outlier Range = (90, 118) Outliers Extremes NewVar

70

80

90

100

110

120

Рис. 2.4. Діаграма розмаху варіації та ідентифікація викидів за ознакою NewVar — тривалість виробництва на цукрових заводах, дн.

Прийняття об’єктивного рішення щодо вилучення підозрілого спостереня з подальшого аналізу передбачає перевірку його нетиповості за допокритеріїв математичної статистики. Очевидно, нетиповим може виявитисясимальне x n чи мінімальне x

1 значення в упорядкованому ряду спостережень x

1 ? x

2 ? x

3 ?…? x n . Вирішальне правило перевірки ґрунтується на відстанінетиповим x h і середнім x значеннями ознаки. Якщо йдеться про максимзначення x n , то статистичною характеристикою критерію його нетиповостібути співвідношення ? ? = xx T n n , де x і ? визначаються для сукупності в цілому.

Критичні значення Т

1 – ? (n), де n — обсяг сукупності, наведено у дод. 4 (лиця складена Граббсом). Якщо фактичне значення T n менше за критичневідхилення (x nx) з імовірністю (1 – ?) визнається випадковим, неістонавпаки — якщо перевищує критичне, то відхилення визнається істотнимксимальне значення x n — нетиповим для сукупності в цілому, аномальнимтакому разі це значення вилучають і критерій застосовують до x n1 і т. не буде визнано, що викидів немає, а отже, сукупність однорідна.

Як приклад, перевіримо на аномальність максимальний рівень втрат цукру під час переробки сировини за сукупністю цукрових заводів (Var4). Саме за ціk де

єю ознакою коефіцієнт асиметрії виявився найбільшим A s = 1,275. Максимальне значення ознаки x n = 2,68, середня x= 2,23, ? = 0,179.

Звідси значення ознаки x n = 2,68, середня x= 2,23, ? = 0,179.

Звідси

51,2

179,0

23,268,2 = ? = n T, що менше за критичне Т

0,05 (15) = 2,705. Тож немає підстав визнати максимальне значення Var4 нетиповим, з імовірністю 0,95 сукупність цукрових заводів за цією ознакою визнається однорідною.

Проблема неоднорідності даних може виникнути також у структурованій сукупності, яка об’єднує дві і більше складові. Завдання розвідувального аналізу — відповісти на питання, чи правомірне це об’єднання, чи кожна складова має свою специфіку, а отже аналізувати їх треба окремо. У разі двох складових для перевірки однорідності даних використовують t-критерій Стьюдента. Нульова гіпотеза формулюється на припущенні, що розбіжності середніх випадко?

1 х

2 х (двобічний критерій). Одночасно тестується гіпотеза щодо однорідності дисперсій у групах ві Н

0 :

1 х=

2 х, альтернативна — розбіжності невипадкові Н а :

1

2 х (двобічний критерій). Одночасно тестується гіпотеза щодо однорідності дисперсій у групах Н

0 :

2

2 2

1 ?=? проти альтернативної гіпотези Н

0 :

2

2 2

1 ???. Тестування такої гіпотези ґрунтується на співвідношенні оцінок групових дисперсій: єю ознакою коефіцієнт асиметрії виявився найбільшим A s = 1,275. Максимальне значення ознаки x n = 2,68, середня x= 2,23, ? = 0,179.

Звідси

51,2

179,0

23,268,2 = ? = n T, що менше за критичне Т

0,05 (15) = 2,705. Тож немає підстав визнати максимальне значення Var4 нетиповим, з імовірністю 0,95 сукупність цукрових заводів за цією ознакою визнається однорідною.

Проблема неоднорідності даних може виникнути також у структурованій сукупності, яка об’єднує дві і більше складові. Завдання розвідувального аналізу — відповісти на питання, чи правомірне це об’єднання, чи кожна складова має свою специфіку, а отже аналізувати їх треба окремо. У разі двох складових для перевірки однорідності даних використовують t-критерій Стьюдента. Нульова гіпотеза формулюється на припущенні, що розбіжності середніх випадкові Н

0 :

1 х=

2 х, альтернативна — розбіжності невипадкові Н а : ?

1 х

2 х (двобічний критерій). Одночасно тестується гіпотеза щодо однорідності дисперсій у групах Н

0 :

2

2 2

1 ?=? проти альтернативної гіпотези Н

0 :

2

2 2

1 ???. Тестування такої гіпотези ґрунтується на співвідношенні оцінок групових дисперсій:

2 j s s F=,

2

2 j s s F=,

2 j s і

2 k s — оцінки групових дисперсій; у чисельнику має бути більша за значенням дисперсія.

Логіка порівняння групових дисперсій полягає в припущенні, що в однорідній сукупності розбіжностей між груповими середніми немає, а групові дисперсії можна розглядати як приблизне вираження дисперсії первинної сукупності, вони пропорційні числам ступенів свободи, для яких визначаються (df

1 , df

2 ). Якщо відношення дисперсій не виходить за межі прийнятої критичної зони для рівня істотності ? )

1 ? , то розбіжності між груповими середніми визнаються випадковими, в іншому разі нульова гіпотеза про випадковий характер розбіжностей між групами від

1 ? , то розбіжності між груповими середніми визнаються випадковими, в іншому разі нульова гіпотеза про випадковий характер розбіжностей між групами від

2

хиляється. Критичні значення F-критерію для рівня істотності ? = 0,05 наведено в дод. 10.

У модулі Basic Statistics and Tables для тестування гіпотез щодо однорідності середніх і дисперсій пропонується t-критерій, представлений чотирма процедурами (рис. 2.2): t-test, independent, by groupst-критерій для незалежних вибірок, коли необхідно порівняти середні величини двох груп однієї вибірки; t-test, independent, by variables

t-критерій для незалежних вибірок, коли необхідно порівняти середні величини двох різних вибірок;хиляється. Критичні значення F-критерію для рівня істотності ? = 0,05 наведено в дод. 10.

У модулі Basic Statistics and Tables для тестування гіпотез щодо однорідності середніх і дисперсій пропонується t-критерій, представлений чотирма процедурами (рис. 2.2): t-test, independent, by groupst-критерій для незалежних вибірок, коли необхідно порівняти середні величини двох груп однієї вибірки; t-test, independent, by variables

t-критерій для незалежних вибірок, коли необхідно порівняти середні величини двох різних вибірок;

t-test, dependent samplest-критерій для залежних вибірок, коли ряди спостережень утворюють пари; така ситуація виникає в повторних обстеженнях на зразок «до — після», наприклад, до і після регулювання пристрою, зміни умов праці, зміни законодавства тощо; t-test, single samples (прості вибірки).

Відповідь на питання, істотно чи неістотно різняться середні двох груп однієї вибірки можна отримати за допомогою t-критерію з числом ступенів свободи )(

21 хх ? де ( xµвнюваних середніх

21 хх ? де ( xµвнюваних середніх

У діалоговому вікні процедури t-test, independent, by groups (рис. 2.5) необхідно визначити групувальну (grouping) і залежну (dependent) ознаки. Зазвичай групувальна ознака категоріальна, кожній категорії надається код. За допомогою кодів дані поділяють на групи, і далі здійснюють попарне порівняння середніх цих груп.

У діалоговому вікні процедури t-test, independent, by groups (рис. 2.5) необхідно визначити групувальну (grouping) і залежну (dependent) ознаки. Зазвичай групувальна ознака категоріальна, кожній категорії надається код. За допомогою кодів дані поділяють на групи, і далі здійснюють попарне порівняння середніх цих груп.

Рис. 2.5. Діалогове вікно перевірки гіпотези про однорідність середніх двох груп однієї вибірки, вкладка Advanced

Порядок застосування t-критерію для перевірки гіпотези про однорідність середніх двох груп однієї вибірки розглянемо за даними тестування витрат пального автомобілями різних марок. Тест складався з двох циклів — міського і заміського, швидкісний режим — 50 і 100 км/год відповідно. Тестова дистанція

— 160 км, пробіг автомобілів до тестування мав бути не менше 3000 км. Результати тестування наведено в табл. 2.3. Ознаки: Var1 — тип пального, Var2 і Var3 — витрати пального в міському і заміському циклах тестування автомобілів. Групувальною ознакою визначено тип пального Var1 (коди: P

— бензин А-95, PS — бензин А-98, D

— дизельне пальне), залежними — витрати пального, л на 100 км пробігу.

Після команди на виконання — Summary: t-test — з’являється таблиця результатів (табл. 2.4), у якій наведено такі статистики: Mean — середні значення ознак у відповідних групах; t-value — значення t-критерію; df — число ступенів свободи; p — рівень істотності t-критерію; Valid N — частоти груп; Std. Dev. — стандартне відхилення ознаки у відповідних групах; F-ratio Variances — значення F-критерію для перевірки однорідності групових дисперсій; p Variances — рівень істотності F-критерію.

Таблиця 2.3

ПЕРВИННІ ДАНІ ДЛЯ ПЕРЕВІРКИ ГІПОТЕЗИ ПРО ОДНОРІДНІСТЬ СУКУПНОСТІ

НА ОСНОВІ РОЗБІЖНОСТЕЙ ГРУПОВИХ СЕРЕДНІХ

У табл. 2.4 наведено результати тестування витрат пального автомобілями, які піддалися випробуванню, залежно від типу пального (бензин А-95 чи дизельне пальне). В обох циклах випробувань витрати дизельного пального менші порівняно з бензином марки А-95, значення t-критерію і р-level майже однакові. витратах автомобілями дизельного пального і бензину марки А-95 істотною. Співвідношення групових дисперсій (F-ratio) також свідчить про істотні від

Спираючись на значення р > 0,05, з імовірністю 0,95 можна визнати різницю у Спираючись на значення р > 0,05, з імовірністю 0,95 можна визнати різницю у мінності варіації в групах (p > 0,05). мінності варіації в групах (p > 0,05).

Таблиця 2.4

РЕЗУЛЬТАТИ ТЕСТУВАННЯ ГІПОТЕЗИ ПРО ОДНОРІДНІСТЬ ГРУП

ЗА ПРОЦЕДУРОЮ t-test independent by groups T-tests; Grouping: Var1 (Auto1) Group 1: P Group 2: D

Variable Mean P Mean D t-value df p Valid N P Valid N D Std.Dev. P Std.Dev. D F-ratio Variances p Variances
Var2 7,82 6,58 2,05 9 0,071 6 5 1,127 0,804 1,962 0,533
Var3 7,38 6,22 2,01 9 0,076 6 5 0,991 0,912 1,180 0,898

На питання, істотні чи неістотні розбіжності витрат пального автомобілями в міському і заміському циклах випробувань, можна відповісти, застосовуючи процедури t-test dependent samples. Оскільки ряди спостережень утворюють пари, то під час тестування гіпотези два ряди попарно пов’язаних даних замінюде d — відхилення (diff) по кожній парі значень; d

— середнє відхилення; n

— середнє відхилення; n

— кількість пар.

Тож статистичну характеристику парного двовибіркового t-критерію можна подати так:

s ad t d

2 ? =, де а — певна стала величина, найчастіше а = 0.

Задля перевірки гіпотези про рівність середніх витрат пального в міському і заміському циклах випробувань автомобілів у діалоговому вікні t-test depen-dent samples вибираємо ознаки, що порівнюються: Var2 і Var3. За командою Summary: t-test отримаємо таблицю з результатами тестування гіпотези (табл. 2.5).n s ad t d

2 ? =, де а — певна стала величина, найчастіше а = 0.

Задля перевірки гіпотези про рівність середніх витрат пального в міському і заміському циклах випробувань автомобілів у діалоговому вікні t-test depen-dent samples вибираємо ознаки, що порівнюються: Var2 і Var3. За командою Summary: t-test отримаємо таблицю з результатами тестування гіпотези (табл. 2.5).

Різниця середніх становить 0,44, стандартне відхилення різниці — 0,159, значення

t-критерію — 10,56, що перевищує критичне значення

14,214

0,95 =t . Отже, гіпотезу про рівність середніх витрат пального в різних циклах випробувань відхиляємо: витрати пального в міському циклі випробувань виявилися вищими. t-критерію — 10,56, що перевищує критичне значення ()

14,214

0,95 =t . Отже, гіпотезу про рівність середніх витрат пального в різних циклах випробувань відхиляємо: витрати пального в міському циклі випробувань виявилися вищими.

Таблиця 2.5

РЕЗУЛЬТАТИ ТЕСТУВАННЯ ГІПОТЕЗИ ПРО ОДНОРІДНІСТЬ ГРУП

ЗА ПРОЦЕДУРОЮ t-test, dependent samples T-test for Dependent Samples (Auto1)

Якщо припустити, що на міському і заміському циклах випробування брали участь не ті самі, а різні авто, тоді слід застосовувати процедуру t-test inde-pendent by variables.

Якщо припустити, що на міському і заміському циклах випробування брали участь не ті самі, а різні авто, тоді слід застосовувати процедуру t-test inde-pendent by variables.

У разі, коли кількість груп більше двох, нульова гіпотеза висувається не для оцінок міжгрупової

двох, а для m ідентифікованих у певний спосіб груп m xxxH...:

210 ==. Тестування розбіжностей між груповими середніми здійснюють за допомогою F-критерію, статистична характеристика якого визначається співвідношенням двох, а для m ідентифікованих у певний спосіб груп m xxxH...:

210 ==. Тестування розбіжностей між груповими середніми здійснюють за допомогою F-критерію, статистична характеристика якого визначається співвідношенням

2 B s і внутрішньогрупової

2 W s дисперсій: W

Міжгрупова дисперсія вимірює варіацію, зумовлену фактором, покладеним в основу групування, внутрішньогрупова — випадкову, залишкову варіацію. Схему однофакторного дисперсійного аналізу подано в табл. 2.6.

Міжгрупова дисперсія вимірює варіацію, зумовлену фактором, покладеним в основу групування, внутрішньогрупова — випадкову, залишкову варіацію. Схему однофакторного дисперсійного аналізу подано в табл. 2.6.

Таблиця 2.6 ANOVA-таблиця

Джерело варіації Сума квадратів відхилень Число ступенів свободи Середній квадрат відхилень F-тест
Між групами ? = ? m j jj xxn 1 2 )( m – 1 2 B s 2 2 W B s s F=

Критичні значення F-критерію для рівня істотності ? залежать від співвідношення чисел ступенів свободи чисельника (m – 1) і знаменника (n – m). Про

цедура тестування стандартна: коли F >);1(

1 mnmF?? , нульову гіпотезу відхиляють. Коли F < );1(

1 mnmF?? ?? , підстав для відхилення нульової гіпотези немає. хиляють. Коли F < );1(

1 mnmF?? , підстав для відхилення нульової гіпотези немає. цедура тестування стандартна: коли F >);1(

1 mnmF?? ?? , нульову гіпотезу відхиляють. Коли F < );1(

1 mnmF?? ?? , підстав для відхилення нульової гіпотези немає.

У модулі Basic Statistics and Tables для тестування гіпотези про відсутність розбіжностей між середніми трьох і більше груп передбачено процедуру Break-down & one-way ANOVA — Групування і однофакторний дисперсійний аналіз. У діалоговому вікні (рис. 2.6) Statistics by Groups (Breakdown) необхідно вибрати ознаки: групувальну (Grouping variables) і залежні (Dependent variables) та вказати коди груп (Select codes for indep. vars (factors).

Рис. 2.6. Діалогове вікно для тестування гіпотези про відсутність розбіжностей між середніми трьох і більше груп (процедура Breakdown & one-way ANOVA)

У новому діалоговому вікні Statistics by Groups

— ResultsВнутрішньогрупові описові статистики — результати (рис. 2.7) пропонуються різні процедури і настанови для аналізу даних всередині груп. Вкладка Quick видає: Summary: Table of statistics — підсумкову таблицю середніх; Detailed two-way tables — докладні двобічні таблиці; Analysis of variance — дисперсійний аналіз; Interaction plot — графіки взаємодій; Categorized box & whisker plot — категоризовані діаграми розкиду.

Рис. 2.7. Діалогове вікно процедури Statistics by Groups - Results, вкладка Quick

За настановою Summary: Table of statistics з’явиться таблиця зі значеннями середніх і середньоквадратичних відхилень вибраних ознак в розрізі груп.

Перевіримо гіпотезу про розбіжність середніх витрат пального автомобілями в міському і заміському циклах випробувань (Var2-Var3) залежно від типу пального: бензин А-95 (Р), бензин А-98 (PS), дизельне пальне (D). Дані табл. 2.7 і рис. 2.8 свідчать про розбіжності групових середніх і групової варіації витрат пального. Витрати дизельного пального найменші, витрати бензину А-95 близькі до середніх рівнів, а бензину А-98 — найвищі. За таким самим порядком змінюються стандартні відхилення витрат пального.

Таблиця 2.7

ПІДСУМКОВА ТАБЛИЦЯ СЕРЕДНІХ

Категоризовані діаграми розкиду — Categorized box & whisker plot — унаочнюють ступінь схожості групових середніх і меж варіації витрат автомобілями різного типу пального за циклами випробувань (рис. 2.8).

Категоризовані діаграми розкиду — Categorized box & whisker plot — унаочнюють ступінь схожості групових середніх і меж варіації витрат автомобілями різного типу пального за циклами випробувань (рис. 2.8).

(9,204 і 8,545 відповідно) перевищують критичне

88,3)12,2(F

0,95 = , рівень істотності менше 0,05, тож гіпотеза щодо рівності групових середніх відхиляється; з імовірністю 0,95 можна стверджувати, що тип пального впливає на його витрати. Marked effects are significant at p < ,05000 личину p з вибраним рівнем істотності ? (зазвичай ? = 0,05). Коли p ? ?, ну< ?, нульова гіпотеза відхиляється, от? можна стверджувати, що справедлива альтернативна льова гіпотеза не відхиляється. Якщо p< ?, нульова гіпотеза відхиляється, от? можна стверджувати, що справедлива альтернативна Mean Mean±SD Mean±1,96*SD DPPS Var1

4

5

6

7

8

9

10 Var2 Mean Mean±SD Mean±1,96*SD DPPS Var1

4

5

6

7

8

9 Var3

Рис. 2.8. Категоризовані діаграми розкиду витрат різного типу пального за циклами випробувань

Для перевірки істотності групових розбіжностей залежної ознаки вкладка ANOVA & tests містить процедуру декомпозиції варіації цієї ознаки за джерелами формування — Analysis of Variance. У табл. 2.8 наведено результати дисперсійного аналізу витрат пального за різними циклами випробувань (Var2 і Var3) залежно від типу пального. Фактичні значення F-критерію для обох ознак (9,204 і 8,545 відповідно) перевищують критичне

88,3)12,2(F

0,95 = , рівень істотності менше 0,05, тож гіпотеза щодо рівності групових середніх відхиляється; з імовірністю 0,95 можна стверджувати, що тип пального впливає на його витрати.

Таблиця 2.8

ДЕКОМПОЗИЦІЯ ВАРІАЦІЇ ЗА ДЖЕРЕЛАМИ ФОРМУВАННЯ Analysis of Variance (Auto1) Marked effects are significant at p < ,05000 Variable SS Effect df Effect MS Effect SS Error df Error MS Error Fp Var2 Var3

20,65350210,3267513,46383121,1219869,203990,003777

18,4810029,2405012,97633121,081368,5452490,004927

Вкладка ANOVA & tests містить також інші тести однорідності дисперсій, зокрема тест Levene і Браун-Levene.


< Попередня  Змiст  Наступна >
Iншi роздiли:
2.3. РОЗВІДУВАЛЬНИЙ АНАЛІЗ КОРЕЛЯЦІЙ
2.4. ТАБЛИЦІ КРОСТАБУЛЯЦІЇ
МОДЕЛІ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ
3.2. ОЦІНЮВАННЯ ЛАТЕНТНИХ ЯВИЩ ЗА ДОПОМОГОЮ ІНТЕГРАЛЬНИХ ПОКАЗНИКІВ
3.3. КЛАСТЕРНІ ПРОЦЕДУРИ КЛАСИФІКАЦІЇ
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)