Posibniki.com.ua › Статистика › Статистичне моделювання та прогнозування › 2.2. ЧАСТОТНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ

2.2. ЧАСТОТНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ

Варто зазначити, що в системі Statistica передбачено розрахунок фактичної ймовірності похибки першого роду, тобто відхилення нульової гіпотези, коли вона правильна, — p-level. Такий підхід звільняє дослідника від необхідності звертатися до таблиці критичних значень критеріїв: достатньо порівняти величину p з вибраним рівнем істотності ? (зазвичай ? = 0,05). Коли p ? ?, нульова гіпотеза не відхиляється. Якщо p< ?, нульова гіпотеза відхиляється, отже, з імовірністю 1 – ? можна стверджувати, що справедлива альтернативна гіпотеза.

Важливою процедурою розвідувального аналізу є частотний аналіз структури первинних даних. Практично будь-який дослідницький проект починається із частотного аналізу даних задля того, щоб виявити, з якою частотою значення ознак, що характеризують об’єкт моделювання, потрапляють у різні інтервали. Найпростішими процедурами частотного аналізу є складання таблиць частот та гістограм. Так, за результатами соціологічних опитувань можна скласти таблиці частот, які будуть відображати поділ респондентів за ставленням до певних подій, у маркетингових дослідженнях — поділ споживачів за мотивацією обраної марки товару, у промисловості — поділ обладнання за кількістю відмов тощо. Таблицею частот можна подати відповіді респондентів, виміряні ознаками рангової шкали.

Таблиця частот містить інтервали групувань за однією з ознак, які характеризують об’єкт моделювання, групові частоти і частки, кумулятивні частоти і частки. Кожному ряду розподілу притаманна певна закономірність, яка виявляється взаємозв’язком між варіантами і частотами. Закономірності розподілу можна зобразити графічно, їх можна також подати аналітично у вигляді закону розподілу.

Окрім власне групування даних, поділу їх за інтервалами дослідника цікавить, чи можна апроксимувати розподіл частот якимось стандартним законом розподілу. Для неперервних величин найважливішим законом розподілу є нормальний, тому одночасно з групуванням перевіряється узгодженість емпіричного розподілу з нормальним законом. Звісно, у соціально-економічних явищах нормальний розподіл у чистому вигляді не трапляється. Але він близький до інших одновершинних розподілів, його часто використовують як перше наближення під час моделювання. Деякі одновершинні розподіли можуть бути наближені до нормального закону перетворенням значень ознак, скажімо, заміною їх логарифмами. Лог-нормальною кривою можна описати низку асиметричних розподілів, передусім із правобічною асиметрією (розподіл домогосподарств за доходами, банківських депозитів за розміром тощо).

Основні властивості нормального розподілу:

• крива розподілу симетрична відносно максимальної ординати, яка відпові

l становить = ? = ?

0,8 або l ? = 1,25. Це співвідношення залежить від наявності в сукупності нетипових, аномальних спостережень і може слугувати індикатором її засміченості;

• третій центральний момент розподілу m

3 = 0, четвертий m

4 = 3

2 m, звідси

3 =?m і коефіцієнт ексцесу 03/

244 =?=mma.коефіцієнт асиметрії a

3 =0/

3 =?m і коефіцієнт ексцесу 03/

244 =?=mma.дає значенню середньої арифметичної x;

• у межах x±? міститься 68,3 % усіх частот ряду розподілу, у межах x ±2? — 95,4 % частот, у межах x ± 3? — 99,7 % частот;

• співвідношення стандартного відхилення ? і середнього модуля відхилень l становить = ? = ?

• третій центральний момент розподілу m

3 = 0, четвертий m

4 = 3

2 m, звідси коефіцієнт асиметрії a

3 =0/

3 =?m і коефіцієнт ексцесу 03/

244 =?=mma.

Завдяки цим властивостям нормальна крива застосовується як стандарт і відіграє значну роль при використанні методів вибіркового, регресійного, факторного аналізу. Оцінка ступеня наближеності до цього стандарту ґрунтується на порівнянні емпіричних f j i теоретичних j f ) частот розподілу, де j — номер інтервалу. Теоретичні частоти визначають за формулою вують критерії узгодженості, статистичні характеристики яких ґрунтуються на відхиленнях між функціями емпіричного F j і теоретичного j F ) розподілів. Серед них критерій Колмогорова — Смирнова, критерій Пірсона ?? та ін.

Найбільш поширений критерій Колмогорова — Смирнова — K-S. Статистичною характеристикою критерію є максимальне по модулю відхилення між функціями емпіричного F j і теоретичного j F ) розподілів:

Коли перевірка узгодженості розподілів здійснюється на основі частот, максимальний модуль відхилення між кумулятивними частотами емпіричного і теоретичного розподілів необхідно розділити на обсяг сукупності n. Критичні близно за відношенням Лілієфорс (останній рядок таблиці). Скажімо, для .0972,0

значення К-S d для n ? 35 наведено в дод. 3, для n >35 їх можна визначити призначення К-S d для n ? 35 наведено в дод. 3, для n >35 їх можна визначити приn = 120 критичне значення К-S d

1-0,20 =1,07 : n = 120 критичне значення К-S d

1-0,20 =1,07 : 120=

У Dеscriptive Statistics частотний аналіз даних можна здійснити за процедурами, розміщеними на вкладках Quick і Normality. На вкладці Quick процедура Frequency tables автоматично видає результати групування даних у вигляді таблиці частот, а процедура Histograms подає результати цього групування графічно. Кількість інтервалів встановлюється за умовчанням, в інформаційній частині таблиці наводиться значення критерію К-S і рівень істотності висновку про узгодженість емпіричного розподілу з нормальним.

Вкладка Normality містить інструменти всебічного аналізу емпіричного розподілу, узгодженості його з нормальним законом (рис. 2.9). У полі Distribution представлені стандартні процедури групування — Frequency tables і візуалізації результатів групування

— Histograms. Настанови процедури групування

— Categorization дають можливість складати таблиці частот і будувати гістограми як за неперервною ознакою, вказавши кількість інтервалів — Number of

intervals, так і за дискретною ознакою — Integer intervals. Опція Normal expected frequencies додає в таблицю теоретичні частоти і частки (групові й кyмулятивні).

Рис. 2.9. Діалогове вікно Dеscriptive Statistics, вкладка Normality

Для перевірки узгодженості емпіричного розподілу з нормальним законом треба вибрати критерій — Кolmogorov-Smirnov and Lilliefors test for normality або Shapiro-Wilk’s W test.

Складемо таблицю частот і побудуємо гістограму за даними 120 фірм, які брали участь у міжнародній виставці. Групувальна ознака — частка витрат на рекламу (у % загальної суми витрат), діапазон коливань її значень від 0,7 до 3,9 %, середній рівень — 2,295 %, стандартне відхилення — 0,681 %. Оскільки ознака неперервна, встановимо прапорець на Number of intervals (ознака сприймається програмою як неперервна випадкова величина), вкажемо кількість інтервалів розбиття діапазону її значень — 8, а також замовимо теоретичні частоти за нормальним розподілом — Normal expected frequencies і критерій К-S для перевірки узгодженості емпіричного розподілу з нормальним — Кolmogorov-Smirnov and Lilliefors test for normality. За командою на виконання — Frequency tables — отримаємо таблицю частот, яка містить інтервали групувань, емпіричні (count) і теоретичні (expected) частоти й частки — групові й кумулятивні (табл. 2.9). В інформаційній частині таблиці вказується групувальна ознака та визнати неістотними, розподіл фірм за витратами на рекламу узгоджується з нормальним розподілом.

значення критерію К-S d = 0,06713, яке менше за критичне К-S d

1 – 0,20 = 0,0972.

Отже, відхилення між функціями емпіричного і теоретичного розподілів слід значення критерію К-S d = 0,06713, яке менше за критичне К-S d

1 – 0,20 = 0,0972.

Отже, відхилення між функціями емпіричного і теоретичного розподілів слід

Таблиця 2.9

ТАБЛИЦЯ ЧАСТОТ РОЗПОДІЛУ ФІРМ ЗА РІВНЕМ ВИТРАТ НА РЕКЛАМУ

K-S d =,06713, p > .20; Lilliefors p > .20

CountCountof Validof ValidCountExpectedExpectedExpected

,0 < x <= ,5

За даними таблиці частот розподілу фірм максимальне відхилення між функціями емпіричного і теоретичного розподілів припадає на п’ятий інтервал і станя критерію К-S d дещо відрізняється від наведеного в інформаційній частині таблиці, яке обчислюється за незгрупованими даними. Незважаючи на певні розбіжності значень критерію, обчислених за згрупованими і незгрупованими на основі частотна основі часток

новить 83,615,67? = 5,67 %, або 0,0567. Такий самий результат дістанемо на основі кумулятивних частот: .0567,0120:2,740,81=?

Як бачимо, це значенновить 83,615,67? = 5,67 %, або 0,0567. Такий самий результат дістанемо на основі кумулятивних частот: .0567,0120:2,740,81=?

Як бачимо, це значенданими, обидва значення К-S d значно менші за критичне при ? = 0,20, тож гіпотеза про нормальний розподіл фірм за рівнем витрат на рекламу не відхиляється.

Однією з передумов використання критерію К-S є неперервність теоретичного розподілу, відтак поза полем його дії залишаються дискретні розподіли. У цьому сенсі більш універсальним критерієм узгодженості є критерій Пірсона ??.

Статистична характеристика критерію ?? визначається на основі ряду розподілу як сума стандартизованих квадратів відхилень емпіричних частот (часток) від теоретичних: даними, обидва значення К-S d значно менші за критичне при ? = 0,20, тож гіпотеза про нормальний розподіл фірм за рівнем витрат на рекламу не відхиляється.

Статистична характеристика критерію ?? визначається на основі ряду розподілу як сума стандартизованих квадратів відхилень емпіричних частот (часток) від теоретичних: = j j

1 = j j

1 ? = ? =? m j j jj f ff

2 )( ) ) ? = ? =? m j j jj d dd n

2 )( ) ) ? = ? =? m j j jj f ff

2 )( ) ) ? = ? =? m j j jj d dd n

2 )( ) ) вірності 1– ? і числа ступенів свободи k = m – q – 1, де m — кількість інтервалів групування; q

— кількість параметрів функції (для нормального розподілу

Фактичне значення критерію ?? порівнюється з критичним )(

1 k ?? ? для ймовірності 1– ? і числа ступенів свободи k = m – q – 1, де m — кількість інтервалів групування; q

— кількість параметрів функції (для нормального розподілу

q = 2). Коли )(

2 k ?? ?