Posibniki.com.ua › Статистика › Статистичне моделювання та прогнозування › 1.5. ТЕХНОЛОГІЯ СТАТИСТИЧНОГО МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ В СИСТЕМІ STATISTICA

< Попередня Змiст Наступна >

1.5. ТЕХНОЛОГІЯ СТАТИСТИЧНОГО МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ В СИСТЕМІ STATISTICA

Практичне використання нових технологій статистичного моделювання і прогнозування складних соціально-економічних явищ і процесів стало можливим завдяки появі інтегрованих систем аналізу й обробки даних, до яких належить Statistica (компанія–виробник StatSoft Inc.). Вдало поєднуючи традиційні й сучасні методи статистичного аналізу з новітніми комп’ютерними технологіями, система Statistica робить процес комплексної обробки даних високотехнологічним. Гнучка і потужна технологія доступу до інформаційних ресурсів дозволяє ефективно працювати як з таблицями даних на локальному диску, так і з віддаленими сховищами даних.

У системі Statistica взаємодіють такі основні компоненти:

• багатофункціональна система для роботи з даними — електронні таблиці для введення первинних даних і спеціальні таблиці для виведення результатів аналізу;

• потужна графічна система для візуалізації даних і результатів статистичного аналізу;

• набір спеціалізованих статистичних модулів, у яких реалізовані групи логічно пов’язаних між собою статистичних процедур;

• спеціальний інструментарій для підготовки звітів.

Отже, в системі Statistica можна виконати усі етапи статистичного дослідження – від формування масиву первинних даних до підготовки звіту. Процедури системи мають високу швидкість і точність обчислень. Величезні масиви даних надзвичайно швидко перетворюються, обробляються і з’являються на екрані у вигляді таблиць, графіків, діаграм, статистичних характеристик.

Відповідно до основних структурних компонент система Statistica працює з чотирма типами документів, а саме:

• електронна таблиця Spreadsheet призначена для введення первинних даних та попередньої їх трансформації (стандартизації, ранжирування та ін.);

• електронна таблиця Scrollsheet

— для виведення результатів аналізу;

• графік — для візуалізації результатів обробки й аналізу даних;

• звіт — файл у форматі *rtf , у якому може зберігатися текстова, числова і графічна інформація.

Кожен тип документа виводиться у власному вікні відповідного структурного компонента системи. Тільки-но це вікно стає активним, змінюється панель інструментів і меню, з’являються настанови і команди, кожна з яких активізує певну аналітичну процедуру. Усі основні операції обробки даних і графічної візуалізації доступні у будь-якому модулі і на будь-якому кроці аналізу, вибір їх у конкретному дослідженні здійснюють за допомогою альтернативного користувацького інтерфейсу.

Первинні дані організуються у вигляді електронної таблиці Spreadsheet, рядки і стовпці якої мають чітке призначення (табл. 1.10). У рядках таблиці розміщуються елементи сукупності (спостереження, об’єкти) — Cases. У нульовому стовпці за умовчанням вказані номери спостережень, для конкретного файлу даних ці номери можна замінити іменами елементів сукупності або датами часового ряду. Стовпці таблиці Variables призначені для ознак (варіантів, показників), які можуть бути виміряні різними шкалами. За умовчанням ознаки мають імена Var1, Var2, …, Var10. Специфікацію ознак (ім’я, формат, інші атрибути) задають користувачі.

Таблиця 1.10

МАКЕТ ЕЛЕКТРОННОЇ ТАБЛИЦІ SPREADSHEET

Увести первині дані до таблиці можна:

— безпосередньо з клавіатури;

— імпортуванням даних з інших Windows-додатків, наприклад з Exсel;

— трансформацією наявного масиву даних за допомогою певних операцій (ранжирування, стандартизації), математичних чи статистичних функцій (ln, sin тощо).

Електронна таблиця з первинними даними зберігається у файлах формату *sta. Для роботи з таблицями первинних даних система Statistica застосовує різні операції, зокрема:

• операції, що змінюють структуру електронної таблиці: Add — додати, Move — перемістити, Copy — копіювати, Delete — видалити;

• операції, що задають специфікацію ознак і спостережень, — Specs;

• операції з виділеними блоками, які орієнтовані на специфіку статистичної обробки даних: Rank — ранжирування, Standardize — стандартизація, Recode — перекодування значень ознаки, Shift — зсув даних вгору чи вниз на певний лаг,

Recalculate — перерахунок значень ознак, інші операції. Ці операції змінюють значення даних у таблиці, але не змінюють структуру файлу.

Операції для роботи з первинними даними електронної таблиці доступні в будь-якому модулі системи Statistica. Пропонується кілька альтернативних способів доступу до відповідних команд. 1. На панелі інструментів електронної таблиці: кнопки Vars і Саsеs; вікно Data.

2. Контекстні меню, які викликаються за допомогою правої кнопки миші й уможливлюють швидкий доступ до найбільш поширених команд для роботи з тим чи іншим об’єктом в активному вікні (ознаками, окремими спостереженнями, блоками даних).

На рис. 1.3 наведено перелік операцій над ознаками Vars і спостереженнями Саsеs, орієнтованих на специфіку статистичної обробки даних, а також інструменти аналізу — Tools.

Vars	Саsеs
	Tools

Рис. 1.3. Основні операції над ознаками Vars і спостереженнями Саsеs та інструменти аналізу Tools

Операції над ознаками. Основні операції над ознаками наведено в нижній частині меню Vars. За командою Rank первинні значення однієї чи більше ознак замінюються рангами. Задля збереження первинних даних спершу необхідно копіювати значення ознак, а потім здійснювати їх ранжирування. Розглянемо функціональне призначення основних опцій команди Rank Order Values (рис. 1.4).

Assign rank to (надати ранг 1). Значення можна ранжирувати за зростанням, коли найменшому значенню (smallest value) приписується перший ранг, або за убуванням, коли ранг 1 приписується найбільшому значенню (largest value). Ranks for ties (збіжні ранги). Опція mean (середній) означає, що рангам збіжних значень ознаки приписується середній ранг. Type of ranks (типи рангів): regular (звичайний) — діапазон ранжирування від 1 до n; fractional (дробовий) — діапазон ранжирування від 0 до 1; fractional аs % (дробовий у %)

— дробове ранжирування, виражене процентами.

Рис. 1.4. Опції команди Rank

Командою Standardize (стандартизація) первинні значення вибраних ознак х іj замінюються стандартизованими значеннями z ij .

Команда Shift (Lag) виконує зсув значень ознаки відносно поточної позиції вперед (униз) чи назад (угору) на певний лаг (рис. 1.5). У діалоговому вікні необхідно вказати ім’я ознаки, лаг і напрямок зсуву (Forward або Backward). Команду Shift (Lag) застосовують переважно в аналізі часових рядів.

Рис. 1.5. Опції команд Standardize і Shift (Lag)

За командою Recode Variables можна перекодувати значення ознак, тобто первинні значення замінити новими. Наприклад, міста за чисельністю населен-

ня: 150, 246, 514, 1020, 2567 тис. осіб можна поділити на групи: великі (понад 1000 тис.), середні (від 200 тис. до 1000 тис.) і малі (до 200 тис.). Відповідно в діалоговому вікні команди Recode необхідно заповнити три рамки Category, вибрати опцію include if (включити якщо) і в рамці New Value вказати назву групи (табл. 1.11).

Таблиця 1.11

ПРИКЛАД ПЕРЕКОДУВАННЯ ЗНАЧЕНЬ ОЗНАК (ТРИ ГРУПИ)

Рамка Category	Опція include if (включити якщо)	Рамка New Value
Category1V	4 < 200	малі
Category2	200 < = V4 and V4 < 1000	середні
Category3V	4 >= 1000	великі

Розміщені в електронних таблицях Spreadsheet первинні статистичні дані можуть набувати як числових, так і словесних (текстових) значень. У системі Statistica реалізовано так званий механізм «подвійного запису», за яким встанотове значення. Пояснимо суть подвійного запису на прикладі оцінок фінансової надійності страхових компаній за такими показниками: обсяг страхових резервів, млн грн; застосування операцій перестрахування ризиків (так, ні); рівень фінансової надійності (достатній, задовільний, граничний). Еквіваленти між числовими і текстовими значеннями ознак встановлюються в редакторі тексту ярликів

влюється еквівалент між числовим і текстовим значеннями ознак: число = тексвлюється еквівалент між числовим і текстовим значеннями ознак: число = текс

— Text Labels Editor (рис. 1.6). Надамо еквіваленти текстовим ознакам фінансової надійності страхових компаній: операції перестрахування ризиків (1

— застосовують, 0

— не застосовують); рівень фінансової надійності (2 — достатній, 1 — задовільний, 0 — граничний).

Рис. 1.6. Редактор тексту ярликів Text Labels Editor

Наявність механізму «подвійного запису» ознак істотно спрощує роботу з текстовими даними: замість того, щоб уводити текстові значення, можна ввести числові, а потім приписати їм текстові еквіваленти. Переключатися з одного типу даних на інший допоможе команда Show/Hide Text Labels, кнопка якої

розміщена на панелі інструментів. У системі є обмеження на довжину текстового значення — не більш як 8 символів.

Розглянуті операції над ознаками доступні також у меню вікна Data (рис. 1.7). Окрім них, меню містить команду Sort, яка виконує сортування даних за значеннями ознак (ключів) або за іменами спостережень. В системі реалізований принцип ієрархічного (вкладеного) сортування даних, коли рядки розміщуються за значеннями одного ключа, а якщо ознака має два однакові значення, застосовують другий ключ.

Рис. 1.7. Контекстне меню вікна Data

Операції з таблицями даних змінюють структуру первинного файлу. Так, команда Subset/Sampling — підмножина / випадкове формування — призначена для створення з первинного файлу даних нової таблиці на основі вибраної в певний спосіб підмножини спостережень. У діалоговому вікні Сreate а Subset/ Random sampling пропонуються різні способи формування вибірки: власне випадковий, систематичний, стратифікований та ін. (рис. 1.8).

Рис. 1.8. Способи формування вибірки

Якщо з’являється необхідність об’єднання двох файлів, можна скористатись опціями команди Merge — злиття. У діалоговому вікні Merge Options реалізовані три способи об’єднання файлів: ознак, спостережень і текстових значень (рис. 1.9). У рамці Mode необхідно вказати режим об’єднання, а в рамці Unmatched Cases — способи об’єднання даних в разі, коли спостереження несумісні через різну кількість спостережень або різні значення ключів.

Рис. 1.9. Опції команди об’єднання файлів Merge Options

Важливою процедурою формування інформаційної бази статистичної моделі є перевірка введених (імпортованих) даних щодо дотримання ними певних, заданих користувачем умов. За командою Verify Data відкривається однойменне діалогове вікно (рис.1.10), у якому в рамці Condition вказуються умови, яким має відповідати спостереження (допустиме значення ознаки, допустимий діапазон значень ознаки або інша умова логічної несуперечливості даних). Опція All conditions are met означає: вважати випадок правильним, якщо він відповідає всім заданим умовам; опція At least one condition is met правильним вважає випадок, якщо він відповідає одній хоча б з умов.

У процесі статистичної обробки даних у будь-якому модулі системи генеруються набори графіків і електронних таблиць Scrollsheet. Електронні таблиці результатів аналізу можуть містити як числову, так і текстову інформації, вони підтримують усі стандартні операції з виділеними блоками даних. Більша частина операцій над результатами аналізу в таблиці Scrollsheet доступна через контекстні меню.

Рис. 1.10. Опції команди Verify Data щодо дотримання умов формування інформаційної бази

Набори файлів, які були створені чи використані під час аналізу даних (таблиці результатів, графіки, умови перекодування тощо), формують робочу книгу файлів (Workbook). Тільки-но файл результатів (підсумковий чи проміжний) відкривається (зберігається), його ім’я автоматично додається до черги файлів у полі робочої книги. Черга файлів має фіксовану довжину (32) і управляється за принципом закриття найстаршого вікна в момент генерації нового. Таблицю Scrollsheet можна відредагувати, зберегти як файл результатів аналізу (формат *scr) або конвертувати в первинні дані (файл у форматі *sta), можна експортувати в інші Windows додатки.

Важливою характеристикою системи є наявність засобів усебічної графічної підтримки процесу обробки даних і візуалізації результатів аналізу. Графічні можливості й засоби системи Statistica унікальні. Вона містить сотні різноманітних категорій і типів користувацьких та спеціальних статистичних графіків, які доступні в будь-якому модулі й на будь-якому етапі статистичної обробки даних. Це всілякі графіки на площині і в просторі, серед них наукові графіки в різних системах координат, ділові графіки і діаграми, спеціалізовані статистичні графіки (гістограми, діаграми розкиду тощо), піктографіки. Залежно від ступеню охоплення первинного масиву даних, що міститься в електронній таблиці, графіки поділяють на статистичні (Stat. Graphs) і користувацькі (Customs Graphs). Статистичні графіки призначені для візуалізації всього масиву даних, до цієї категорії належать спеціалізовані статистичні графіки, а також Quick Stаt. Graph. Користувацькі графіки призначені для візуалізації виділеного користувачем діапазону даних (блокові статистичні графіки). Усі ці графіки підтримують динамічні зв’язки з первинними даними: зі зміною даних змінюються графіки.

На додаток до великої кількості готових статистичних графіків користувач може самостійно задавати різні типи візуалізації первинних даних, описових статистик, взаємозв’язків між ними, угруповань і категорій за допомогою засобів прямого доступу (point-and-click). Інструменти компонування складної графічної інформації з текстовою і числовою розглядаються в кожному модулі.

У системі Statistica передбачені різні способи доступу до графічних засобів, зокрема через меню Graphs на панелі інструментів або через контекстні меню. На рис. 1.11 наведено галерею статистичних графіків меню Graphs. Кожний клас графіків надає надзвичайно широкі можливості візуалізації даних, про що свідчить деталізація графіків класу 2D.

Меню Graphs	2D Graphs

Рис. 1.11. Галерея графіків меню Graphs

Найбільш поширені види графіків можна отримати за командами Graphs of Input Data (графіки первинних даних) i Graphs of Block Data (графіки блоку даних) у меню Graphs або в контекстному меню (рис. 1.12). За першою командою відбувається візуалізація виділеного стовпчика первинних даних у цілому, за другою — виділеного діапазону значень (блоку) як первинних даних, так і результатів аналізу.

Graphs of Input DataGraphs of Block Data

Рис. 1.12. Види графіків контекстного меню Іноді окрім виведення на екран результатів аналізу у вигляді таблиць і графіків, необхідно створити спеціальний файл реєстрації всіх цих результатів. Такий файл називають звітом. Звіт і робочу книгу можна створити вручну за допомогою команд Add to Report та Add to Workbook на панелі інструментів або з меню File. Системою Statistica передбачена можливість автоматичного створення звіту. У такому разі всі таблиці і графіки, які виводяться на екран, автоматично посилаються у файл зі звітом. Автоматичне формування звіту й робочої книги здійснюється за опціями вкладки Report output (виведення звіту), доступ до якої можна здійснити або в меню File, або в меню Tools (інструменти): а) у меню File: команда Output Manager (менеджер виведення) ? діалогове вікно Options ? вкладка Report output; б) в меню Tools: діалогове вікно Options ? команда Output Manager ? вкладка Report output.

На вкладці Report output необхідно вибрати опцію, за якою має формуватися звіт: Multiple report (багато звітів), Singl report (один звіт), Existing report (існуючий звіт). Тобто можна кожну таблицю / графік помістити в окремий звіт, усі таблиці / графіки помістити в один звіт або додати в уже наявний звіт, вказавши його повне ім’я через кнопку Browse (огляд). У звіті формату *rtf може зберігатися будь-яка текстова, числова чи графічна інформація.

Модулі системи Statistica

Система Statistica організована за модульним принципом, тобто всі статистичні методи обробки даних розбиті на окремі модулі згідно з основними розді-

лами статистичного аналізу. Модуль об’єднує групу логічно пов’язаних між собою статистичних методів і в межах конкретної моделі забезпечує повний і всебічний аналіз даних (рис. 1.13). Тобто система ніби задає «кліше» аналізу та надає всі необхідні для аналізу інструменти, тож дослідник не перевантажений обчислювальними процедурами, але мусить знати аналітичні можливості запропонованих системою інструментів дослідження.

Statistics

Рис. 1.13. Модулі системи Statistica

Так, модуль Basic Statistics/Tables — Основні статистики і таблиці — пропонує широкий вибір методів розвідувального статистичного аналізу: середні величини, характеристики варіації й форми розподілу, групування й однофакторний дисперсійний аналіз, кореляційні матриці і таблиці кростабуляцій, критерії для тестування гіпотез щодо законів розподілу, істотності зв’язку та ін.

У модулі Multiple Regression — Множинна регресія — реалізовано вичерпний набір засобів множинної лінійної й фіксованої нелінійної регресії, аналіз залишків і викидів, тестування гіпотез регресійного аналізу, довірчі межі параметрів моделі і предиктів, багато інших статистик.

У модулі ANOVA — Дисперсійний аналіз — реалізовані методи однофакторного дисперсійного аналізу, там же можна обробляти неповні плани (на латинських і греко-латинських квадратах, випадкові блочні плани) і надзвичайно складні плани.

Модуль Nonparametrics містить повний набір непараметричних статистик, серед них усі стандартні тести й деякі спеціальні прикладні статистики: ? 2

Пірсона, коефіцієнти контингенції, спряженості Крамера, рангової кореляції Спірмена і Кендала, конкордації тощо.

Розширений блок дослідницьких методів Аdvanced Linear/Nonlinear Models містить модулі: Nonlinear Еstimation — Нелінійне оцінювання, Time Series/Forecasting — Часові ряди і прогнозування, Structural Equation Modeling — Моделювання структурними рівняннями та ін. За допомогою спеціальних модулів нелінійного оцінювання можна побудувати практично будь-яку визначену користувачем нелінійну модель, там же передбачено наперед задані моделі: логіт-, пробіт-моделі тощо. Об’єктом моделювання структурними рівняннями є складні системи, внутрішня структура яких невідома. Структурні рівняння описують взаємну залежність між параметрами системи.

Модуль Time Series/Forecasting об’єднує процедури аналізу закономірностей динаміки — тенденцій розвитку і коливань. Модуль пропонує різні методи згладжування рядів, описування трендів, сезонної декомпозиції, авторегресійного аналізу, прогнозної екстраполяції.

Блок модулів Multivariate Exploratory Techniques містить увесь арсенал методів багатовимірного аналізу: кластерний, дискримінантний, факторний, факторне шкалювання, канонічні кореляції.

Модулі системи Statistica покривають майже весь спектр сучасних методів статистичного моделювання. У кожному модулі робота починається з відкриття файлу даних — Open data і вибору ознак — Variables для аналізу. У стартовому вікні модуля праворуч унизу доступні також команди:

• Select cases — процедура вибору підмножини спостережень для аналізу;

• Weight — надання ознакам ваг;

• MD code — код, який приписується пропущеним даним.

Команду Select cases застосовують тоді, коли необхідно проаналізувати не всю сукупність, а певну її частину. Умови вибору підмножини спостережень визначаються в діалоговому вікні Case Selection Conditions (рис. 1.14), яке доступне також із верхнього меню кнопки Selection Conditions (умови вибору) або меню Tools (інструменти). Щоб включити умови вибору, необхідно встановити прапорець на Enable Selection Conditions. Коли підмножина формується для подальшого аналізу, вибирається опція Include cases, i навпаки, коли виключається із подальшого аналізу, — опція Eхclude cases. У полі Expression записують лише ті спостереження, у яких значення ознаки не перевищує встановлений рівень. У полі Or case number можна просто перерахувати номери спостережень, які або включаються в аналіз, або не включаються. Наприклад, 1—10 означає, що в аналіз включені (не включені) спостереження з № 1 по № 10. Більш склад-

умови вибору, наприклад, за умови Include cases v1<=Z будуть аналізуватися умови вибору, наприклад, за умови Include cases v1<=Z будуть аналізуватися

ні умови вибору можна задати за допомогою логічних операторів And (і), Or (або), Not (ні). При цьому необхідно дотримуватися певних правил: для кількісної ознаки вказують її номер (v1, v2) або ім’я; текстові одиничні ознаки беруть у лапки (наприклад, «так»), а складні — в дужки.

Рис. 1.14. Діалогове вікно вибору умов формування підмножини спостережень, команда Case Selection Conditions MD code (Мissing Data Code) — код пропущених даних. Незаповнені клітинки таблиць — одна з проблем, з якими стикається дослідник. У системі Statistica передбачено процедури приписування пропущеним даним певного коду, який фіксується в специфікації ознаки. За умовчанням код становить — 9999. Користувачеві дається можливість встановити інше значення коду в стартовому вікні конкретного модуля, а також коригувати його спеціально для того чи іншого методу аналізу. Основні способи розв’язання проблеми пропущених даних:

• генерувати нові дані на заміну пропущених, скажімо, заміняти пропуски середніми значеннями;

• вилучати рядки чи стовпчики з пропущеними даними (за умови, що таких рядків небагато);

• застосовувати нечутливі до пропущених даних методи (робастні оцінки).

У діалогових вікнах окремих модулів системи Statistica пропонується 2— 3 способи заміни пропущених даних, зокрема: Casewise (виключення пропущених спостережень), коли в електронній таблиці ігноруються всі рядки (спостереження), що мають хоча одне пропущене значення. Pairwise (парний спосіб виключення пропущених значень), коли ігноруються пропущені спостереження не всіх ознак, а лише обраної пари. Це стосується, наприклад, обчислення кореляційної матриці. Але при цьому різні коефіцієнти будуть визначатися за різною кількістю спостережень. Mean Substitution (заміна пропущених значень середніми рівнями).

Не рекомендується замість пропущених даних вставляти нулі.

У кожному модулі системи Statistica за допомогою вкладки Quick можна миттєво без будь-яких діалогових вікон обчислити широкий спектр основних статистик для однієї чи цілого списку ознак. Доступний також зручний інтерактивний калькулятор імовірнісних розподілів — Probability Calculator. Він підтримує безліч типів стандартних розподілів (нормальний, експоненціальний, Стьюдента, Пірсона, Фішера, Парето, Вейбула, Коші, бета тощо) і дає можливість інтерактивно аналізувати структуру розподілу.

У системі Statistica реалізований принцип постійної логічної підказки. Якщо користувач не може визначитися щодо наступного кроку діалогу, через команду Enter система сама відправить до відповідного діалогового вікна. Якщо виникають труднощі з вибором параметрів обчислювальної процедури, вони задаються системою «за умовчувнням».

< Попередня Змiст Наступна > Iншi роздiли:
РОЗВІДУВАЛЬНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ
2.2. ЧАСТОТНИЙ АНАЛІЗ СТРУКТУРИ ДАНИХ
2.3. РОЗВІДУВАЛЬНИЙ АНАЛІЗ КОРЕЛЯЦІЙ
2.4. ТАБЛИЦІ КРОСТАБУЛЯЦІЇ
МОДЕЛІ БАГАТОВИМІРНОЇ КЛАСИФІКАЦІЇ

Дисциплiни

Медичний довідник новини Кулінарний довідник Англійська мова Банківська справа Бухгалтерський облік Економіка Мікроекономіка Макроекономіка Етика та естетика Інформатика Історія Маркетинг Менеджмент Політологія Право Статистика Філософія Фінанси

Бібліотека підручників та статтей Posibniki (2022)