Posibniki.com.ua › Інформатика › Прикладні системи штучного інтелекту › 8.8. Програмні засоби для пошуку закономірностей між пов’язаними подіями

< Попередня Змiст Наступна >

8.8. Програмні засоби для пошуку закономірностей між пов’язаними подіями

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], деk t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

Дерево T – T t буде кращим, ніж Т, коли C ? ({t}) = C ? (T t ), оскільки при цій величині ? вони мають однакову вартість, але T – T t найменше з двох. Коли C ? ({t}) = C ? (T t ), ми одержуємо: R(T t ) + + ?|T t

| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t

| – 1).

Оскільки для будь-якого вузла t у Т

1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т

1 .

Обчислимо це значення ? для кожного вузла в дереві Т

1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вибір фінального дерева.

оцінкою реальної помилки: SE(R ts ) = (R ts (1 – R ts ) / n test )

0,5 , де n test — число прикладів у тестовій вибірці.

Перехресна перевірка (V-fold cross-validation) — найоригінальніша і найскладніша частина методу CART. Цей шлях вибору фінального дерева використовується, коли набір даних для навчання малий або кожний запис у ньому по-своєму унікальний так, що ми не можемо виділити вибірку для навчання і вибірку для тестування.

У такому разі будуємо дерево на всіх даних, обчислюємо ?

1 , ?

2 , ..., ? k та T

1 > T

2 > ... > T N . Позначимо Т k — найменше мінімізоване піддерево для ? ? [? k ; ? k+1 ).

Тепер ми хочемо вибрати дерево з послідовності, але вже використали всі наявні дані. Особливість у тому, що ми збираємося обчислити помилку дерева Т k із послідовності непрямим шляхом. ?

2 , ..., ? k та

1 >

2 > ... > N . Позначимо k — найменше мінімізоване піддерево для ? ? [? k ; ? k+1 ).

Крок 1. Установимо: ?

1 = 0,

322 ??=?,

433 ??=?,..., NNN ??=? ??11 Nkням для [? k ; ? k+1 ) і, отже, як значення відповідає T k .

Крок 2. Розділимо весь набір даних на V груп однакового розміру G

1 , G

2 ,..., G V . Брейман рекомендує брати V = 10. Потім для кожної групи G i : Крок 2.1. Обчислити послідовність дерев за допомогою описаного вище механізму відсікання на всіх даних, крім G i , і визначити T (i) (?

1 ), T (i) (?

2 ), ..., T (i) (? N ) для цієї послідовності. Крок 2.2. Обчислити помилку дерева T (i) (? k ) на G i . Тут T (i) (? k ) означає найменше мінімізоване піддерево з послідовності, побудоване на всіх даних, крім G i для ? = ? k .

Крок 3. Для кожного ? k підсумовувати помилку T (i) (? k ) за всіма G i (i = 1, ..., V). Нехай ? h буде з найменшою загальною помилкою. Оскільки ? h відповідає дереву T h , ми вибираємо T h з послідовності, побудованої на всіх даних як фінальне дерево. Показник помилки, обчислений за допомогою перехресної перевірки, можна використовувати як оцінку помилки дерева.

Альтернативний шлях — щоб вибрати фінальне дерево з послідовності, на останньому кроці можна знову використовувати правило 1–SE.

Крок 2. Розділимо весь набір даних на V груп однакового розміру G

1 , G

1 ), T (i) (?

1 , G

1 ), T (i) (?

Метод CART успішно поєднує в собі якість побудованих моделей і, при вдалій реалізації, високу швидкість їх побудови. Містить у собі унікальні методики обробки пропущених значень і побудови оптимального дерева сукупністю методів cost-complexity pruning і V-fold cross-validation.G i (i = 1, ..., V). Нехай ? h буде з найменшою загальною помилкою. Оскільки ? h відповідає дереву T h , ми вибираємо T h з послідовності, побудованої на всіх даних як фінальне дерево. Показник помилки, обчислений за допомогою перехресної перевірки, можна використовувати як оцінку помилки дерева.

0,5 , де n test — число прикладів у тестовій вибірці.

У такому разі будуємо дерево на всіх даних, обчислюємо ?

1 , ?

2 , ..., ? k та T

1 > T

2 > ... > T N . Позначимо Т k — найменше мінімізоване піддерево для ? ? [? k ; ? k+1 ).

Крок 1. Установимо: ?

1 = 0,

322 ??=?,

433 ??=?,..., NNN ??=? ??11 , ? N = ?. Вважається, що ? k буде типовим значенням для [? k ; ? k+1 ) і, отже, як значення відповідає T k .

Крок 2. Розділимо весь набір даних на V груп однакового розміру G

1 , G

2 ,..., G V . Брейман рекомендує брати V = 10. Потім для кожної групи G i :

• Крок 2.1. Обчислити послідовність дерев за допомогою описаного вище механізму відсікання на всіх даних, крім G i , і визначити T (i) (?

1 ), T (i) (?

2 ), ..., T (i) (? N ) для цієї послідовності.

• Крок 2.2. Обчислити помилку дерева T (i) (? k ) на G i . Тут T (i) (? k ) означає найменше мінімізоване піддерево з послідовності, побудоване на всіх даних, крім G i для ? = ? k .

R ts — помилка класифікації дерева, SE — стандартна помилка, що є

Метод IndCART є частиною пакета Ind і відрізняється від CART використанням іншого способу обробки пропущених значень, не здійснює регресійну частину методу CART і має інші параметри відсікання.

Метод DB-CART (distribution based CART) базується на такій ідеї: замість того щоб використовувати навчаючий набір даних для визначення розбиттів, використовуємо його для оцінки розподілу вхідних і вихідних значень і потім використовуємо цю оцінку, щоб визначити розбиття. Стверджується, що ця ідея дає значне зменшення помилки класифікації, порівняно зі стандартними методами побудови дерева.

Перевагами дерев рішень є: швидкий процес навчання; генерація правил у галузях, де експерту важко формалізувати свої знання; витяг правил природною мовою; інтуїтивно зрозуміла класифікаційна модель; висока точність прогнозу, порівнянно з іншими методами (статистика, нейронні мережі); побудова непараметричних моделей.

Методологія дерев рішень є важливим інструментом у роботі кожного фахівця, котрий займається аналізом даних, незалежно від того, практик він чи теоретик.

8.8. Програмні засоби для пошуку закономірностей між пов’язаними подіями

GUI Xelopes — бібліотека, що забезпечує універсальну основу для стандартного доступу до алгоритмів виведення. Вона була розроблена німецькою компанією ProdSys. Для зручної роботи з бібліотекою поставляється GUI інтерфейс GUI Xelopes, реалізований у вигляді окремого додатку. Він дозволяє виконувати такі основні функції:

• завантажити дані, представлені у вигляді текстового файлу формату ?.arff, і проглянути їх у табличному вигляді;

• одержати інформацію про атрибути даних (поля таблиці);

• одержати статичну інформацію про початкові дані;

• побудувати модель;

• для асоціативних правил, дерев рішень і дейтограм візуалізувати побудовану модель;

• зберегти модель і застосувати її надалі.

Існує також кілька модифікованих версій методу CART.

Завантаження і проглядання початкових даних

Використовуючи даний діалог, необхідно вибрати текстовий файл з даними, представленими у форматі ?.arff. Натискання на кнопку Open приведе до завантаження даних з вибраного файлу.

Після завантаження даних на панелі інструментів стають доступними такі кнопки: View Input Data — відображення початкових даних; Display Data Description

— отримання інформації про атрибути початкових даних; Display Descriptive Statistics — отримання статистичної інформації про початкові дані; Build Mining Model — генерація mining моделі для завантажених початкових даних.

Для проглядання початкових даних у табличному вигляді необхідно натиснути кнопку View Input Data на панелі інструментів або вибрати пункт меню File View Data Source. При цьому відкривається вікно, подане на рис. 2.25. У заголовку вікна відображається повний шлях до файлу, з якого були завантажені дані. Останні представляються у вигляді таблиці, в якій рядки відповідають досліджуваним об’єктам, а колонки — атрибутам, що характеризують їх. Над таблицею можна помітити інформацію про загальну кількість об’єктів (векторів), представлених у таблиці.

Рис. 2.25. Початкові дані в табличному вигляді (приклад)

У Xelopes розрізняють два основних типи атрибутів: категоріальний і числовий. Залежно від типу змінюється й інформація про атрибут. Для будь-якого атрибута виводиться його назва і тип.

Для категоріальних атрибутів (рис. 2.27) відображається інформація про значення, що приймаються ним (категоріях): кількості (Number of categories) і списку значень (Categories). Якщо кількість категорій не обмежена, то буде позначений прапорець unbounded categories.

Для числових атрибутів (рис. 2.27) відображається інформація про найбільше (Upper) і найменше (Lower) значення. Крім того, залежно від властивостей атрибута можуть бути встановлені такі прапорці:

• Cyclic — якщо значення атрибуту циклічні (тобто може бути визначено поняття відстані);

• Discrete — якщо значеннями атрибуту є дискретні величини;

• Time — якщо атрибут є часом.

Рис. 2.26. Інформація про категоріальний атрибут

Інформація про атрибути даних Інтерфейс GUI Xelopes дозволяє одержати докладну інформацію про атрибути завантажених даних. Для цього слід натиснути на кнопку Display Data Description на панелі інструментів. Інформація представляється в діалоговому вікні Variables (рис. 2.26.). У верхній частині вікна виводиться назва даних (на рисунку це weather). У правій частині вікна представлений список атрибутів. У лівій частині — інформація про вибраний атрибут залежно від його типу.

Рис. 2.27. Інформація про числовий атрибут

Побудова моделі

Для цього необхідно натиснути кнопку Build Model на панелі інструментів або вибрати пункт меню Model | Build. У результаті відкриється діалогове вікно, що пропонує побудувати один із типів моделі для завантажених раніше даних (рис. 2.28).

Рис. 2.28. Типи моделей, створюваних алгоритмами бібліотеки Xelopes

Для побудови доступні такі моделі:

• асоціативні правила (Association Rules Mining Model);

• дерева рішень (Decision Tree Mining Model);

• математична залежність, побудована методом SVM (Support Vector Machine Mining Model);

• послідовності (Sequential Mining Model);

• модель сиквенціального аналізу (Customer Sequential Mining Model);

• кластерна модель, що розділяється (Partition Clustering Mining Model);

• центрована кластерна модель (CDBased Clustering Mining Model);

• ієрархічна кластерна модель (Hierarchical Clustering Mining Model).

Після вибору моделі, що будується, необхідно виконати настроювання процесу побудови і алгоритм побудови (рис. 2.29). Настройки процесу залежать від типу моделі, що будується, і виконуються на закладці Settings (Настройки).

Рис. 2.29. Приклад настройок для побудови дерев рішень

Вибір алгоритму виконується на закладці Algorithm (алгоритм) (рис. 2.30.). Список доступних для побудови моделі алгоритмів залежить від типу моделі. Крім того, для деяких алгоритмів необхідно виконати додаткові настроювання. При їх виборі в полі Algorithm Parameters з’являються поля для визначення специфічних для алгоритму настройок.

Рис. 2.30. Приклад настройок алгоритму побудови дерев рішень

Для побудови моделі після виконання настройок необхідно натиснути на кнопку Build у діалоговому вікні. Після завершення побудови моделі з’явиться діалогове вікно (рис. 2.31), що пропонує виконати такі дії:

• візуалізувати модель (Browse Model);

• застосувати модель (Apply Model);

• показати модель у вигляді PMML (View PMML Presentation);

• записати модель у PMML-форматі (Save Model as PMML).

Для виконання вказаних дій необхідно вибрати відповідну опцію і натиснути на кнопку Next. Крім того, після побудови моделі на панелі інструментів стають доступними відповідні кнопки.

Рис. 2.31. Дії, виконувані з побудованою моделлю

Застосування моделі

Моделі класифікації, що будуються для завдань, і регресії використовуються для передбачуваних цілей на нових даних. Отже, вони можуть бути застосовані до інших даних. Для цього необхідно натиснути кнопку Apply Model на панелі інструментів та вибрати пункт меню Model | Apply або опцію Apply Model у діалоговому вікні, зображеному на рис. 2.31. У результаті буде запропоновано вибрати файл з новими даними, записаними у форматі *.arff (буде відкрито діалогове вікно, аналогічне зображеному на рис. 2.31.). Після вибору файла і застосування побудованої моделі буде відображене вікно, в якому нові дані будуть представлені в табличному вигляді (рис. 2.32).

Рис. 2.32. Результат застосування моделі до нових даних

У вікні, що відкрилося, у вигляді таблиці будуть представлені класифіковані дані. Як видно, таблиця алогічна тій, що зображена на рис. 2.32. Різниця полягає в новій колонці predicted_* класифікації, що описує результат (* — замінюється на атрибут класифікації). У вікні також виводиться інформація про ступінь помилки класифікації (Error rate).

Підготовка початкових даних. Процес підготовки припускає збір даних для аналізу з різних джерел даних і представлення їх у форматі, придатному для застосування алгоритмів data mining.

Версія Xelopes підтримує ARFF (Attribute-Relation File Format) формат подання даних. Він розроблений для бібліотеки Weka в

Структурно такий файл поділяється на дві частини: заголовок і дані.

У заголовку описується ім’я даних і їх метадані (імена атрибутів і їх типи). Наприклад: @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {true, false} @attribute whatIdo {will_play, may_play, no_play}

У другій частині подано самі дані. Наприклад @data overcast,75,55,false,will_play sunny,85,85,false,will_play sunny,80,90,true,may_play overcast,83,86,false,no_play rainy,70,96,false,will_play rainy,68,80,false,will_play rainy,65,70,true,no_play overcast,64,65,true,may_play sunny,72,95,false,no_play sunny,69,70,false,will_play rainy,75,80,false,will_play sunny,75,70,true,may_play overcast,72,90,true,may_play overcast,81,75,false,will_play rainy,71,91,true,no_play

< Попередня Змiст Наступна > Iншi роздiли:
Тема 9. УПРАВЛІННЯ ПРОЦЕСОМ РОЗВ’ЯЗАННЯ ЗАДАЧІ
9.2. Моделі евристичного пошуку рішень
Тема 10. ДЕДУКТИВНЕ ТА ІНДУКТИВНЕ ЛОГІЧНЕ ВИВЕДЕННЯ
10.5. Абдуктивне логічне виведення
Тема 11. ПСШІ, ЗАСНОВАНІ НА ЗНАННЯХ

Дисциплiни

Медичний довідник новини Кулінарний довідник Англійська мова Банківська справа Бухгалтерський облік Економіка Мікроекономіка Макроекономіка Етика та естетика Інформатика Історія Маркетинг Менеджмент Політологія Право Статистика Філософія Фінанси

Бібліотека підручників та статтей Posibniki (2022)