Posibniki.com.ua › Інформатика › Прикладні системи штучного інтелекту › Частина 2. Програмні засоби для пошуку закономірностей між пов’язаними подіями

< Попередня Змiст Наступна >

Частина 2. Програмні засоби для пошуку закономірностей між пов’язаними подіями

Заголовок містить інформацію про ім’я файла та метадані про представлені в ньому дані. Ім’я описується в такому форматі @relation <имя>. Ім’ям може бути будь-яка послідовність символів. Якщо ім’я включає пропуски, то його слід взяти в лапки. Наприклад @relation weather @relation «weather nominal»

Метадані описують атрибути представлені у файлі даних. Інформація про кожен атрибут записується в окремому рядку і включає ім’я атрибута та його тип. Очевидно, що імена мають бути унікальні. Порядок їх опису має збігатися з порядком колонок опису даних. Загальний формат опису атрибута такий: @attribute <ім’я атрибута> <тип атрибута>

університеті Waikato. ARFF-файл є ASCII-текстовим файлом, що описує список об’єктів із загальними атрибутами.

Наприклад: @attribute outlook {sunny, overcast, rainy} @attribute temperature real Ім’я атрибута має починатися із символу. У разі якщо воно містить пропуски, то має бути поміщено в лапки.

Значенням поля <тип> може бути один з таких п’яти типів:

• real

• integer

• <категорія>

• string

• date [<формат дати>]

Типи real і integer є числовими. Категоріальні типи описуються переліком категорій (можливих значень). Наприклад: @attribute outlook {sunny, overcast, rainy}

Описуючи дату, можна вказати формат, в якому вона записуватиметься (наприклад, «yyyy-MM-dd»).

Дані подаються в ARFF-форматі у вигляді списку значень атрибутів об’єктів після тега @data. Кожен рядок списку відповідає одному об’єкту. Кожна колонка відповідає атрибуту, описаному в частині заголовка. Причому порядок проходження колонок має збігатися з порядком опису атрибутів. Наприклад: @data overcast,75,55,false,will_play sunny,85,85,false,will_play sunny,80,90,true,may_play

Дані можуть містити пропущені (невідомі) значення. У ARFF вони представляються символом «?», наприклад: @data

4.4,?,1.5,?,Iris-setosa

Рядкові дані у разі якщо вони містять розділяючі слова символи, слід брати в лапки. Наприклад: @relation LCCvsLCSH @attribute LCC string @attribute LCSH string @data AG5, ‘Encyclopedias and dictionaries.;Twentieth century.’ AS262, ‘Science -- Union -- History.’ AE5, ‘Encyclopedias and dictionaries.’ AS281, ‘Astronomy, Assyro-Babylonian.;Moon -- Phases.’ AS281, ‘Astronomy, Assyro-Babylonian.;Moon -- Tables.’

Дати також мають бути поміщені в лапки. Якщо при описі відповідного атрибута був указаний формат дати, то дані мають бути записані відповідно до нього: @relation Timestamps @attribute timestamp DATE «yyyy-MM-dd HH:mm:ss» @data «2013-04-03 12:12:12» «2013-05-03 12:59:55»

Настройки для асоціативних правил і сиквенціального аналізу

Настройки для моделі, що представляє асоціативні правила, виконуються в діалоговому вікні, зображеному на рис. 2.33.

Рис. 2.33. Настройки моделі асоціативних правил

У ньому виконується настроювання таких параметрів:

• Minimum Support — мінімальне значення підтримки для шуканих частих наборів і асоціативних правил, що будуються. Значення має бути більшим від нуля, інакше не буде побудовано жодного правила.

• Minimum Confidence — мінімальне значення довіри для асоціативних правил, що будуються. Значення має бути більшим від нуля, інакше не буде побудовано жодного правила.

— атрибут, що унікально ідентифікує транзакції (ключове поле).

• Transaction ID Name

— атрибут, що є іменами об’єктів. Вони використовуються для побудови правил. Від його вибору залежить ступінь розуміння одержаних результатів.

• Item ID Name

Настройки для сиквенціальної моделі виконуються в діалоговому вікні, зображеному на рис. 2.34.

Рис. 2.34. Настройки сиквенціальної моделі

У ньому виконується настроювання аналогічної моделі асоціативних правил. Додатково з’являється параметр Item transaction position, який представляє атрибут, що ідентифікує позицію елементу в послідовності.

Настройки для дерев рішень (Decision Tree Mining Model).

Настройки для моделі, що представляє дерева рішень, виконуються в діалоговому вікні, зображеному на рис. 2.35.

Рис. 2.35. Настройки моделі дерев рішень

У ньому виконується настроювання таких параметрів:

• Target — атрибут, за яким виконується класифікація даних (незалежна змінна).

• Max depth — максимально допустима глибина дерева, що будується.

— максимально допустиме число замін.

• Max surrogates

— максимально допустима кількість розгалужень.

• Max splits

• Min node size — мінімальний розмір вузла дерева.

• Min decrease in impurity — мінімальний ступінь домішок.

Настройки для математичної залежності, побудованої методом SVM. Настройки для моделі, що представляє математичну залежність, побудовану методом SVM, виконуються в діалоговому вікні, зображеному на рис. 2.36.

Рис. 2.36. Настройки моделі SVM

У ньому виконується настроювання таких параметрів:

• Target — атрибут, за яким виконується класифікація даних (незалежна змінна).

— тип моделі SVM. У Xelopes можуть бути побудовані такі типи: C-SVC (classical SVM), Nu-SVC, one-class SCM, Epsilon-SVR (classic regression SVM), Nu-SVR. Вони відрізняються класифікаційної функції. Так, найбільше поширена SVM для завдання регресії Epsilon-SVR має функцію: ()()() bxxKxf M i iii +???=?? ? =1 ** ,,,,

• SVM Type

• Kernel Type — вид функції K(x, x i ) у класифікаційній функції (тип ядра). Може набувати таких значень:

• Kernel Type — вид функції K(x, x i ) у класифікаційній функції (тип ядра). Може набувати таких значень:

— Linear — Лінійна — K(x, y) = x*y

— Poly — Поліноміал ступеня — K(x, y) = (?* x*y + с

0 ) d

— RBF — Базова радіальна функція Гауса — K(x, y) = = exp(-?|| x – y||)

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 ) Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid. Algorithm Parameters — загальні параметри алгоритмів класу SVM:

— Poly — Поліноміал ступеня — K(x, y) = (?* x*y + с

0 ) d

— RBF — Базова радіальна функція Гауса — K(x, y) = = exp(-?|| x – y||)

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 ) Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid. Algorithm Parameters — загальні параметри алгоритмів класу SVM:

— RBF — Базова радіальна функція Гауса — K(x, y) = = exp(-?|| x – y||)

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 ) Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid. Algorithm Parameters — загальні параметри алгоритмів класу SVM: = exp(-?|| x – y||)

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 ) Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid. Algorithm Parameters — загальні параметри алгоритмів класу SVM:

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 ) Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid. Algorithm Parameters — загальні параметри алгоритмів класу SVM:

— С — інверсний регулюючий параметр M C ? =

1 ;

— Nu — параметр v в типі Nu

— SVM;

— Loss epsilon — ? функція втрат у типі Epsilon-SVR.

Настройки кластерної моделі. Настройки для кластерних центрованої і ієрархічних моделей виконуються в діалоговому вікні, зображеному на рис. 2.37.

— Linear — Лінійна — K(x, y) = x*y

— Poly — Поліноміал ступеня — K(x, y) = (?* x*y + с

0 ) d

— RBF — Базова радіальна функція Гауса — K(x, y) = = exp(-?|| x – y||)

— Sigmoid — Сигмоїдальна K(x, y) = tanh(?* x*y + с

0 )

• Kernel Parameters

— параметри ядра, залежать від вибраного типу ядра.

— Degree — ступінь d в ядрі poly;

— Gamma — параметр ? в останніх трьох видах;

— Coef0 — коефіцієнт с

0 в типах poly і sigmoid.

• Algorithm Parameters — загальні параметри алгоритмів класу SVM:

— С — інверсний регулюючий параметр M C ? =

1 ;

— Nu — параметр v в типі Nu

— SVM;

— Loss epsilon — ? функція втрат у типі Epsilon-SVR.

Рис. 2.37. Настройки для кластерної моделі

тоді як SVM для класифікації має вид: M

У ньому виконується настроювання таких параметрів:

• Maximum number of clusters — максимальна кількість побудованих кластерів. Значення параметра має бути більшим від нуля.

• Distance — параметри, що характеризують функцію обчислення відстані між об’єктами:

— Type

— тип функції відстані. Xelopes (Евклідове — Euclidean, Чебишева — Chebyshev та ін.)

— Comparison function — функція зіставлення.

— Normalized — функція нормалізації під час розрахунку відстаней.

Настройки для кластерної моделі виконуються в діалоговому вікні, зображеному на рис. 2.38.

Рис. 2.38. Настройки для кластерної моделі, що розділяється

У ньому виконується настроювання додаткових параметрів:

• Linkage — параметр для алгоритму k-linkage.

• Threshold — межа для відстані.

Аналіз моделей. Для застосування одержаних за допомогою методів data mining знань необхідно проаналізувати побудовані моделі. Під час аналізу необхідно перевірити, наскільки одержані знання є логічно з’ясовними, чи не суперечать вони здоровому глузду, чи дійсно вони є новими і т. ін. Крім того, моделі, що будуються під час розв’язування задач асоціативного аналізу і кластеризації, є описовими, тобто служать для кращого розуміння самих даних. У зв’язку з цим можна зробити висновок, що важ-

У GUI Xelopes будь-яка модель може бути представлена у форматі PMML. Це стандартизований формат, заснований на форматі XML.

Візуалізація асоціативних правил. Модель, що представляє асоціативні правила в GUI Xelopes, здійснюється у вигляді 3-мірних гістограм (рис. 2.39). По осях площини відкладаються підмножини частих наборів. LHS — означає ліву частину правил, RHS

— праву. На їх перетині рисують гістограму. За умовчанням висота гістограми відображає рівень підтримки правила, що включає в умовну і завершальну частини дані набори. Колір від синього до червоного (від меншого до більшого) — рівень довіри.

Наприклад, для правила Якщо (Сало) то (Хліб) нарисована червона висока гістограма, котра означає, що дане правило має найбільший ступінь підтримки з високим ступенем довіри. Правило Якщо (Лимонад) то (Горіхи) має низький рівень підтримки і низький ступінь довіри.

Рис. 2.39. Візуальне представлення асоціативних правил

Для детальнішого вивчення правил необхідно виділити гістограму на перетині наборів, які цікавлять. Візуально вони підсвічуються яскравішим кольором. На рис. 2.39 виділено гістограму Сало — Хліб. Для виділених наборів можна детальніше подивитися гістограми їх оцінок. Для цього необхідно на панелі інструментів, що знаходиться зліва від діаграми, натиснути кнопку . У результаті з’явиться діалог, зображений на рис. 2.40.

ливим є представлення моделей у вигляді, зручному для їх аналізу людиною.

Рис. 2.40. Діалог для деталізації оцінок асоціативних правил

У ньому можна вибрати, які оцінки мають бути деталізовані. Після натиснення на кнопку ОК, з’являться діаграми (рис. 2.41) оцінок для виділених наборів.

Рис. 2.41. Приклад діаграми підтримки

Візуалізація дерев рішень. Модель, що представляє дерева рішень у GUI Xelopes, наведена на рис. 2.42. Вузлами дерева є вирази, визначають розбиття множини об’єктів на підмножини. Нижня частина в

Рис. 2.42. Приклад візуалізації моделі дерева рішень

Рис. 2.43. Приклад візуалізації умови переходу по гілці

кожному вузлі відображає рівень входження в множину, відповідне вузлу об’єктів, які належать до різних класів. Можна помітити, що листя дерева відповідають підмножинам, які містять об’єкти одного класу, мають одноколірну нижню частину. Підписи на гілках дерева відображають умови переходу по цій гілці (рис. 2.43).

По кожному вузлу дерева можна одержати додаткову інформацію. Для цього необхідно виділити вузол, вибравши в контекстному меню пункт Node Information, або натиснути на кнопку Node Info на панелі інструментів зліва від діаграми. У результаті з’явиться вікно (рис. 2.43), в якому подано таку інформацію про вузол:

• Information — інформація про вузол:

— Score attribute — порівнюваний атрибут (залежна змінна);

— Score class — значення, з яким виконується порівняння;

— Records count

— кількість об’єктів, покритих вузлом;

— кількість гілок, що виходять з вузла.

• Class distribution — розподіл об’єктів, що належать до різних класів для даного вузла.

• Rule — класифікаційне правило, відповідне даному вузлу.

Візуалізація ієрархічної кластеризації. Модель, що представляє ієрархічну кластеризацію рішень в GUI Xelopes, зображено у вигляді дейтограми (рис. 2.44). Верхній вузол є кластером, який відповідає всій множині об’єктів. Лист відповідає кластерам, що містять по одному елементу з початкової множини.

За допомогою миші можна задати рівень кластеризації. На дейтаграмі він зображений у вигляді лінії. При цьому виводитиметься інформація про середню відстань між кластерами. Об’єднувані кластери за заданого рівня виділяються червоним кольором.

Рис. 2.44. Приклад візуалізації дейтограми

Стосовно кластеризації можна одержати детальнішу інформацію, натиснувши на кнопку на панелі інструментів. У результаті з’явиться вікно, зображене на рис. 2.45.

Рис. 2.45. Деталізована інформація про кластери

У вікні в табличному вигляді відображається інформація про кластери для заданого рівня. Над таблицею відображується інформація про кількість кластерів. Колонки в таблиці містять таку інформацію:

• N — номер кластерів.

• Distance — відстань між кластерами.

• Weight — вага кластера (у даному разі кількість тих об’єктів, що потрапили в кластер).

• Number of vectors — кількість тих об’єктів, що потрапили в кластер.

Натиснувши на кнопку View vectors, можна проглянути інформацію про початкові дані.

Резюме за змістом теми

Класифікація відіграє фундаментальну роль як логічний засіб цілісного опису деякої частини реального світу в тому, що передує етапу аналізу тонших, а тому й більш частинних зв’язків між поняттями ПРГ, які мають бути виявлені під час розв’язання конкретних прикладних проблем. Вона представляє системним аналітикам і розробникам функціональних завдань інтелектуальної системи цілісну сукупність інваріантних для даної ПРГ понять, які виконують роль природних координат для опису функціональних завдань і тим самим дозволяють обмежитися розглядом тільки допустимих класів сутності без втрати інформації. Крім того, збільшення ступеня абстракції, що досягається при переході від одного рівня класифікаційної схеми до іншого, дозволяє істотно підвищити виразність специфікації ПРГ, забезпечити чіткіше і більш стисле представлення інформації. При цьому відкривається можливість установлювати зв’язки не тільки між базовими поняттями ПРГ, що знаходяться на нижньому рівні класифікаційної схеми, але й між поняття-

У класифікаційних системах клас схожої сутності називають класифікаційним таксоном, а спосіб розчленовування цієї сутності на окремі частини, що дозволяє встановити їх схожість, — мерономією. Отже, таксон — це обсяг (екстенсіонал) деякого класу, а мерономія — зміст (інтенсіонал) поняття, що пов’язується з даним класом. Якщо таксономія визначає знання про зовнішню структуру зв’язків між класами сутності ПРГ, використовуючи багаторівневу абстракцію узагальнення і відношення є — деякий, то мерономія задає внутрішній устрій класів за допомогою відношення частина — ціле.

Таксономія і мерономія тісно пов’язані між собою. З одного боку, ознаки сутності служать для розділення і розпізнавання сутності, а з другого — для групування схожої сутності в класи (таксони).

Терміни та поняття до теми

Класифікація — одна з простих регулярних структур взаємозв’язків однотипних понять.

Архетип — це деяка внутрішня структура, яку можна виявити в усій сутності відповідного таксона.

Дерева рішень (дерева вирішальних правил) — один із методів автоматичного аналізу даних, що задає спосіб подання правил виду «Якщо — то» в ієрархічній послідовній структурі, де кожному об’єкту відповідає єдиний вузол, що надає рішення.

Вузол — це облікова структура даних, застосовувана для подання дерева пошуку. Кожен вузол має батьківський вузол, містить дані про стан і має різні допоміжні поля.

Листовий вузол — вузол, що не має нащадків у орієнтованому графі.

Периферія — колекція вузлів, що були сформовані, але ще не розгорнуті.

Питання для самоконтролю

1. Охарактеризуйте основні поняття теорії дерев рішень.

2. Які сфери застосування дерев рішень ви знаєте?

3. З яких операцій складаються кроки побудови дерева?

4. Яка різниця між таксономією і мерономією?

5. У результаті чого виникають Комбінативні (фасетні) класифікації?

6. Які програмні засоби використовують для пошуку закономірностей між пов’язаними подіями?

ми верхніх рівнів. Ця обставина робить поняття, створені в рамках класифікаційної схеми, гнучким інструментом аналізу ПРГ в цілому.

Завдання для індивідуальної роботи, обов’язкові та додаткові практичні завдання

1. Охарактеризуйте екстенсіональні та інтенсіональні аспекти класифікації.

2. Поясніть теоретико-множинні зв’язки між класом і поняттями.

3. Деревоподібні класифікації та їх використання.

4. Покажіть переваги та недоліки методів, що реалізують дерева рішень: CART, C4.5, NewId, ITrule, CHAID, CN2 тощо.

5. Програмні засоби для пошуку закономірностей між пов’язаними подіями.

Література для поглибленого вивчення матеріалу

1. Люгер Дж. Ф. Искусственный интеллект. — М. : Вильямс, 2005.

— 864 с.

2. Інформаційні системи в економіці : монографія / под ред. Устенко С. В. — К. : КНЕУ, 2011. — 424 с.

3. Іванченко Г. Ф. Системи штучного інтелекту : навч. посіб. — К. : КНЕУ, 2011. — 382 с.

< Попередня Змiст Наступна > Iншi роздiли:
9.2. Моделі евристичного пошуку рішень
Тема 10. ДЕДУКТИВНЕ ТА ІНДУКТИВНЕ ЛОГІЧНЕ ВИВЕДЕННЯ
10.5. Абдуктивне логічне виведення
Тема 11. ПСШІ, ЗАСНОВАНІ НА ЗНАННЯХ
Тема 12. ПРОДУКЦІЙНІ СИСТЕМИ ПСШІ

Дисциплiни

Медичний довідник новини Кулінарний довідник Англійська мова Банківська справа Бухгалтерський облік Економіка Мікроекономіка Макроекономіка Етика та естетика Інформатика Історія Маркетинг Менеджмент Політологія Право Статистика Філософія Фінанси

Бібліотека підручників та статтей Posibniki (2022)