Posibniki.com.ua › Інформатика › Прикладні системи штучного інтелекту › 7.4. Різновиди алгоритму Apriori

7.4. Різновиди алгоритму Apriori

Уведення інформації про групування елементів може використовуватися для відсікання «нецікавих» правил.

Для знаходження таких правил можна використовувати кожний з вищезгаданих методів. Для цього кожну транзакцію потрібно доповнити всіма предками кожного елементу, що входить у транзакцію. Однак пряме застосування цих методів неминуче приведе до таких проблем:

— елементи на верхніх рівнях ієрархії прагнуть до значно більших значень підтримки порівняно з елементами на нижніх рівнях;

— з додаванням у транзакції груп збільшується кількість атрибутів і, відповідно, розмірність вхідного простору. Це ускладнює завдання, а також веде до генерації більшої кількості правил;

ваються в часі, об’єктами множини I є події, а відношення порядку відповідає хронології їх появи.

— поява надлишкових правил, що суперечать визначенню узагальненого асоціативного правила. Отже, потрібні спеціальні оператори, що видаляють подібні надлишкові правила.

Виявлення узагальнених асоціативних правил.

Нехай I — ліс спрямованих дерев. Дуги в I — це залежності між елементами. Нехай елементи, що належать I, розташовані в деякій ієрархії. Якщо є дуга від a до b, то говорять, що a — предок b та b — нащадок a (a — це узагальнення b).

Необхідно знайти закономірності, що є узагальненими асоціативними правилами виду X?Y, причому supp(X?Y) ? minsupport та conf(X?Y) ? minconfidence.

Це визначення задачі має одну проблему. Справа в тому, що за такого визначення задачі, будуть знайдені «зайві» узагальнені асоціативні правила. Для розв’язання цієї проблеми розглянемо такий параметр правила, як рівень інтересу.

Визначення «цікавих» правил.

Нехай множини елементів, що входять в Z тільки в тому випадку, якщояхом підміни одного чи кількох елементів їхніми предками. Будемо називати правила предками правила X?Y. найближчим предком правила X ? Y, якщо не існує такого правила X?Y, що X?Y — це предок X?Y та X?Y — це предок X?Y.

Z — це предок Z, де Z та Z — ієрархію (Z, Z ? I). Z є предком Z можна одержати із Z шлX?Y, X?Y, X?Y

Правило X?Y є

Подібні визначення можна дати і для правил: X?Y, X?Y.

Нехай Pr(X) — це ймовірність того, що всі елементи з X міс

тяться в одній розширеній транзакції. Тоді supp(X?Y) = Pr(X?Y) та conf(X?Y) = Pr(Y|X). Якщо підтримка {x,y} більше значення мінімальної підтримки, то і підтримка {x,y}, і підтримка {x,y}, і підтримка {x,y} будуть більше порога мінімальної підтримки. Однак якщо вірогідність правила X?Y більше мінімальної вірогідності, тільки правило X?Y гарантовано буде мати вірогідність більшу, ніж мінімальна. Підтримка елементу, узятого із внутрішнього рівня ієрархії, не дорівнює сумі підтримок елементів, що є безпосередніми нащадками цього елементу. Pr(X?Y) та conf(X?Y) = Pr(Y|X). Якщо підтримка {x,y} більше значення мінімальної підтримки, то і підтримка {x,y}, і підтримка {x,y}, і підтримка {x,y} будуть більше порога мінімальної підтримки. Однак якщо вірогідність правила X?Y більше мінімальної вірогідності, тільки правило X?Y гарантовано буде мати вірогідність більшу, ніж мінімальна. Підтримка елементу, узятого із внутрішнього рівня ієрархії, не дорівнює сумі підтримок елементів, що є безпосередніми нащадками цього елементу.

Розглянемо правило X?Y. Нехай Z = X ? Y. Помітимо, що supp(X?Y) = supp(Z). Назвемо E Z [Pr(Z)] очікуваним значенням Pr(Z) відносно Z. Нехай Z = {z

1 , ..., z n }, Z={z

1 , ..., z j , z j+1 , ..., z n }, 1 ? j ? n. Тоді можна визначити:supp(X?Y) = supp(Z). Назвемо E Z [Pr(Z)] очікуваним значенням Pr(Z) відносно Z. Нехай Z = {z

1 , ..., z n }, Z={z

1 , ..., z j , z j+1 , ..., z n }, 1 ? j ? n. Тоді можна визначити:Pr(Z) відносно Z. Нехай Z = {z

1 , ..., z n }, Z={z

1 , ..., z j , z j+1 , ..., z n }, 1 ? j ? n. Тоді можна визначити:

1 n

1 j j+1 n 1 ? j ? n. Тоді можна визначити:тяться в одній розширеній транзакції. Тоді supp(X?Y) = Pr(X?Y) та conf(X?Y) = Pr(Y|X). Якщо підтримка {x,y} більше значення мінімальної підтримки, то і підтримка {x,y}, і підтримка {x,y}, і підтримка {x,y} будуть більше порога мінімальної підтримки. Однак якщо вірогідність правила X?Y більше мінімальної вірогідності, тільки правило X?Y гарантовано буде мати вірогідність більшу, ніж мінімальна. Підтримка елементу, узятого із внутрішнього рівня ієрархії, не дорівнює сумі підтримок елементів, що є безпосередніми нащадками цього елементу.

1 , ..., z n }, Z={z

1 , ..., z j , z j+1 , ..., z n }, 1 ? j ? n. Тоді можна визначити:

Аналогічно E X?Y [Pr(Y|X)] визначимо як очікуване значення ві

Аналогічно E X?Y [Pr(Y|X)] визначимо як очікуване значення ві

Правило X?Y називається R-цікавим щодо правила-предка, якщо підтримка правила X?Y у R разів більше очікуваної підтримки правила X?Y щодо предка або якщо вірогідність правила X?Y у R разів більше очікуваної вірогідності правила X?Y щодо правила-предка.

Правило X?Y називається R-цікавим щодо правила-предка, якщо підтримка правила X?Y у R разів більше очікуваної підтримки правила X?Y щодо предка або якщо вірогідність правила X?Y у R разів більше очікуваної вірогідності правила X?Y щодо правила-предка.

Цікавим називається правило, якщо в нього немає предків або воно є R-цікавим щодо усіх своїх найближчих предків.

Частково цікавим називається правило, якщо в нього немає предків або воно є R-цікавим щодо будь-якого свого найближчого предка.

Тепер задачу виділення узагальнених асоціативних правил можна сформулювати по-новому: необхідно знайти закономірності, що є узагальненими асоціативними правилами виду X?Y, причому підтримка правила X?Y більше або дорівнює деякому наперед заданому значенню мінімальної підтримки і вірогідність більше або дорівнює значенню мінімальної вірогідності та правила X?Y є цікавими або частково цікавими.

Метод обчислення узагальнених асоціативних правил можна розбити на кілька етапів.

Етап 1. Пошук множин елементів, що часто трапляються, підтримка яких більше, ніж заданий поріг підтримки (мінімальна підтримка).

Етап 2. Обчислення правил на основі знайдених на попередньому етапі множин елементів, що часто трапляються. Основна ідея обчислення правил на основі множин, що часто трапляються, полягає в такому: якщо ABCD — це множина елементів, що часто траплються, то на основі цієї множини можна побудувати

правила X?Y (наприклад, AB?CD), причому X?Y = ABCD. Підтримка правила дорівнює підтримці множини, що часто трапляллється. Вірогідність правила обчислюється за формулою conf(X?Y) = supp(X?Y)/supp(X). Правило додається до резуль-conf(X?Y) = supp(X?Y)/supp(X). Правило додається до резуль-правила X?Y (наприклад, AB?CD), причому X?Y = ABCD. Підтримка правила дорівнює підтримці множини, що часто трапляллється. Вірогідність правила обчислюється за формулою conf(X?Y) = supp(X?Y)/supp(X). Правило додається до резуль-

Етап 3. З результуючого списку правил видаляються всі «нецікаві» правила.

Базовий метод пошуку множин, що часто трапляються.

На першому кроці методу підраховуються одноелементні набори, що часто трапляються. При цьому елементи можуть знаходитися на будь-якому рівні таксономії. Для цього необхідно переглянути весь набір даних і підрахувати для них підтримку, тобто скільки разів трапляються в базі.

Наступні кроки будуть складатися з двох частин: генерації потенційних наборів елементів, що часто трапляються, (їх називають кандидатами) і підрахунку підтримки для кандидатів.

Даний метод можна записати як послідовність кроків.

Крок 1. Виділити і занести в L

1 множини елементів і груп елементів, що часто трапляються. Установити: k = 2.

Крок 2. Якщо L k–1 ? ?, тоді перейти до кроку 3, у протилежному випадку — перейти до кроку 7.

Крок 3. Згенерувати C k — множину кандидатів потужністю k на основі L k–1 .

Крок 4. Для всіх транзакцій t?D виконати кроки 4.1

—4.3.

Крок 4.1. Розширити транзакцію t предками всіх елементів, що входять у транзакцію.

Крок 4.2. Видалити дублікати з транзакції t.

Крок 4.3. Для всіх кандидатів с?C k виконати: якщо с ? t, то установити: c.count = c.count + 1.

Крок 5. Зробити відбір кандидатів: L k = {с?C k | c.count ? minsupport}.

Крок 6. Установити: k = k + 1. Перейти до кроку 3.

Крок 7. Зупинення. Повернути як результат L k .

Функція генерації кандидатів. Для того щоб одержати k-елементні набори, скористаємося (k–1)-елементними наборами, які були визначені на попередньому кроці і є такими, що часто трапляються.

Метод генерації кандидатів буде складатися з двох кроків.

Крок 1. Об’єднання. Кожний кандидат C k буде формуватися шляхом розширення набору, що часто трапляється, розміром (k – 1) додаванням елементу з іншого (k – 1)-елементного набору: включити до C k ті елементи a

1 , a

2 , ..., a k–1 , b k–1 з L k–1 : a, b ? L k–1 , для яких: a

1 = b

1 , a

2 = b

2 , ... , a k–2 = b k–2 , a k–1 < b k–1 .

Крок 2. Видалення надлишкових правил. На підставі властивості антимонотонності, варто видалити всі набори з C k , як-

туючого списку правил, якщо вірогідність цього правила більше порога minconf.

Хеш-дерево можна використовувати для ефективного підрахунку підтримки кандидатів.

Хеш-дерево будується щоразу, коли формуються кандидати. Первісне дерево складається тільки з кореня, що є листом, і не містить ніяких кандидатів-наборів. Щоразу, коли формується новий кандидат, він заноситься в корінь дерева і так доти, поки кількість кандидатів у корені-листі не перевищить деякий поріг. Як тільки кількість кандидатів стає більше порога, корінь перетвориться в Хеш-таблицю, тобто стає внутрішнім вузлом, і для нього створюються нащадки-листи. І всі приклади розподіляються по вузлах-нащадках відповідно до Хеш-значення елементів, що входять у набір, і т. д. Кожний новий кандидат Хешується на внутрішніх вузлах, поки він не досягне першого вузла-листа, де він і буде зберігатися, поки кількість наборів знову не перевищить порога.

7.4. Різновиди алгоритму Apriori

Виявлення частих наборів об’єктів — операція, що потребує великої кількості обчислень, а отже, і часу. Алгоритм Apriori (масштабувальний метод пошуку асоціативних правил) описаний у 1994 р. Срікантом Рамакрішнан (Ramakrishnan Srikant) і Ракешом Агравалом (Rakesh Agrawal). Він використовує одну з властивостей підтримки, що свідчить: підтримка будь-якого набору об’єктів не може перевищувати мінімальної підтримки будь-якої з його підмножин: EF SuppSupp?, при FE?.

Наприклад, підтримка 3-об’єктного набору (подія 1, подія 2, подія 3} буде завжди меншою або дорівнювати підтримці 2-об’єктних наборів {подія 1, подія 2}, {подія 2, подія 3), (подія 1, подія 3). Це пояснюється тим, що будь-яка транзакція, що містить (подія 1, подія 2, подія 3), містить також і набори {подія 1, подія 2), {подія 2, подія 3), {подія 1, подія 3), причому зворотне неправильне.

Алгоритм Apriori визначає набори, що часто трапляються, за декілька кроків. На і-ому етапі визначаються всі і-елементні набори, що часто трапляються. Кожний етап складається з двох

що хоча б одна з його (k–1) підмножин не є такою, що часто трпаляється.

Розглянемо і-й етап. На кроці формування кандидатів алгоритм створює безліч кандидатів з і-елементних наборів, чия підтримка поки не обчислюється. На кроці підрахунку кандидатів алгоритм сканує безліч транзакцій, обчислюючи підтримку наборів-кандидатів. Після сканування відкидаються кандидати, підтримка яких менше певного користувачем мінімуму, і зберігаються і-елементні набори, що тільки часто трапляються. Під час 1-го етапу вибрана безліч наборів-кандидатів містить усі 1-елементні часті набори. Алгоритм обчислює їх підтримку під час кроку підрахунку кандидатів.

Описаний алгоритм можна записати у вигляді такого псевдокоду: менша заданої користувачем. Кожний член множини має набір C k — безліч кандидатів k-елементних потенційно частих на

1 = 1-елементні набори, що часто трапляються для (k = 2; L k – 1 <> ?; k ++) C k = Apriorigen (Fk – 1) / / генерація кандидатів для всіх транзакцій t ? D виконати