Posibniki.com.ua Інформатика Прикладні системи штучного інтелекту Частина 3. МЕТОДИ КЛАСИФІКАЦІЇ ПРОЦЕСУ ПРИЙНЯТТЯ РІШЕНЬ


< Попередня  Змiст  Наступна >

Частина 3. МЕТОДИ КЛАСИФІКАЦІЇ ПРОЦЕСУ ПРИЙНЯТТЯ РІШЕНЬ


Визначимо T max — максимальне за розміром дерево, що має бути «обрізане». Якщо ми зафіксуємо значення ?, тоді існує найменше мінімізоване піддерево ?, що задовольняє таким умовам.

1. ()()() TCTC TT ? ? ? =? max min.

2. Якщо C ? (T) = C ? (T(?)), то T(?) ? T.

Перша умова вказує на те, що не існує такого піддерева дерева T max , що мало б меншу вартість, ніж Т(?) при цьому значенні ?. Друга умова вказує, що коли існує більше одного під-

точного розбиття, що має подання, скажімо {0, 0, 1, 0, 1}, одер

Можна показати, що для будь-якого значення ? існує таке найменше мінімізоване піддерево. Але ця задача не є тривіальною. Вона свідчить, що не може бути такого, коли два дерева досягають мінімуму повної вартості і вони є непорівнянними, тобто жодне з них не є піддеревом іншого.

Хоча ? має нескінченне число значень, існує кінцеве число піддерев дерева T max . Можна побудувати послідовність змен

шуваних піддерев дерева T max : T

1 > T

2 > T

3 > ... > {t

1 }, (де t

1 — кореневий вузол дерева) таку, що T k — найменше мінімізоване піддерево для ? ? [? k , ? k+1 ). Це важливий результат, оскільки це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T

1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T

1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.

Метод обчислення T

1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме k k+1 це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T

1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T

1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.

Метод обчислення T

1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме саму помилку класифікації, як і T max , тобто T

1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T

1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.

Метод обчислення T

1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме тільки один клас, то T

1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.

Метод обчислення T

1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме кації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме тість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме шуваних піддерев дерева T max : T

1 > T

2 > T

3 > ... > {t

1 }, (де t

1 — кореневий вузол дерева) таку, що T k — найменше мінімізоване піддерево для ? ? [? k , ? k+1 ). Це важливий результат, оскільки це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T

1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T

1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.

Метод обчислення T

1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .

Позначимо як T t гілку дерева Т з кореневим вузлом t.

Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева TT t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)

— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.

Внесок T t у повну вартість дерева Т становитиме C ? (T t ) = R(T t ) + ?|T t

|, C ? (T t ) = R(T t ) + ?|T t

|, де ? ? ? ? = t Tt t tRTR.де ()() ? ? ? ? = t Tt t tRTR.

дерева, яке має дану повну вартість, тоді ми вибираємо найменше дерево.

Дерево TT t буде кращим, ніж Т, коли C ? ({t}) = C ? (T t ), оскільки при цій величині ? вони мають однакову вартість, але TT t найменше з двох. Коли C ? ({t}) = C ? (T t ), ми одержуємо: R(T t ) + + ?|T t

| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t

| – 1).

Оскільки для будь-якого вузла t у Т

1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т

1 .

Обчислимо це значення ? для кожного вузла в дереві Т

1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], деTT t найменше з двох. Коли C ? ({t}) = C ? (T t ), ми одержуємо: R(T t ) + + ?|T t

| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t

| – 1).

Оскільки для будь-якого вузла t у Т

1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т

1 .

Обчислимо це значення ? для кожного вузла в дереві Т

1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де+ + ?|T t

| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t

| – 1).

Оскільки для будь-якого вузла t у Т

1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т

1 .

Обчислимо це значення ? для кожного вузла в дереві Т

1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], детоді коли ? = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т

1 .

Обчислимо це значення ? для кожного вузла в дереві Т

1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], дели, для яких величина g(t) = (R(t) – R(T

1 , t ))/(|T

1,t

| – 1) є найменшою. Ми відтинаємо Т

1 у цих вузлах, щоб одержати Т

2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).

Метод обчислення послідовності дерев.

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де

Крок 1. Установити: Т

1 = Т(? = 0), ?

1 = 0, k = 1.

Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.

Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], деg k (t) = (R(t) – R(T k,t ))/(|T k,t

| – 1).

Крок 2.2. Установити: () tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .

Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.

Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.

Вибір фінального дерева.

Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.

Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.

Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де

Крок 2.2. Установити: tg k t k min

1 =? + .

Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .


< Попередня  Змiст  Наступна >
Iншi роздiли:
Частина 2. Програмні засоби для пошуку закономірностей між пов’язаними подіями
Тема 9. УПРАВЛІННЯ ПРОЦЕСОМ РОЗВ’ЯЗАННЯ ЗАДАЧІ
9.2. Моделі евристичного пошуку рішень
Тема 10. ДЕДУКТИВНЕ ТА ІНДУКТИВНЕ ЛОГІЧНЕ ВИВЕДЕННЯ
10.5. Абдуктивне логічне виведення
Дисциплiни

Медичний довідник новиниКулінарний довідникАнглійська моваБанківська справаБухгалтерський облікЕкономікаМікроекономікаМакроекономікаЕтика та естетикаІнформатикаІсторіяМаркетингМенеджментПолітологіяПравоСтатистикаФілософіяФінанси

Бібліотека підручників та статтей Posibniki (2022)