Визначимо T max — максимальне за розміром дерево, що має бути «обрізане». Якщо ми зафіксуємо значення ?, тоді існує найменше мінімізоване піддерево ?, що задовольняє таким умовам.
1. ()()() TCTC TT ? ? ? =? max min.
2. Якщо C ? (T) = C ? (T(?)), то T(?) ? T.
Перша умова вказує на те, що не існує такого піддерева дерева T max , що мало б меншу вартість, ніж Т(?) при цьому значенні ?. Друга умова вказує, що коли існує більше одного під-
точного розбиття, що має подання, скажімо {0, 0, 1, 0, 1}, одер
Можна показати, що для будь-якого значення ? існує таке найменше мінімізоване піддерево. Але ця задача не є тривіальною. Вона свідчить, що не може бути такого, коли два дерева досягають мінімуму повної вартості і вони є непорівнянними, тобто жодне з них не є піддеревом іншого.
Хоча ? має нескінченне число значень, існує кінцеве число піддерев дерева T max . Можна побудувати послідовність змен
шуваних піддерев дерева T max : T
1 > T
2 > T
3 > ... > {t
1 }, (де t
1 — кореневий вузол дерева) таку, що T k — найменше мінімізоване піддерево для ? ? [? k , ? k+1 ). Це важливий результат, оскільки це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T
1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T
1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.
Метод обчислення T
1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме k k+1 це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T
1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T
1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.
Метод обчислення T
1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме саму помилку класифікації, як і T max , тобто T
1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T
1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.
Метод обчислення T
1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме тільки один клас, то T
1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.
Метод обчислення T
1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме кації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме тість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме шуваних піддерев дерева T max : T
1 > T
2 > T
3 > ... > {t
1 }, (де t
1 — кореневий вузол дерева) таку, що T k — найменше мінімізоване піддерево для ? ? [? k , ? k+1 ). Це важливий результат, оскільки це означає, що ми можемо одержати наступне дерево в послідовності, застосувавши відсікання до поточного дерева. Це дозволяє розробити ефективний метод пошуку найменшого мінімізованого піддерева за різних значень ?. Перше дерево в цій послідовності — найменше піддерево дерева T max , що має таку саму помилку класифікації, як і T max , тобто T
1 = T(? = 0). Якщо розбиття відбувається доти, поки в кожному вузлі залишиться тільки один клас, то T
1 = T max , але оскільки часто застосовуються методи ранньої зупинки (prepruning), тоді може існувати піддерево дерева T max , що має таку саму помилку класифікації.
Метод обчислення T
1 з T max є простим. Знайти будь-яку пару листків із загальним предком, що можуть бути об’єднані, тобто відсічені в батьківський вузол без збільшення помилки класифікації: R(t) = R(l) + R(r), де r та l — листки вузла t. Продовжувати доти, поки таких пар більше не залишиться. Так ми одержимо дерево, що має таку саму вартість як T max при ? = 0, але менш гіллясте, ніж T max .
Позначимо як T t гілку дерева Т з кореневим вузлом t.
Якщо ми відітнемо у вузлі t, тоді його внесок у повну вартість дерева T — T t стане C ? ({t}) = R(t) +?, де R(t) = r(t)p(t), r(t)
— це помилка класифікації вузла t і p(t) — пропорція випадків, що пройшли через вузол t. Альтернативний варіант: R(t) = m/n, де m — число прикладів, класифікованих некоректно, а n — загальне число класифікованих прикладів для всього дерева.
Внесок T t у повну вартість дерева Т становитиме C ? (T t ) = R(T t ) + ?|T t
|, C ? (T t ) = R(T t ) + ?|T t
|, де ? ? ? ? = t Tt t tRTR.де ()() ? ? ? ? = t Tt t tRTR.
дерева, яке має дану повну вартість, тоді ми вибираємо найменше дерево.
Дерево T – T t буде кращим, ніж Т, коли C ? ({t}) = C ? (T t ), оскільки при цій величині ? вони мають однакову вартість, але T – T t найменше з двох. Коли C ? ({t}) = C ? (T t ), ми одержуємо: R(T t ) + + ?|T t
| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t
| – 1).
Оскільки для будь-якого вузла t у Т
1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т
1 .
Обчислимо це значення ? для кожного вузла в дереві Т
1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1) є найменшою. Ми відтинаємо Т
1 у цих вузлах, щоб одержати Т
2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).
Метод обчислення послідовності дерев.
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], деT – T t найменше з двох. Коли C ? ({t}) = C ? (T t ), ми одержуємо: R(T t ) + + ?|T t
| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t
| – 1).
Оскільки для будь-якого вузла t у Т
1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т
1 .
Обчислимо це значення ? для кожного вузла в дереві Т
1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1) є найменшою. Ми відтинаємо Т
1 у цих вузлах, щоб одержати Т
2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).
Метод обчислення послідовності дерев.
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де+ + ?|T t
| = R(t) + ?, вирішуючи для ?, одержуємо: ? = (R(t) – – R(T t ))/(|T t
| – 1).
Оскільки для будь-якого вузла t у Т
1 , якщо ми збільшуємо ?, тоді коли ? = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т
1 .
Обчислимо це значення ? для кожного вузла в дереві Т
1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1) є найменшою. Ми відтинаємо Т
1 у цих вузлах, щоб одержати Т
2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).
Метод обчислення послідовності дерев.
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], детоді коли ? = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1), дерево, отримане відсіканням у вузлі t, буде кращим, ніж Т
1 .
Обчислимо це значення ? для кожного вузла в дереві Т
1 , потім виберемо слабкі зв’язки (їх може бути більше одного), тобто вузли, для яких величина g(t) = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1) є найменшою. Ми відтинаємо Т
1 у цих вузлах, щоб одержати Т
2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).
Метод обчислення послідовності дерев.
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], дели, для яких величина g(t) = (R(t) – R(T
1 , t ))/(|T
1,t
| – 1) є найменшою. Ми відтинаємо Т
1 у цих вузлах, щоб одержати Т
2 — наступне дерево в послідовності. Потім ми продовжуємо цей процес для отриманого дерева і так допоки не одержимо кореневий вузол (дерево, в якого є тільки один вузол).
Метод обчислення послідовності дерев.
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де
Крок 1. Установити: Т
1 = Т(? = 0), ?
1 = 0, k = 1.
Крок 2. Поки T k більше, ніж дерево, що складається тільки з одного вузла — кореня, виконувати кроки 2.1—2.4.
Крок 2.1. Для всіх нетермінальних вузлів у t ? T k : g k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], деg k (t) = (R(t) – R(T k,t ))/(|T k,t
| – 1).
Крок 2.2. Установити: () tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .
Крок 2.4. Установити: k = k + 1. Перейти до кроку 2.
Вузли слід обходити вниз, щоб не відтинати вузли, котрі відсічуться самі по собі, у результаті відсікання n-го предка.
Вибір фінального дерева.
Отже, ми маємо послідовність дерев і нам необхідно вибрати краще дерево — те, що ми й будемо використовувати надалі. Найбільш очевидним є вибір фінального дерева через тестування на тестовій вибірці. Дерево, що дало мінімальну помилку класифікації, і буде кращим. Однак, це не єдиний можливий шлях.
Природно, якість тестування багато в чому залежить від обсягу тестової вибірки і рівномірності даних, що потрапили в навчаючу і тестову вибірки.
Часто можна спостерігати, що послідовність дерев дає помилки близькі одна до одної. Ця послідовність є дуже чуттєвою до даних, які будуть обрані як тестова вибірка. Щоб зменшити цю нестабільність CART використовує 1 – SE правило: вибирається мінімальне за розміром дерево з R ts у межах інтервалу [min R ts , min R ts + SE], де
Крок 2.2. Установити: tg k t k min
1 =? + .
Крок 2.3. Обійти вниз усі вузли й обрізати ті, де g k (t) = ? k+1 , щоб одержати T k+1 .