Úvod do rozhodovacieho stromu v strojovom učení

Rozhodovací strom v strojovom učení má v modernom svete široké pole. V ML je veľa algoritmov, ktoré sa používajú v našom každodennom živote. Jedným z dôležitých algoritmov je rozhodovací strom, ktorý sa používa na klasifikáciu a tiež riešenie problémov s regresiou. Pretože sa jedná o prediktívny model, analýza rozhodovacích stromov sa vykonáva pomocou algoritmického prístupu, pri ktorom je súbor údajov rozdelený do podskupín podľa podmienok. Samotný názov hovorí, že ide o stromový model vo forme príkazov if-then-else. Čím hlbší je strom, tým viac uzlov je, tým lepší je model.

Typy rozhodovacích stromov v strojovom učení

Rozhodovací strom je stromový graf, kde triedenie začína od koreňového uzla k uzlu listu, až kým sa nedosiahne cieľ. Je to najpopulárnejší pre rozhodovanie a klasifikáciu na základe dohliadaných algoritmov. Konštruuje sa rekurzívnym rozdelením, kde každý uzol pôsobí ako testovací prípad pre niektoré atribúty a každá hrana, odvodená od uzla, je možnou odpoveďou v testovacom prípade. Koreňový aj listový uzol sú dve entity algoritmu.

Poďme pochopiť pomocou malého príkladu takto:

Tu je koreňový uzol, či máte menej ako 40 rokov alebo nie. Ak áno, potom jete rýchle občerstvenie? Ak áno, potom ste nespôsobilí alebo inak ste spôsobilí. A ak máte viac ako 40 rokov, potom cvičíte? Ak áno, potom ste fit alebo inak nie ste spôsobilí. Jednalo sa v podstate o binárnu klasifikáciu.

Existujú dva typy rozhodovacích stromov:

  1. Klasifikačné stromy: Vyššie uvedený príklad je klasifikačný strom založený na kategóriách.
  2. Regresné stromy : V tomto type algoritmu je rozhodnutie alebo výsledok nepretržité. Má jediný číselný výstup s viacerými vstupmi alebo prediktormi.

V rozhodovacom strome je typickou výzvou identifikácia atribútu v každom uzle. Proces sa nazýva výber atribútov a má niekoľko opatrení, ktoré sa majú použiť na identifikáciu atribútu.

a. Získanie informácií (IG)

Informácie Získavajú informácie o tom, koľko informácií o triede poskytuje individuálna funkcia. Pôsobí ako hlavný kľúč na zostavenie stromu rozhodnutí. Najprv sa rozdelí atribút s najvyšším informačným ziskom. Rozhodovací strom teda vždy maximalizuje zisk informácií. Keď použijeme uzol na rozdelenie inštancií na menšie podmnožiny, entropia sa zmení.

Entropia: Je to miera neistoty alebo nečistoty v náhodnej premennej. Entropia rozhoduje o tom, ako strom rozhodovania rozdelí údaje do podmnožín.

Rovnica pre získanie informácií a entropiu je nasledovná:

Získavanie informácií = entropia (rodič) - (vážený priemer * entropia (deti))

Entropia: ∑p (X) log p (X)

P (X) je zlomok príkladov v danej triede.

b. Index Gini

Index Gini je metrika, ktorá určuje, ako často sa náhodne vybraný prvok nesprávne identifikuje. Jasne sa v ňom uvádza, že atribút s nízkym indexom Gini sa uprednostňuje prvý.

Gini index: 1-∑ p (X) 2

Rozdelená tvorba

  1. Ak chcete vytvoriť rozdelenie, najprv musíme vypočítať Gini skóre.
  2. Dáta sú rozdelené pomocou zoznamu riadkov, ktoré majú index atribútu a delenú hodnotu tohto atribútu. Po nájdení pravého a ľavého súboru údajov môžeme získať rozdelenú hodnotu podľa Giniho skóre z prvej časti. Teraz bude hodnota rozdelenia rozhodovacou hodnotou, na ktorej sa bude nachádzať atribút.
  3. Ďalšia časť hodnotí všetky rozdelenia. Najlepšia možná hodnota sa vypočíta vyhodnotením nákladov na rozdelenie. Najlepšie rozdelenie sa používa ako uzol rozhodovacieho stromu.

Budovanie stromu - rozhodovací strom v strojovom učení

Existujú dva kroky na vytvorenie rozhodovacieho stromu.

1. Vytvorenie koncového uzla

Pri vytváraní koncového uzla je najdôležitejšie poznamenať, či musíme zastaviť rast stromov alebo pokračovať ďalej. Na tento účel je možné použiť tieto spôsoby:

  • Maximálna hĺbka stromu: Keď strom dosiahne maximálny počet uzlov, vykonávanie sa tam zastaví.
  • Minimálne záznamy uzlov: Môže sa definovať ako minimum vzorov, ktoré uzol vyžaduje. Potom môžeme zastaviť pridávanie koncových uzlov okamžite, keď získame tieto minimálne záznamy uzlov.

2. Rekurzívne štiepenie

Akonáhle je uzol vytvorený, môžeme vytvoriť podradený uzol rekurzívne rozdelením množiny údajov a opakovaným volaním rovnakej funkcie.

predpoveď

Po vytvorení stromu sa predpovedanie uskutoční pomocou rekurzívnej funkcie. Rovnaký proces predpovedania sa znova sleduje s ľavými alebo pravými podriadenými uzlami atď.

Výhody a nevýhody rozhodovacieho stromu

Nižšie sú uvedené niektoré výhody a nevýhody:

výhody

Rozhodovací strom má v strojovom učení nasledujúce výhody:

  • Komplexné: Zohľadňuje každý možný výsledok rozhodnutia a podľa toho sleduje každý uzol až k záveru.
  • Konkrétne: Rozhodovacie stromy priraďujú každému problému, rozhodnutiu a výsledku špecifickú hodnotu. Znižuje neistotu a nejednoznačnosť a tiež zvyšuje jasnosť.
  • Jednoduchosť: Rozhodovací strom je jedným z ľahších a spoľahlivých algoritmov, pretože nemá zložité vzorce alebo dátové štruktúry. Na výpočet sú potrebné iba jednoduché štatistické údaje a matematika.
  • Všestrannosť: Rozhodovacie stromy sa dajú zostavovať manuálne pomocou matematiky a tiež sa dajú použiť s inými počítačovými programami.

nevýhody

Rozhodovací strom má niektoré nevýhody v strojovom učení nasledovne:

  • Rozhodovacie stromy sú menej vhodné na odhadovanie a finančné úlohy, keď potrebujeme primeranú hodnotu (hodnoty).
  • Je to klasifikačný algoritmus náchylný na chyby v porovnaní s inými výpočtovými algoritmami.
  • Je to výpočtovo drahé. V každom uzle musí byť rozdelenie kandidátov zoradené pred zistením najlepšieho. Existuje mnoho alternatív, ktoré mnohé podnikateľské subjekty dodržiavajú pri finančných úlohách, pretože strom rozhodovania je na hodnotenie príliš drahý.
  • Pri práci s kontinuálnymi premennými nie je rozhodovací strom vhodný ako najlepšie riešenie, pretože pri kategorizácii premenných má tendenciu strácať informácie.
  • Je niekedy nestabilný, pretože malé rozdiely v množine údajov môžu viesť k vytvoreniu nového stromu.

Záver - Rozhodovací strom v strojovom učení

Ako jeden z najdôležitejších a dohliadaných algoritmov hrá rozhodovací strom rozhodujúcu úlohu v rozhodovacej analýze v reálnom živote. Ako prediktívny model sa používa v mnohých oblastiach pre jeho rozdelený prístup, ktorý pomáha pri identifikácii riešení založených na rôznych podmienkach klasifikačnou alebo regresnou metódou.

Odporúčané články

Toto je sprievodca stromom rozhodovania v strojovom vzdelávaní. Tu diskutujeme úvod, Druhy rozhodovacích stromov v strojovom učení, Tvorba rozdelenia a Stavba stromu. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Dátové typy Python
  2. Sady údajov tabuľky
  3. Cassandra Data Modeling
  4. Testovanie tabuľky rozhodnutí
  5. Top 8 etáp životného cyklu strojového učenia

Kategórie: