Úvod do algoritmu rozhodovacieho stromu

Keď máme problém vyriešiť, či už ide o klasifikáciu alebo regresiu, algoritmus rozhodovacieho stromu je jedným z najpopulárnejších algoritmov používaných na zostavenie klasifikačných a regresných modelov. Spadajú do kategórie učenia pod dohľadom, tj údaje, ktoré sú označené.

Čo je algoritmus rozhodovacieho stromu?

Algoritmus rozhodovacích stromov je dohliadaný algoritmus strojového učenia, v ktorom sa údaje nepretržite delia v každom riadku na základe určitých pravidiel až do vygenerovania konečného výsledku. Urobme príklad, predpokladajme, že otvoríte nákupné centrum a samozrejme by ste chceli, aby s obchodom časom rástol. Z tohto dôvodu by ste vyžadovali vrátenie zákazníkov a nových zákazníkov vo vašom obchode. Za týmto účelom by ste pripravili rôzne obchodné a marketingové stratégie, napríklad zasielanie e-mailov potenciálnym zákazníkom; vytvárať ponuky a ponuky, zacieľovať na nových zákazníkov atď. Ako však vieme, kto sú potenciálni zákazníci? Inými slovami, ako klasifikujeme kategóriu zákazníkov? Rovnako ako niektorí zákazníci navštívia raz za týždeň a iní by chceli navštíviť raz alebo dvakrát za mesiac, alebo niektorí navštívia o štvrtinu. Rozhodovacie stromy sú teda jedným z takýchto klasifikačných algoritmov, ktoré klasifikujú výsledky do skupín, až kým nezostane už žiadna podobnosť.

Týmto spôsobom strom rozhodovania klesá v stromovej štruktúre. Hlavnými zložkami rozhodovacieho stromu sú:

  • Uzly rozhodnutia, v ktorých sú údaje rozdelené alebo hovoria, je to miesto pre atribút.
  • Link Link, ktoré predstavuje pravidlo.
  • Rozhodovacie listy, ktoré sú konečnými výsledkami.

Fungovanie algoritmu rozhodovacieho stromu

Do práce rozhodovacieho stromu je zapojených veľa krokov:

1. Rozdelenie - Ide o proces rozdelenia údajov na podmnožiny. Rozdelenie sa môže vykonať na základe rôznych faktorov, ako je uvedené nižšie, tj na základe pohlavia, výšky alebo na základe triedy.

2. Prerezávanie - Je to proces skracovania vetiev stromu rozhodovania, a teda obmedzenia hĺbky stromu

Orezávanie je tiež dvoch typov:

  • Predrezanie - tu zastavíme pestovanie stromu, keď nenájdeme žiadne štatisticky významné spojenie medzi atribútmi a triedou v konkrétnom uzle.
  • Dodatočné prerezávanie - Na účely dodatočného prerezania musíme overiť výkonnosť modelu testovacej súpravy a potom odrezať konáre, ktoré sú výsledkom nadmerného hluku z tréningovej súpravy.

3. Výber stromu - Tretí krok je proces nájdenia najmenšieho stromu, ktorý vyhovuje údajom.

Príklady a ilustrácie zostavenia stromu rozhodnutí

Teraz, keď sme sa naučili zásady rozhodovacieho stromu. Poďme to pochopiť a ilustrovať pomocou príkladu.

Povedzme, že chcete hrať kriket v určitý konkrétny deň (napríklad v sobotu). Aké sú faktory, ktoré sú zapojené a ktoré rozhodnú, či sa hra stane alebo nie?

Je zrejmé, že hlavným faktorom je klíma, žiadny iný faktor nemá toľko pravdepodobnosti, aká veľká klíma má na prerušenie hry.

Zhromaždili sme údaje za posledných 10 dní, ktoré sú uvedené nižšie:

deňpočasieteplotavlhkosťvietorHrať?
1zakalenýhorúcovysokýslabýÁno
2slnečnohorúcovysokýslabýžiadny
3slnečnomiernynormálnesilnýÁno
4daždivýmiernyvysokýsilnýžiadny
5zakalenýmiernyvysokýsilnýÁno
6daždivýchladnýnormálnesilnýžiadny
7daždivýmiernyvysokýslabýÁno
8slnečnohorúcovysokýsilnýžiadny
9zakalenýhorúconormálneslabýÁno
10daždivýmiernyvysokýsilnýžiadny

Zostavme náš rozhodovací strom na základe údajov, ktoré máme. Rozdelili sme teda rozhodovací strom do dvoch úrovní, prvý je založený na atribúte „Počasie“ a druhý riadok je založený na „Vlhkosť“ a „Vietor“. Nižšie uvedené obrázky ilustrujú naučený strom rozhodovania.

Môžeme tiež nastaviť niektoré prahové hodnoty, ak sú funkcie nepretržité.

Čo je entropia v rozhodovacom stromovom algoritme?

Jednoducho povedané, entropia je mierou neusporiadanosti vašich údajov. Aj keď ste tento výraz už počuli vo svojich hodinách matematiky alebo fyziky, je to rovnaké tu.

Dôvod, prečo sa v rozhodovacom strome používa entropia, je ten, že konečným cieľom v rozhodovacom strome je zoskupiť podobné skupiny údajov do podobných tried, tj upraviť údaje.

Pozrime sa na obrázok nižšie, kde máme počiatočný súbor údajov a sme povinní použiť algoritmus rozhodovacieho stromu, aby sme mohli zoskupiť podobné údajové body do jednej kategórie.

Ako vidíme, po rozdelení rozhodnutia väčšina červených kruhov spadá do jednej triedy, zatiaľ čo väčšina modrých krížov patrí do inej triedy. Preto bolo rozhodnuté klasifikovať atribúty, ktoré by mohli byť založené na rôznych faktoroch.

Skúsme tu urobiť nejakú matematiku:

Povedzme, že máme množinu položiek „N“ a tieto položky spadajú do dvoch kategórií. Teraz s cieľom zoskupiť údaje na základe štítkov uvádzame pomer:

Entropia našej množiny je daná nasledujúcou rovnicou:

Pozrime sa na graf pre danú rovnicu:

Nad obrázkom (s p = 0, 5 a q = 0, 5)

výhody

1. Rozhodovací strom je ľahko zrozumiteľný a po jeho pochopení ho môžeme skonštruovať.

2. Môžeme implementovať strom rozhodovania o číselných aj kategorických údajoch.

3. Rozhodovací strom sa ukázal ako robustný model s nádejnými výsledkami.

4. Sú tiež časovo efektívne s veľkými údajmi.

5. Na zaškolenie údajov je potrebné menšie úsilie.

nevýhody

1. Nestabilita - Len ak sú informácie presné a presné, strom rozhodovania prinesie sľubné výsledky. Aj keď dôjde k malej zmene vstupných údajov, môže to spôsobiť veľké zmeny v strome.

2. Zložitosť - Ak je množina údajov obrovská s mnohými stĺpcami a riadkami, je veľmi zložitou úlohou navrhnúť strom rozhodovania s mnohými vetvami.

3. Náklady - Niekedy náklady tiež zostávajú hlavným faktorom, pretože keď je potrebné zostaviť komplexný strom rozhodovania, vyžaduje si pokročilé znalosti v kvantitatívnej a štatistickej analýze.

záver

V tomto článku sme sa dozvedeli o algoritme stromu rozhodovania ao tom, ako ho zostaviť. Videli sme tiež veľkú úlohu, ktorú hrá entropia v algoritme rozhodovacieho stromu, a nakoniec sme videli výhody a nevýhody rozhodovacieho stromu.

Odporúčané články

Toto bol sprievodca algoritmom rozhodovacieho stromu. Tu sme diskutovali o úlohe, ktorú zohrávajú entropia, práca, výhody a nevýhody. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Dôležité metódy ťažby údajov
  2. Čo je to webová aplikácia?
  3. Sprievodca Čo je to Data Science?
  4. Otázky týkajúce sa rozhovoru s analytikom údajov
  5. Aplikácia rozhodovacieho stromu pri dolovaní dát

Kategórie: