Úvod k vytvoreniu stromu rozhodnutí
S nedávnym rýchlym nárastom množstva údajov generovaných informačnými systémami, aby bolo možné spracovať veľké súbory údajov, existuje rozhodujúca potreba, aby rozhodovací strom znížil zložitosť výpočtu. Rozhodovací strom možno považovať za najdôležitejší prístup pri zastupovaní klasifikátorov. Inými slovami, môžeme povedať, že údaje sú štruktúrované pomocou stratégie rozdelenia a dobývania. aby sme vedeli, že sme to len preskúmali. Strom rozhodnutí je štruktúrovaný ako rámec na presné hodnoty a pravdepodobnosť výstupných rozhodnutí
m každá úroveň uzla, ktorá pomáha tvorcom rozhodnutí pri výbere správnych predpovedí medzi rôznymi nevhodnými údajmi. V tomto článku jednoduchým spôsobom prejdete, ako vytvoriť strom rozhodovania založený na vzorkách údajov.
Čo je rozhodovací strom?
Rozhodovací strom je binárna hierarchická štruktúra, ktorá identifikuje spôsob, akým každý uzol rozdelí množinu údajov na základe rôznych podmienok. Konštruovať optimálny strom pomocou modelového prístupu na klasifikáciu premennej odozvy, ktorá predpovedá hodnotu cieľovej premennej pomocou jednoduchých pravidiel rozhodovania (príkazy if-then-else). Tento prístup je pod dohľadom, ktorý sa väčšinou používa pri klasifikačných problémoch a považuje sa za veľmi efektívny prediktívny model. Používajú sa v rôznych aplikačných oblastiach, ako je teória hier, umelá inteligencia, strojové učenie, ťažba údajov a oblasti ako bezpečnosť a medicína.
Ako vytvoriť strom rozhodovania?
Rozhodovací strom sa vytvára jednoduchým spôsobom zhora nadol; Pozostávajú z uzlov, ktoré tvoria riadený uzol, ktorý má koreňové uzly bez prichádzajúcich hrán, všetky ostatné uzly sa nazývajú rozhodovacie uzly (interné uzly a lístkové uzly, ktoré zodpovedajú značkám atribútov a tried) s najmenej jednou prichádzajúcou hranou. Hlavným cieľom zo súborov údajov je minimalizovať chyby generalizácie nájdením optimálneho riešenia v rozhodovacom strome.
Príklad stromu rozhodnutí je vysvetlený nižšie so vzorkou dátových súborov. Cieľom je predpovedať, či zisk klesá alebo stúpa pomocou atribútov života a konkurencie. Tu sú premenné stromov rozhodovania kategorické (Áno, Nie).
Súbor údajov
život | súťaž | typ | zisk |
starý | Áno | softvér | nadol |
starý | žiadny | softvér | nadol |
starý | žiadny | technické vybavenie | nadol |
stredná | Áno | softvér | nadol |
stredná | Áno | technické vybavenie | nadol |
stredná | žiadny | technické vybavenie | hore |
stredná | žiadny | softvér | hore |
Nový | Áno | softvér | hore |
Nový | žiadny | technické vybavenie | hore |
Nový | žiadny | softvér | hore |
Z vyššie uvedeného súboru údajov: život, konkurencia, typ sú prediktory a cieľovým atribútom je zisk atribútu. Existujú rôzne algoritmy na implementáciu rozhodovacieho stromu, ale najlepším algoritmom použitým na zostavenie rozhodovacieho stromu je ID3, ktoré kladú dôraz na chamtivý vyhľadávací prístup. Strom rozhodovania sa riadi pravidlom odvodenia rozhodnutia alebo normálnou disjunkčnou formou (^).
Rozhodovací strom
Spočiatku sa všetky atribúty tréningu považujú za root. Poradie priorít pre umiestnenie atribútov ako root sa vykonáva nasledujúcim prístupom. Je známe, že tento proces slúži na výber atribútov na identifikáciu toho, ktorý atribút sa na každej úrovni považuje za koreňový uzol. Strom sleduje dva kroky: výstavba stromu, prerezávanie stromov. A údaje sú rozdelené do všetkých rozhodovacích uzlov.
Získanie informácií
Je to miera zmeny entropie založená na nezávislej premennej. Rozhodovací strom musí nájsť najvyšší zisk informácií.
Entropy
Entropia je definovaná ako pre konečnú množinu, miera náhodnosti v údajoch alebo predpovedateľnosti udalostí, ak je vzorka podobná hodnota, potom entropia je nula a ak je rovnako rozdelená so vzorkou, potom je jedna.
Entropia pre túto triedu
Kde p je pravdepodobnosť dosiahnutia zisku, keď povieme „áno“ a N je strata, povedzme „nie“.
preto entropia = 1
Po vypočítaní hodnoty entropie je potrebné z atribútu rozhodnúť koreňový uzol.
Entropia veku
Podľa údajov pre atribút Život máme staré = 3 nadol, stredné = 2 nadol a jedno vyššie týkajúce sa zisku.
život | pi | ni | I (pi, ni) | |
starý | 0 | 3 | 0 | |
stredná | 2 | 2 | 1 | |
Nový | 3 | 0 | 0 |
Zisk = Entropia triedy - Entropia života = 1 - 0, 4 = 0, 6
Entropia (konkurencia) = 0, 87
súťaž | pi | ni | I (pi, ni) | |
Áno | 1 | 3 | 0.8 | |
žiadny | 4 | 2 | 0.9 |
Zisk = Entropia triedy - Entropia života = 1 - 0, 87 = 0, 12
Teraz nastáva problém v atribúte Život, kde má polovica rovnakú pravdepodobnosť tak hore, ako aj dole. preto entropia je 1. podobne sa počíta pre typ atribútu znova entropia je 1 a zisk je 0. Teraz bolo vytvorené úplné rozhodnutie, aby sa získal presný výsledok pre strednú hodnotu.
Výhody rozhodovacieho stromu
- Sú ľahko zrozumiteľné a vytvorené pravidlá sú flexibilné. Má malé úsilie na prípravu údajov.
- Vizuálny prístup, ktorý predstavuje rozhodnutia a výsledky, je veľmi užitočný.
- Rozhodovací strom spracováva súbor údajov o školení s chybami a chýbajúcimi hodnotami.
- Dokážu spracovať diskrétnu hodnotu a číselný atribút. Funguje kategorické a spojité premenné pre vstup a výstup.
- Sú užitočným nástrojom pre obchodnú oblasť, ktorá musí za určitých podmienok robiť rozhodnutia po analýze.
Nevýhody rozhodovacieho stromu
- Žiaci môžu vytvoriť komplexný strom rozhodovania v závislosti od školených údajov. tento proces sa v modeloch rozhodovacích stromov nazýva nadmerný stav.
- Preferované hodnoty sú kategorické, ak je kontinuálne, strom rozhodovania stráca informáciu, ktorá vedie k náchylnosti na chyby. Exponenciálny rast výpočtu je pri analýze vyšší.
- Mnoho označení triedy vedie k nesprávnym zložitým výpočtom a poskytuje nízku presnosť predpovede súboru údajov.
- Informácie získané algoritmom DT poskytujú skreslenú odpoveď na kategoricky vyššie hodnoty.
záver
Na záver možno povedať, že rozhodovacie stromy poskytujú praktickú a ľahkú metódu výučby a sú známe ako účinné nástroje strojového učenia, pretože v krátkom čase fungujú dobre pri veľkých množinách údajov. Je to vzdelávacia úloha, ktorá využíva štatistický prístup na vytvorenie všeobecného záveru. Teraz je lepšie pochopené, prečo sa strom rozhodovania používa v prediktívnom modelovaní a pre vedcov údajov sú mocným nástrojom.
Odporúčané články
Toto je príručka na vytvorenie stromu rozhodnutí. Tu diskutujeme o tom, ako vytvoriť rozhodovací strom spolu s rôznymi výhodami a nevýhodami. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Prehľad rozhodovacieho stromu v R
- Čo je algoritmus rozhodovacieho stromu?
- Úvod do nástrojov umelej inteligencie
- Top 10 otázok týkajúcich sa umelej inteligencie