Úvod do rozhodovacieho stromu pri ťažbe dát

V dnešnom svete „veľkých dát“ znamená pojem „dolovanie údajov“, že sa musíme pozrieť do veľkých súborov údajov a vykonať „dolovanie“ údajov a priniesť dôležitú šťavu alebo podstatu toho, čo údaje chcú povedať. Veľmi podobná situácia je v oblasti ťažby uhlia, kde sú potrebné rôzne nástroje na ťažbu uhlia uloženého hlboko pod zemou. Jedným z nich je jeden z nástrojov v oblasti ťažby údajov. Samotná ťažba údajov je teda rozsiahlym poľom, v ktorom sa v nasledujúcich niekoľkých odsekoch dôkladne ponoríme do „nástroja“ stromu rozhodovania v dolovaní údajov.

Algoritmus rozhodovacieho stromu pri dolovaní dát

Rozhodovací strom je supervízovaný vzdelávací prístup, v ktorom trénujeme prítomné údaje s tým, že už vieme, čo je cieľová premenná. Ako už názov napovedá, tento algoritmus má stromovú štruktúru. Pozrime sa najprv na teoretický aspekt Rozhodovacieho stromu a potom sa na to pozeráme v grafickom prístupe. V rozhodovacom strome algoritmus rozdelí množinu údajov do podskupín na základe najdôležitejšieho alebo najvýznamnejšieho atribútu. Najvýznamnejší atribút je určený v koreňovom uzle a to je miesto, kde dochádza k rozdeleniu celého súboru údajov prítomného v koreňovom uzle. Toto rozdelenie je známe ako rozhodovacie uzly. V prípade, že už nie je možné ďalšie rozdelenie, uzol sa nazýva listový uzol.

Na zastavenie algoritmu na dosiahnutie ohromujúcej fázy sa používa kritérium zastavenia. Jedným z kritérií zastavenia je minimálny počet pozorovaní v uzle pred tým, ako dôjde k rozdeleniu. Pri použití stromu rozhodnutí pri rozdeľovaní množiny údajov je potrebné dávať pozor, aby veľa uzlov mohlo mať iba hlučné údaje. Aby sme sa vyrovnali s problémami s odľahlými alebo hlučnými dátami, používame techniky známe ako prerezávanie údajov. Prerezávanie údajov nie je nič iné ako algoritmus na klasifikáciu údajov z podmnožiny, čo sťažuje učenie sa od daného modelu.

Algoritmus rozhodovacieho stromu bol vydaný ako ID3 (Iterative Dichotomiser) strojovým výskumníkom J. Rossom Quinlanom. Neskôr bol C4.5 prepustený ako nástupca ID3. ID3 aj C4.5 sú chamtivým prístupom. Teraz sa pozrime na vývojový diagram algoritmu rozhodovacieho stromu.

Na pochopenie pseudokódov by sme mali brať dátové body „n“, z ktorých každý má atribúty „k“. Nižšie je uvedený vývojový diagram so zreteľom na „zisk informácií“ ako podmienku rozdelenia.

IG (on individual split) = Entropy before the split – Entropy after a split (On individual split)

Namiesto zisku informácií (IG) môžeme ako kritérium rozdelenia použiť aj index Gini. Pre pochopenie rozdielu medzi týmito dvomi kritériami v laikoch môžeme uvažovať o tom, že táto informácia získa ako rozdiel entropie pred rozdelením a po rozdelení (rozdelenie na základe všetkých dostupných funkcií).

Entropia je ako náhodnosť a my sme dosiahli bod po rozdelení, aby sme mali najmenší stav náhodnosti. Z tohto dôvodu musí byť informačný zisk najväčší v oblasti funkcie, ktorú chceme rozdeliť. Inak, ak si chceme zvoliť rozdelenie na základe indexu Gini, nájdeme index Gini pre rôzne atribúty a pomocou toho istého zistíme vážený index Gini pre rôzne rozdelenie a použijeme ten s vyšším indexom Gini na rozdelenie súboru údajov.

Dôležité podmienky stromu rozhodovania pri dolovaní údajov

Nižšie uvádzame niektoré z dôležitých pojmov stromu rozhodovania pri získavaní údajov:

  • Koreňový uzol: Toto je prvý uzol, v ktorom dochádza k rozdeleniu.
  • Uzol Leaf: Toto je uzol, po ktorom už nedochádza k vetveniu.
  • Uzol rozhodovania: Uzol vytvorený po rozdelení údajov z predchádzajúceho uzla sa nazýva rozhodovací uzol.
  • Branch: Subsekcia stromu obsahujúca informácie o následkoch rozdelenia v rozhodovacom uzle.
  • Prerezávanie: Keď dôjde k odstráneniu pod-uzlov rozhodovacieho uzla, ktoré sa zaoberajú odľahlými alebo hlučnými údajmi, sa hovorí prerezávanie. To je tiež považované za opak rozdelenia.

Aplikácia rozhodovacieho stromu pri dolovaní dát

Rozhodovací strom má vývojovú schému architektúry zabudovanú s typom algoritmu. Počas rozdelenia má v podstate vzor „If X potom Y else Z“. Tento typ vzoru sa používa na pochopenie ľudskej intuície v programovom poli. Preto je to možné rozsiahle použiť pri rôznych problémoch kategorizácie.

  • Tento algoritmus sa môže široko používať v oblasti, v ktorej je objektívna funkcia spojená s vykonanou analýzou.
  • Ak existuje veľa krokov.
  • Mimoriadna analýza.
  • Pochopenie významného súboru funkcií pre celý súbor údajov a „baňa“ tých pár funkcií zo zoznamu stoviek funkcií veľkých dát.
  • Výber najlepšieho letu na cestu do cieľa.
  • Rozhodovací proces založený na rôznych okolnostiach.
  • Churnova analýza.
  • Analýza sentimentu.

Výhody rozhodovacieho stromu

Nižšie sú uvedené niektoré výhody stromu rozhodnutí:

  • Ľahké porozumenie: Spôsob, akým je strom rozhodovania zobrazený v jeho grafických formách, uľahčuje porozumenie osobe s neanalytickým pozadím. Najmä pre ľudí vo vedení, ktorí sa chcú pozrieť na to, ktoré funkcie sú dôležité, len pohľadom na rozhodovací strom, sa môže ukázať ich hypotéza.
  • Preskúmanie údajov: Ako už bolo uvedené, získanie významných premenných je hlavnou funkciou rozhodovacieho stromu a pri ich použití je možné pri prieskume údajov zistiť, ktorá premenná by si vyžadovala osobitnú pozornosť v priebehu fázy ťažby a modelovania údajov.
  • Vo fáze prípravy údajov dochádza k veľmi malému zásahu u človeka a v dôsledku času, ktorý je počas údajov spotrebovaný, sa čistenie znižuje.
  • Rozhodovací strom je schopný zvládnuť kategorické aj numerické premenné a tiež zvládnuť problémy s klasifikáciou viacerých tried.
  • Súčasťou rozhodnutia nie sú rozhodovacie stromy z priestorovej distribúcie a štruktúry klasifikátorov.

záver

Nakoniec, na záver Rozhodovacie stromy prinášajú úplne inú triedu nelinearity a zaoberajú sa riešením problémov nelinearity. Tento algoritmus je najlepšou voľbou na napodobenie myslenia ľudí na úrovni rozhodovania a jeho zobrazenie v matematicko-grafickej podobe. Pri určovaní výsledkov z nových neviditeľných údajov sa uplatňuje prístup zhora nadol a dodržiava zásadu rozdelenia a dobývania.

Odporúčané články

Toto je sprievodca rozhodovacím stromom pri dolovaní údajov. Tu diskutujeme algoritmus, dôležitosť a použitie rozhodovacieho stromu pri získavaní údajov spolu s jeho výhodami. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Data Science Machine Learning
  2. Typy techník analýzy údajov
  3. Rozhodovací strom v R
  4. Čo je dolovanie dát?
  5. Sprievodca rôznymi metodikami analýzy údajov

Kategórie: