Úvod do klasifikačných algoritmov

Tento článok o klasifikačných algoritmoch uvádza prehľad rôznych klasifikačných metód bežne používaných v technikách získavania údajov s rôznymi princípmi. Klasifikácia je technika, ktorá kategorizuje údaje do odlišného počtu tried a každá trieda je následne priradená menovka. Hlavným cieľom klasifikácie je identifikovať triedu na spustenie nových údajov pomocou analýzy tréningového súboru s prihliadnutím na správne hranice. Predpovedanie cieľovej triedy a vyššie uvedeného procesu sa všeobecne nazýva klasifikácia.

Napríklad vedenie nemocnice zaznamená meno pacienta, adresu, vek, predchádzajúcu anamnézu zdravotného stavu pacienta, aby ich diagnostikoval, čo pomáha pri klasifikácii pacientov. Možno ich charakterizovať do dvoch fáz: fázy učenia a fázy hodnotenia. Modely vzdelávacej fázy prístupová základňa neposkytuje školiace údaje, zatiaľ čo hodnotiaca fáza predpovedá výstup pre dané údaje. Ich aplikácie by sme mohli nájsť v e-mailovom spamu, predikcii bankových úverov, rozpoznávaní reči, analýze sentimentu. Táto technika zahŕňa matematickú funkciu f so vstupom X a výstupom Y.

Vysvetlite podrobné klasifikačné algoritmy

Klasifikácia sa môže vykonať na štruktúrovaných aj neštruktúrovaných údajoch. Zatriedenie je možné kategorizovať do

  1. Klasifikátor Naive Bayes
  2. Rozhodovacie stromy
  3. Podpora Vector Machine
  4. Náhodný les
  5. K- Najbližší susedia

1) Klasifikátor Naive Bayes

Je to algoritmus založený na Bayesovej teoréme, jedna zo štatistických klasifikácií a na odhad parametrov známych ako pravdepodobnostné klasifikátory je potrebné málo údajov o tréningu. Považuje sa za najrýchlejší klasifikátor, vysoko škálovateľný a spracováva diskrétne aj spojité údaje. Tento algoritmus sa použil na predpovedanie v reálnom čase. Existujú rôzne typy naivného klasifikátora, multinomické naivné zátoky, Bernoulli naivné zátoky, gaussovské naivné.

Bayesovskú klasifikáciu s pravdepodobnosťou zadnou stranou zadáva

Ak A, B sú udalosti, P (A | B) - Zadné pravdepodobnosti.

Ak sú dve hodnoty navzájom nezávislé,

P (A, B) = P (A) P (B)

Naivné Bayes sa dá zostaviť pomocou pythonovej knižnice. Naivské prediktory sú nezávislé, hoci sa používajú v systémoch odporúčaní. Používajú sa v mnohých aplikáciách v reálnom čase a dobre sa používajú pri klasifikácii dokumentov.

výhody:

Výhody spočívajú v tom, že vyžadujú veľmi malú výpočtovú silu, predpokladanú pri problémoch s predpovedaním viacerých tried, presne pracujú na veľkých množinách údajov.

nevýhoda:

Hlavnou nevýhodou tohto klasifikátora je, že priradí nulovú pravdepodobnosť. A majú vlastnosti, ktoré sú navzájom nezávislé.

2) Rozhodovací strom

Je to prístup zhora nadol so štruktúrou vývojového diagramu, ktorý spracováva vysokorozmerné údaje. Výsledky sa predpovedajú na základe danej vstupnej premennej. Rozhodovací strom pozostávajúci z nasledujúcich prvkov: Koreň, veľa uzlov, vetiev, listov. Koreňový uzol robí oddiel na základe hodnoty atribútu triedy, interný uzol má atribút pre ďalšiu klasifikáciu, vetvy robia rozhodovacie pravidlo rozdeliť uzly na listové uzly, nakoniec, listové uzly nám poskytujú konečný výsledok. Časová zložitosť rozhodovacieho stromu závisí od počtu záznamov, atribútov údajov o školení. Ak je strom rozhodovania príliš dlhý, je ťažké získať požadované výsledky.

Výhoda: Používajú sa na prediktívnu analýzu na riešenie problémov a používajú sa pri každodenných činnostiach na výber cieľa na základe analýzy rozhodnutí. Automaticky vytvára model na základe zdrojových údajov. Najlepšie zvládnuť chýbajúce hodnoty.

Nevýhoda: Veľkosť stromu je nekontrolovateľná, kým nemá nejaké kritériá zastavenia. Strom je kvôli svojej hierarchickej štruktúre nestabilný.

3) Podpora Vector Machine

Tento algoritmus hrá dôležitú úlohu pri problémoch s klasifikáciou a najobľúbenejšie sú algoritmy pod dohľadom strojového učenia. Je to dôležitý nástroj používaný výskumníkom a vedcom údajov. Tento SVM je veľmi jednoduchý a jeho proces spočíva v nájdení hyperjadra v dátových bodoch N-rozmerného priestoru. Hyperplány sú hranice rozhodovania, ktoré klasifikujú údajové body. Celý tento vektor klesá bližšie k hyperplánu, maximalizuje sa okraj klasifikátora. Ak je marža maximálna, najmenšia je chyba generalizácie. Ich implementáciu je možné vykonať pomocou jadra pomocou pythonu s niektorými súbormi tréningových údajov. Hlavným cieľom SVM je vycvičiť objekt do konkrétnej klasifikácie. SVM nie je obmedzené na to, aby sa stalo lineárnym klasifikátorom. SVM je preferovaný viac ako akýkoľvek klasifikačný model kvôli svojej funkcii jadra, ktorá zlepšuje výpočtovú efektívnosť.

Výhoda: Sú vysoko preferované pre svoju menšiu výpočtovú silu a efektívnu presnosť. Efektívne vo vysokorozmernom priestore, dobrá účinnosť pamäte.

Nevýhoda: Obmedzenia rýchlosti, jadra a veľkosti

4) Náhodný les

Je to výkonný algoritmus strojového učenia založený na prístupe Ensemble learning. Základným stavebným blokom náhodného lesa je strom rozhodovania, ktorý sa používa na vytváranie prediktívnych modelov. Demonštrácia práce zahŕňa vytvorenie lesa náhodných stromov rozhodovania a proces prerezávania sa vykonáva nastavením zastavovacích medzier, aby sa dosiahol lepší výsledok. Náhodný les sa implementuje pomocou techniky nazývanej vrecovanie na rozhodovanie. Toto zabalenie zabraňuje nadmernému spracovaniu údajov znížením zaujatosti podobne, ako táto náhodná môže dosiahnuť lepšiu presnosť. Konečnú predpoveď predpovedá priemer mnohých rozhodovacích stromov, tj časté predpovede. Náhodný les obsahuje mnoho prípadov použitia, ako sú predpovede akciového trhu, detekcia podvodov, predpovede správ.

výhody:

  • Nevyžaduje žiadne veľké spracovanie na spracovanie súborov údajov a vytvorenie veľmi jednoduchého modelu. Poskytuje väčšiu presnosť pri riešení prediktívnych problémov.
  • Funguje dobre pri manipulácii s chýbajúcimi hodnotami a automaticky detekuje odľahlé hodnoty.

nevýhoda:

  • Vyžaduje vysoké výpočtové náklady a vysokú pamäť.
  • Vyžaduje oveľa viac času.

5) K- najbližší susedia

Tu budeme diskutovať K-NN algoritmus s dohľadom učeným pre CART. Využívajú K pozitívne malé celé číslo; objekt je zaradený do triedy na základe susedov alebo povedzme, že priradíme skupinu pozorovaním, v ktorej skupine sused leží. Vyberá sa podľa vzdialenosti euklidovskej vzdialenosti a hrubej sily. Hodnota K sa dá zistiť pomocou procesu ladenia. KNN nechce uprednostňovať žiadny model na trénovanie nového súboru údajov a na normalizáciu údajov používa normalizáciu.

Výhoda: Poskytuje efektívne výsledky, ak sú údaje o školení obrovské.

Nevýhoda: Najväčší problém spočíva v tom, že ak je premenná malá, funguje to dobre. Po druhé, výberom faktora K pri klasifikácii.

záver

Záverom sme prešli schopnosťami rôznych klasifikačných algoritmov, ktoré stále pôsobia ako silný nástroj v oblasti vývoja funkcií, klasifikácie obrazov, ktorá predstavuje skvelý zdroj strojového učenia. Klasifikačné algoritmy sú výkonné algoritmy, ktoré riešia ťažké problémy.

Odporúčané články

Toto je sprievodca klasifikačnými algoritmami v strojovom učení. Tu diskutujeme, že klasifikáciu je možné vykonať na štruktúrovaných aj neštruktúrovaných údajoch. Môžete si tiež prečítať naše ďalšie navrhované články -

  1. Algoritmy smerovania
  2. Clustering Algorithm
  3. Proces získavania údajov
  4. Algoritmy strojového učenia
  5. Najpoužívanejšie techniky ensemble learningu
  6. Algoritmus C ++ Príklady algoritmu C ++

Kategórie: