Čo je to algoritmus dolovania údajov?

Algoritmus dolovania dát je sada vyšetrovacích a analytických algoritmov, ktoré pomáhajú pri vytváraní modelu údajov. Aby sme získali konkrétny model, musí algoritmus najprv analyzovať údaje, ktoré poskytnete a ktoré môžu nájsť konkrétne typy vzorov alebo trendov. Výsledkom tohto algoritmu je analýza rôznych iterácií, ktoré môžu pomôcť pri hľadaní optimálnych parametrov pre správny model dolovania dát. Tieto sady parametrov je možné aplikovať na celý súbor údajov a pomáhajú extrahovať akčné vzory a získavajú podrobnú štatistiku údajov.

Najlepšie algoritmy dolovania údajov

Pozrime sa na najlepšie algoritmy získavania údajov:

1. C4.5 Algoritmus

Existujú konštrukty, ktoré používajú klasifikátory, ktoré sú nástrojmi na získavanie údajov. Tieto systémy berú vstupy zo súboru prípadov, keď každý prípad patrí do jedného z malého počtu tried a je opísaný svojimi hodnotami pre pevný súbor atribútov. Klasifikátor výstupu môže presne predpovedať triedu, do ktorej patrí. Využíva rozhodovacie stromy, kde sa prvý počiatočný strom získa pomocou algoritmu rozdelenia a dobyvania.

Predpokladajme, že S je trieda a strom je označený listom s najčastejšou triedou v S. Môže sa použiť výber testu na základe jedného atribútu s dvoma alebo viacerými výstupmi, ako je možné vykonať tento test ako koreňovú vetvu pre každý výsledok testu. Oddiely zodpovedajú podsúborom S1, S2 atď., Ktoré sú výsledkom každého prípadu. C4.5 umožňuje viacnásobné výsledky. V prípade zložitých rozhodovacích stromov zaviedla C4.5 alternatívny vzorec, ktorý pozostáva zo zoznamu pravidiel, kde sú tieto pravidlá zoskupené pre každú triedu. Na klasifikáciu prípadu sa prvá trieda, ktorej podmienky sú splnené, pomenuje ako prvá. Ak prípad nespĺňa žiadne pravidlo, priradí sa mu predvolená trieda. Pravidlá C4.5 sú tvorené z počiatočného stromu rozhodovania. C4.5 zvyšuje škálovateľnosť pomocou viacerých vlákien.

2. k-znamená algoritmus

Tento algoritmus je jednoduchý spôsob rozdelenia danej množiny údajov na užívateľom určený počet klastrov. Tento algoritmus pracuje na d-rozmerných vektoroch, D = (xi | i = 1, … N), kde i je dátový bod. Na získanie týchto počiatočných dátových semien sa musia údaje náhodne vzorkovať. Toto nastavuje riešenie zoskupovania malej podmnožiny údajov, globálneho priemeru dát k krát. Tento algoritmus sa dá spárovať s iným algoritmom na opis nekonvexných zoskupení. Vytvára skupiny k z danej sady objektov. Skúma celý súbor údajov pomocou klastrovej analýzy. Pri použití s ​​inými algoritmami je jednoduchý a rýchlejší ako iné algoritmy. Tento algoritmus je väčšinou klasifikovaný ako čiastočne kontrolovaný. Spolu so špecifikovaním počtu klastrov sa tiež učí bez akýchkoľvek informácií. Sleduje zhluk a učí sa.

3. Algoritmus Naive Bayes

Tento algoritmus je založený na Bayesovej vete. Tento algoritmus sa používa najmä vtedy, keď je vysoká vstupnosť. Tento klasifikátor dokáže ľahko vypočítať ďalší možný výstup. Počas spracovania môžu byť pridané nové nespracované údaje, čo poskytuje lepší pravdepodobnostný klasifikátor. Každá trieda má známu množinu vektorov, ktorých cieľom je vytvorenie pravidla, ktoré v budúcnosti umožní priradenie objektov k triedam. Vektory premenných opisujú budúce objekty. Toto je jeden z najjednoduchších algoritmov, pretože je ľahko zostaviteľný a nemá žiadne komplikované schémy odhadu parametrov. Dá sa ľahko použiť aj na obrovské množiny údajov. Nepotrebuje žiadne komplikované schémy odhadovania iteratívnych parametrov, a preto používatelia, ktorí nie sú kvalifikovaní, môžu pochopiť, prečo sa klasifikácie robia.

4. Podpora algoritmov vektorových strojov

Ak chce užívateľ robustné a presné metódy, musí sa vyskúšať algoritmus Support Vector machines. SVM sa používajú hlavne na učenie sa klasifikácie, regresie alebo klasifikácie. Tvorí sa na základe minimalizácie štrukturálnych rizík a teórie štatistického učenia. Musia sa určiť hranice rozhodovania, ktoré sa nazývajú hyperlinky. Pomáha pri optimálnom oddelení tried. Hlavnou úlohou SVM je identifikovať maximalizáciu rozpätia medzi dvoma triedami. Rozpätie je definované ako množstvo priestoru medzi dvoma triedami. Funkcia hyperplánu je ako rovnica pre priamku, y = MX + b. SVM sa dá rozšíriť aj na vykonávanie numerických výpočtov. SVM využíva jadro, takže funguje dobre vo vyšších rozmeroch. Toto je dohliadaný algoritmus a sada údajov sa používa na prvé informovanie SVM o všetkých triedach. Len čo sa tak stane, SVM môže byť schopný klasifikovať tieto nové údaje.

5. Aprioriho algoritmus

Na nájdenie častých množín položiek zo súboru údajov o transakciách a odvodenie pravidiel priradenia sa všeobecne používa algoritmus Apriori. Nájsť časté sady položiek nie je ťažké kvôli kombinatorickej explózii. Keď dostaneme časté množiny položiek, je jasné, že vygenerujeme pravidlá priradenia pre väčšiu alebo rovnakú zadanú minimálnu dôveru. Apriori je algoritmus, ktorý pomáha pri hľadaní častých súborov údajov pomocou generovania kandidátov. Predpokladá sa, že súprava položiek alebo prítomné položky sú usporiadané v lexikografickom poradí. Po zavedení Apriori sa výskum v oblasti ťažby údajov osobitne podporil. Implementácia je jednoduchá a ľahká. Základný prístup tohto algoritmu je nasledujúci:

  • Pripojiť : Celá databáza sa používa pre často vykonávanú súpravu 1 položiek.
  • Orezať : Táto sada položiek musí uspokojiť podporu a dôveru, aby sa presunula do nasledujúceho kola pre 2 sady položiek.
  • Opakovať : Kým sa nedosiahne vopred definovaná veľkosť, opakuje sa to pre každú úroveň súpravy položiek.

záver

S popredným použitím piatich algoritmov existujú aj ďalšie, ktoré pomáhajú pri získavaní údajov a tiež sa učia. Integruje rôzne techniky vrátane strojového učenia, štatistík, rozpoznávania vzorov, umelej inteligencie a databázových systémov. To všetko pomáha pri analýze veľkých súborov údajov a pri vykonávaní rôznych úloh týkajúcich sa analýzy údajov. Preto sú najužitočnejšími a najspoľahlivejšími analytickými algoritmami.

Odporúčané články

Toto bol sprievodca pre algoritmy dolovania údajov. Tu sme diskutovali základné pojmy a top algoritmy dolovania dát. Viac informácií nájdete aj v ďalších navrhovaných článkoch.

  1. Čo je testovanie softvéru?
  2. Algoritmus rozhodovacieho stromu
  3. Čo je generika v jazyku Java?
  4. Architektúra ťažby dát
  5. Aplikácia dolovania dát
  6. Príklady a ako generiká fungujú v jazyku C #
  7. Modely v ťažbe dát s výhodami

Kategórie: