Úvod do algoritmov vedy o údajoch

Opis základných algoritmov používaných v Data Science na vysokej úrovni. Ako už viete, veda o údajoch je oblasť štúdia, v ktorej sa rozhoduje na základe poznatkov získaných z údajov namiesto klasických deterministických prístupov založených na pravidlách. Zvyčajne môžeme rozdeliť úlohu strojového učenia na tri časti

  • Získanie údajov a zmapovanie obchodného problému,
  • Uplatňovanie techník strojového učenia a dodržiavanie metriky výkonnosti
  • Testovanie a nasadenie modelu

V tomto celom životnom cykle používame rôzne algoritmy vedy o údajoch na vyriešenie danej úlohy. V tomto článku rozdelíme najbežnejšie používané algoritmy na základe ich typov učenia a budeme o nich diskutovať na vysokej úrovni.

Typy algoritmov vedy o údajoch

Na základe učebných metodológií môžeme jednoducho rozdeliť algoritmy strojového učenia alebo informatiky na nasledujúce typy

  1. Algoritmy pod dohľadom
  2. Algoritmy bez dozoru

1. Algoritmy pod dohľadom

Ako už názov napovedá, dohliadané algoritmy sú triedou algoritmov strojového učenia, kde je model trénovaný s označenými údajmi. Napríklad na základe historických údajov chcete predpovedať, že zákazník predvolí pôžičku alebo nie. Po predbežnom spracovaní a konštrukcii prvkov označených údajov sú dohliadané algoritmy vyškolené nad štruktúrovanými údajmi a testované v novom dátovom bode alebo v tomto prípade na predpovedanie zlyhania úveru. Poďme sa ponoriť do najpopulárnejších dohliadaných algoritmov strojového učenia.

  • K Najbližší susedia

K najbližších susedov (KNN) je jedným z najjednoduchších, ale výkonných algoritmov strojového učenia. Ide o dohliadaný algoritmus, pri ktorom sa klasifikácia vykonáva na základe k najbližších údajových bodov. Myšlienka KNN spočíva v tom, že podobné body sú zoskupené dohromady. Meraním vlastností najbližších údajových bodov môžeme klasifikovať testovací dátový bod. Napríklad riešime problém so štandardnou klasifikáciou, keď chceme predpovedať, že dátový bod patrí do triedy A alebo triedy B.Let k = 3, teraz otestujeme 3 najbližší dátový bod testovacieho dátového bodu, ak dva z nich patria do triedy A vyhlásime dátový bod testu ako triedu A, inak triedu B. Správna hodnota K sa zistí krížovou validáciou. Má lineárnu zložitosť času, a preto ho nemožno použiť na aplikácie s nízkou latenciou.

  • Lineárna regresia

Lineárna regresia je dohliadaný algoritmus pre vedu údajov.

Výkon:

Premenná je nepretržitá. Cieľom je nájsť hyperplán, kde maximálny počet bodov leží v hyperpláne. Napríklad predpovedanie množstva dažďa je štandardný problém regresie, pri ktorom je možné použiť lineárnu regresiu. Lineárna regresia predpokladá, že vzťah medzi nezávislými a závislými premennými je lineárny a existuje len veľmi malá alebo žiadna multiklinearita.

  • Logistická regresia

Aj keď názov hovorí o regresii, logistická regresia je klasifikovaný algoritmus pod dohľadom.

Výkon:

Geometrická intuícia je, že môžeme oddeliť rôzne štítky triedy pomocou lineárnej hranice rozhodovania. Výstupná premenná logistickej regresie je kategorická. Upozorňujeme, že strednú druhú chybu nemožno použiť ako nákladovú funkciu pre logistickú regresiu, pretože pre logistickú regresiu je nekonvexná.

  • Podpora Vector Machine

V logistickej regresii bolo našim hlavným mottom nájsť oddeľujúci lineárny povrch.

Výkon:

Vektorový stroj podpory môžeme považovať za rozšírenie tejto myšlienky, keď musíme nájsť hyperplán, ktorý maximalizuje maržu. Čo je ale marža? Pre vektor W (rozhodovaciu plochu, ktorú musíme prísť) nakreslíme dve rovnobežné čiary na oboch stranách. Vzdialenosť medzi týmito dvoma čiarami sa nazýva okraj. SVM predpokladá, že údaje sú lineárne oddeliteľné. Aj keď môžeme použiť SVM na nelineárne údaje aj pomocou triku jadra.

  • Rozhodovací strom

Rozhodovací strom je vnorený klasifikátor založený na If-Else, ktorý používa na vytvorenie rozhodnutia stromovú štruktúru grafu. Rozhodovacie stromy sú veľmi populárne a sú jedným z najpoužívanejších dohliadaných algoritmov strojového učenia v celej oblasti dátovej vedy. Poskytuje lepšiu stabilitu a presnosť vo väčšine prípadov porovnateľne ako iné dohliadané algoritmy a je odolný voči odľahlým hodnotám. Výstupná premenná rozhodovacieho stromu je zvyčajne kategorická, ale môže sa použiť aj na riešenie regresných problémov.

  • súbory

Zostavy sú populárnou kategóriou algoritmov vedy o údajoch, pri ktorých sa na dosiahnutie lepšieho výkonu používajú spolu viaceré modely. Ak ste oboznámení s Kaggle (platforma spoločnosti Google na precvičovanie a súťaženie v problémoch s vedou o údajoch), nájdete riešenia, ktoré väčšina víťazov využíva niektoré súbory.

Zbory môžeme zhruba rozdeliť do nasledujúcich kategórií

  • vrecovanie
  • posilňovanie
  • stohovanie
  • kaskádové

Náhodné lesy, rozhodovacie stromy na zvýšenie gradientu sú príklady niektorých populárnych algoritmov súboru.

2. Algoritmy bez dozoru

Algoritmy bez dozoru sa používajú na úlohy, pri ktorých sú údaje neznačené. Najpopulárnejším prípadom použitia nesledovaných algoritmov je zoskupovanie. Zhlukovanie je úlohou zoskupovania podobných údajových bodov bez manuálneho zásahu. Poďme sa porozprávať o niektorých populárnych bezohľadových algoritmoch strojového učenia

  • K znamená

K Prostriedky sú náhodne používaný bezohľadový algoritmus, ktorý sa používa na klastrovanie

1.Nearializujte K body náhodne (c1, c2..ck)

2. Pre každý bod (Xi) v súbore údajov

Vyberte najbližšiu Ci (i = 1, 2, 3..k)

Pridajte Xi do Ci

3. Rekompilujte ťažisko pomocou správnych metrík (tj intraclusterová vzdialenosť)

4, zopakujte krok (2) (3), až kým sa nespojí

  • K znamená ++

Inicializačný krok v prostriedku K je čisto náhodný a na základe inicializácie sa zoskupovanie drasticky zmení. K znamená ++ rieši tento problém inicializáciou k pravdepodobným spôsobom namiesto čisto náhodného výberu. K znamená ++ je stabilnejší ako klasické K znamená.

  • K Medoids:

K medoidy sú tiež zoskupovacím algoritmom založeným na prostriedkoch K. Hlavný rozdiel medzi nimi je, že centroidy K prostriedkov nemusia nevyhnutne existovať v súbore údajov, čo neplatí pre K medoidy. K medoidy K ponúkajú lepšiu interpretovateľnosť klastrov. K znamená minimalizáciu celkovej štvorcovej chyby, zatiaľ čo K medoidy minimalizujú rozdielnosť medzi bodmi.

záver

V tomto článku sme diskutovali o najpopulárnejších algoritmoch strojového učenia používaných v oblasti dátovej vedy. Po tom všetkom vás môže napadnúť otázka, ktorý algoritmus je najlepší? Je zrejmé, že tu nie je žiadny víťaz. Závisí to výlučne od aktuálnej úlohy a obchodných požiadaviek. Ako najlepšia prax sa vždy začína najjednoduchším algoritmom a postupne sa zvyšuje zložitosť.

Odporúčané články

Toto bol návod na algoritmy Data Science Algorithms. Tu diskutujeme prehľad algoritmov pre vedu o údajoch a dva typy algoritmov pre vedu o údajoch. Ak sa chcete dozvedieť viac, môžete si tiež prečítať naše dané články.

  1. Platforma pre vedu o údajoch
  2. Jazyky vedy o údajoch
  3. Algoritmy klasifikácie
  4. Algoritmy dolovania údajov
  5. Najpoužívanejšie techniky ensemble learningu
  6. Jednoduché spôsoby, ako vytvoriť strom rozhodovania
  7. Kompletná príručka životného cyklu údajov

Kategórie: