Rozdiel medzi vedou o údajoch a strojovým vzdelávaním

Dátová veda je evolučným rozšírením štatistiky, ktorá je schopná zvládnuť obrovské množstvo pomocou technológií počítačovej vedy. Strojové učenie je oblasť štúdia, ktorá umožňuje počítačom učiť sa, bez výslovného naprogramovania. Dáta veda pokrýva širokú škálu dátových technológií, vrátane SQL, Python, R a Hadoop, Spark, atď. Strojové učenie je vnímané ako proces, možno ho definovať ako proces, pomocou ktorého môže počítač presnejšie pracovať, keď zbiera a sa učí z údajov, ktoré sú uvedené.

Porovnanie údajov z vedy s údajmi v porovnaní so strojovým učením (infografika)

Nižšie je päť najlepších porovnaní medzi Data Science vs Machine Learning

Kľúčový rozdiel medzi Data Science a Machine Learning

Nižšie je uvedený rozdiel medzi Data Science a Machine Learning

  • Komponenty - Ako už bolo spomenuté, systémy Data Science pokrývajú celý životný cyklus údajov a zvyčajne obsahujú komponenty, ktoré zahŕňajú:
    • Zhromažďovanie a profilovanie údajov - potrubia ETL (Extract Transform Load Load) a profilovanie
    • Distribuované výpočty - Horizontálne škálovateľná distribúcia a spracovanie údajov
    • Automatizačná inteligencia - automatizované modely ML pre online reakcie (predpovede, odporúčania) a zisťovanie podvodov.
    • Vizualizácia údajov - vizuálne preskúmajte údaje, aby ste získali lepšiu intuíciu údajov. Neoddeliteľná súčasť modelovania ML.
    • Prístrojové panely a BI - Preddefinované dashboardy s funkciou krájania a kocky pre zúčastnené strany na vyššej úrovni.
    • Dátové inžinierstvo - Zabezpečte, aby boli vždy prístupné horúce a studené údaje. Zahŕňa zálohovanie dát, bezpečnosť a obnovu po katastrofe
    • Nasadenie vo výrobnom režime - Migrácia systému do výroby podľa štandardných postupov.
    • Automatizované rozhodnutia - Zahŕňa to obchodnú logiku nad údajmi alebo komplexný matematický model vycvičený pomocou akéhokoľvek algoritmu ML.

Modelovanie strojového učenia začína údajmi a typické komponenty sú nasledujúce:

  • Pochopenie problému - Uistite sa, že efektívny spôsob riešenia problému je ML. Všimnite si, že nie všetky problémy riešiteľné pomocou ML.
  • Preskúmať údaje - Ak chcete získať intuíciu funkcií, ktoré sa majú použiť v modeli ML.To môže vyžadovať viac ako jednu iteráciu. Vizualizácia údajov tu hrá rozhodujúcu úlohu.
  • Pripraviť údaje - Toto je dôležitá etapa s veľkým vplyvom na presnosť modelu ML. Zaoberá sa otázkou údajov, ako to, čo robiť s chýbajúcimi údajmi pre funkciu? Nahraďte zdanlivou hodnotou, ako je nula, alebo priemerom iných hodnôt alebo vynechajte objekt z modelu ?. Funkcie škálovania, ktoré zaisťujú, že hodnoty všetkých funkcií sú v rovnakom rozsahu, sú pre mnohé modely ML rozhodujúce. Mnoho ďalších techník, ako je generovanie polynomov, sa tu tiež používa na odvodenie nových funkcií.
  • Vyberte model a vlak - Model sa vyberá na základe typu problému (Predikcia alebo klasifikácia atď.) A typu súpravy prvkov (niektoré algoritmy pracujú s malým počtom prípadov s veľkým počtom prvkov a niektoré iné v iných prípadoch),
  • Meranie výkonnosti - Vo vede údajov nie sú štandardizované meradlá výkonnosti, bude sa meniť od prípadu k prípadu. Zvyčajne to bude indikácia včasnosti údajov, kvality údajov, schopnosti dotazovania, obmedzení súbežnosti v prístupe k údajom, schopnosti interaktívnej vizualizácie atď.

V ML modeloch sú výkonnostné ukazovatele krištáľovo čisté. Každý algoritmus bude mať k dispozícii indikáciu toho, ako dobre alebo zlé model popisuje dané tréningové údaje. Napríklad RME (Root Mean Square Error) sa používa v lineárnej regresii ako indikácia chyba v modeli.

  • Metodika vývoja - Projekty Data Science sú porovnané skôr ako inžiniersky projekt s jasne definovanými míľnikmi. Projekty ML sú však skôr výskumom, ktorý začína hypotézou a snaží sa ju dokázať dostupnými údajmi.
  • Vizualizácia - vizualizácia všeobecne Data Science predstavuje údaje priamo pomocou akýchkoľvek populárnych grafov, ako sú stĺpce, koláče atď. Ale v ML sa vizualizácia tiež používa predstavuje matematický model tréningových údajov. Napríklad vizualizácia matice nejasností klasifikácie viacerých tried pomáha rýchlo identifikovať nepravdivé údaje. pozitíva a negatíva.
  • Jazyky - Syntaxové jazyky podobné jazyku SQL a SQL (HiveQL, Spark SQL atď.) Sú najpoužívanejším jazykom vo svete Data Science. Používajú sa aj skriptovacie jazyky pre spracovanie údajov ako Perl, awk, sed. široko (Java pre Hadoop, Scala pre Spark atď.) používaná kategória.

Python a R sú najpoužívanejším jazykom vo svete strojového učenia. V súčasnosti Python získava na vyššej dynamike, pretože noví vedci v oblasti hlbokého vzdelávania sa väčšinou prevádzajú na python.SQL tiež hrá dôležitú úlohu vo fáze prieskumu údajov v ML

Tabuľka porovnania údajov o vede a strojovom učení

Základ porovnaniaData ScienceStrojové učenie
RozsahVytvárajte prehľady o údajoch, ktoré sa zaoberajú všetkými zložitými situáciami v reálnom svete. Patria sem úlohy ako porozumieť požiadavke, extrahovať údaje atď.Presne klasifikujte alebo predpovedajte výsledok pre nový dátový bod učením modelov z historických údajov pomocou matematických modelov.
Vstupné DataVäčšina vstupných údajov sa generuje ako údaje konzumovateľné človekom, ktoré majú ľudia čítať alebo analyzovať, ako sú tabuľkové údaje alebo obrázky.Vstupné údaje pre ML sa transformujú osobitne pre použité algoritmy. Príklady funkcií sú škálovanie funkcií, vkladanie slov alebo pridávanie polynomických funkcií
Zložitosť systému● Komponenty pre spracovanie neštruktúrovaných nespracovaných údajov.

● Veľa pohyblivých komponentov, ktoré sú zvyčajne naplánované organizačnou vrstvou na synchronizáciu nezávislých úloh

● Hlavná zložitosť spočíva v pozadí algoritmov a matematických konceptov

● Modely súborov budú mať viac ako jeden model ML a každý z nich bude mať vážený príspevok na konečnom výstupe

Preferovaná sada zručností● Odbornosť domén

● ETL a profilovanie údajov

● Silné SQL

● NoSQL systémy

● Štandardné vykazovanie / vizualizácia

● Silné porozumenie matematike

● Python / R programovanie

● Data wrangling with SQL

● Vizualizácia špecifická pre model

Hardvérová špecifikácia● Horizontálne škálovateľné systémy, ktoré uprednostňujú spracovanie veľkých dát

● Vysoké RAm a SSD používané na prekonanie prekážok I / O

● GPU sú preferované pre intenzívne vektorové operácie

● Výkonnejšie verzie ako TPU (link) sú na ceste

Záver - Data Science vs Machine Learning

V Data Science aj Machine Learning sa snažíme extrahovať informácie a poznatky z údajov. Strojové učenie sa snaží, aby sa algoritmy učili samy od seba. V súčasnosti sa na Data Science automaticky používajú pokročilé modely ML na automatické zisťovanie a profilovanie údajov. Cloud Dataaprep od spoločnosti Google je tým najlepším príkladom.

Odporúčaný článok:

Toto bol sprievodca Data Science vs Machine Learning, ich význam, Head to Head Porovnanie, Kľúčové rozdiely, Porovnávacia tabuľka a Záver. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Otázky týkajúce sa rozhovoru pre vývojárov Hadoop
  2. Big Data vs Data Science - Ako sa líšia?
  3. Veda o dátach a jej rastúci význam
  4. Štatistika vs Rozdiely medzi strojovým učením
  5. Ako rozlúštiť rozhovor pre vývojárov Hadoop?

Kategórie: