Úvod do strojového učenia údajov

Údaje sú v zásade informácie, najmä fakty alebo čísla, ktoré sa zbierajú na účely preskúmania a posudzovania a používajú sa na pomoc pri rozhodovaní alebo informácie v elektronickej podobe, ktoré je možné počítačom uložiť a použiť. Teraz sa naučíme definíciu Data Science a Machine Learning.

Data Science (DS) : Je to veľmi široká oblasť, v ktorej sa na získanie dômyselných informácií z dostupných údajov používajú rôzne techniky, ako sú štatistické metódy, vedecké prístupy, architektonické procesy, rôzne algoritmy, ktorými môžu byť buď štruktúrované údaje, alebo neštruktúrované údaje.

Machine Learning ( ML ): Je to podmnožina Data Science. V strojovom učení sa v zásade pomocou štatistických modelov a rôznych algoritmov cvičia stroje bez toho, aby dali výslovné pokyny, spolieha sa na vzory vytvorené s údajmi. “

Dôležitosť dátovej vedy

  • Žijeme vo veku technológie, kde každá osoba nejakým spôsobom alebo iným spôsobom využíva technológiu pre pohodlie / efektívnosť / ľahkosť, napr. Mobilný telefón / notebooky / tablety na komunikáciu, automobily / vlaky / autobusy / lietadlá na prepravu, služby ako bankovníctvo / elektrina a mnoho ďalších pre ľahký život.
  • Pri každej takejto príležitosti vytvárame údaje vedome alebo nevedomky, ako sú denníky hovorov / texty / sociálne médiá - všetky dáta, videá / videá / blogy sú súčasťou údajov, s dopravou je naša navigácia na iné miesta pomocou GPS / výkon vozidla zaznamenaný prostredníctvom ECU tiež časť údajov. Naše transakcie v bankovníctve a mobilných peňaženkách vytvárajú obrovské množstvo údajov, súčasťou údajov je aj spotreba elektrickej energie v ktorejkoľvek oblasti alebo sektore.
  • Tieto údaje sa exponenciálne zvyšujú každý deň alebo minútu za minútu.
  • Teraz vyvstáva otázka, môžeme s týmito údajmi niečo urobiť? Môžeme tieto údaje použiť na poskytnutie užitočných informácií? Môžeme zvýšiť účinnosť? Môžeme tieto údaje použiť na predpovedanie budúcich výsledkov?
  • Na zodpovedanie všetkých týchto otázok existuje oblasť nazývaná veda o údajoch.
  • Data Science je možné považovať za široké pole, ktoré zahŕňa získavanie údajov, inžinierstvo údajov, vizualizáciu údajov, štatistické metódy integrácie údajov, programovanie R / python / SQL, strojové učenie, veľké dáta a ďalšie.

Poďme si teraz porozumieť dôležitým konceptom dátovej vedy.

1. Dátové inžinierstvo

Dátové inžinierstvo je jedným z aspektov vedy o údajoch, ktorý sa zameriava hlavne na aplikácie údajov, zber údajov a analýzu údajov. Celá práca, ktorú vedci údajov robia, rád odpovedá na niekoľko otázok týkajúcich sa predpovedí alebo analýzy, využíva veľké množstvo informácií.

Teraz potrebujú správne a užitočné informácie, čo vytvára potrebu zhromažďovania a overovania dostupných informácií. Toto všetko je súčasťou inžinierskych úloh. Niektoré z týchto úloh sú kontrola nulových hodnôt (chýbajúce údaje), kategorizácia údajov (kategorické údaje), vytváranie štruktúr údajov (pravidlá priradenia) atď.

2. Vizualizácia dát

Vizualizácia údajov je grafický prístup, ktorý predstavuje údaje. Tu používame zabudovanú knižnicu Pythonu na vytváranie vizuálnych prvkov, napríklad tabuliek, korelačných tabuliek, stĺpcových grafov, párových grafov atď. Vizualizácia údajov hrá veľmi dôležitú úlohu pri poskytovaní veľmi jednoduchého spôsobu analýzy údajov, videnia a porozumenia trendom, postavy odľahlé hodnoty atď.

3. Štatistické porozumenie

Štatistika zohráva veľmi dôležitú úlohu v oblasti údajov. Štatistika je veľmi výkonný nástroj na vykonávanie úloh Data Science (DS). Štatistika využíva matematiku na vykonanie technickej analýzy dostupných informácií. Pomocou vizualizácií, ako je stĺpec alebo graf, môžeme získať informácie o trende, ale štatistika nám pomáha pracovať s údajmi matematickým / cieleným spôsobom. Bez znalosti údajov je vedecká vizualizácia iba hádaním.

Budeme diskutovať o niektorých dôležitých štatistických metódach, ktoré používajú vedci údajov každý deň.

  • Priemer: Priemer je v podstate priemer všetkých údajov, vypočítaný spočítaním všetkých prvkov údajov a ich rozdelením počtom prvkov. Používa sa na identifikáciu stredovej hodnoty všetkých prvkov.
  • Medián: Medián sa používa aj na nájdenie stredovej hodnoty dostupných prvkov, ale tu sú všetky údaje usporiadané v poradí a presná stredná hodnota sa považuje za strednú hodnotu.

Ak je počet prvkov nepárny, potom je medián ((n + 1) / 2) tretí . Ak je počet prvkov párny, medián bude ((n / 2) + 1) tretí .

  • Režim: Režim je štatistický parameter, ktorý poukazuje na najčastejšie alebo sa na hodnotu, ktorá sa objavuje najviac, považuje režim.
  • Štandardná odchýlka: Štandardná odchýlka označuje, aké veľké rozpätie je v údajoch alebo je to meranie, ktoré definuje rozpätie od stredných hodnôt alebo priemerných alebo očakávaných hodnôt.

V prípade, že máme nízku štandardnú odchýlku, znamená to, že väčšina údajov je blízko priemernej hodnoty. Ak máme vysokú štandardnú odchýlku, znamená to, že hodnoty našich údajov sú viac rozptýlené od strednej hodnoty.

  • Variácia: rozptyl je rovnaký ako štandardná odchýlka s malým rozdielom, je to druhá mocnina štandardnej odchýlky. Štandardná odchýlka je odvodená z rozptylu, pretože štandardná odchýlka zobrazuje rozpätie v údajoch, zatiaľ čo rozptyl zobrazuje rozpätie so štvorcom. Je ľahké korelovať šírenie pomocou rozptylu.
  • Korelácia: Korelácia je jedným z najdôležitejších štatistických ukazovateľov, ukazuje, ako sú premenné v súbore údajov navzájom prepojené. Keď zmeníme jeden parameter, ako to ovplyvní druhý parameter.

Ak máme kladnú korelačnú hodnotu, čo znamená, že premenné sa budú paralelne zvyšovať alebo znižovať

Ak máme zápornú korelačnú hodnotu, čo znamená, že premenné sa budú správať inverzne po prírastku jedného druhého, znížia sa a naopak.

V štatistike máme rozdelenie pravdepodobnosti, bayesovskú štatistiku a testovanie hypotéz, ktoré sú tiež veľmi dôležitými nástrojmi pre vedcov údajov.

Strojové učenie

Strojové učenie v podstate znamená spôsob, ktorým sa stroje môžu učiť a produkovať výstup na základe vstupných funkcií.

Pojem: „Strojové učenie je študijný odbor, v ktorom sa počítač učí z dostupných údajov / historických údajov bez toho, aby bol výslovne naprogramovaný“.

V strojovom učení sa kladie dôraz na automatizáciu a zlepšovanie procesu výučby počítačov na základe ich skúseností so vstupnými údajmi a nebudeme program výslovne programovať pre každý typ problému, tj stroj zistí, ako k problému pristupovať. Výsledky tu nemusia byť presné, ale je možné urobiť dobrú predpoveď.
Pochopme to takto:

Počítače sa tradične používajú na uľahčenie procesu výpočtu. takže ak máme nejaký aritmetický výpočet. Čo budeme robiť? Pripravíme jeden počítačový program, ktorý túto operáciu vyrieši ľahkým a rýchlym spôsobom. Napríklad, ak chceme pridať dve entity, vytvoríme jeden kus softvérového kódu, ktorý bude mať dva vstupy a na výstupe sa zobrazí súčet.

Pri strojovom učení je prístup odlišný namiesto priameho algoritmu, do softvérového kódu je vložený špeciálny algoritmus, ktorý sa pokúsi rozpoznať vzorec a na základe týchto vzorov sa pokúsi predpovedať najlepší možný výstup. Tu nekódujeme žiadny algoritmus výslovne pre žiadnu konkrétnu operáciu, namiesto toho vkladáme údaje do počítača, aby sme zistili, aký je vzorec a aký by mohol byť výstup.

Prečo teda musíme ísť za týmto prístupom, keď môžeme presné výsledky získať priamo kódovaním presného algoritmu? Presné algoritmy sú zložité a obmedzené. Pozrime sa na to z inej perspektívy, v tejto dobe máme množstvo údajov a každý deň exploduje, ako sme diskutovali v predchádzajúcej časti. Tu sa zaoberáme učením pod dohľadom a bez dozoru.

Strojové učenie je v súčasnosti akútnym záujmom, pretože máme množstvo údajov. Na to, aby sme mali tieto údaje zmysel, musíme mať nejaké zmysluplné výsledky alebo nejaké zmysluplné vzorce, ktoré je možné analyzovať a skutočne použiť.

Ale napriek tomu, prečo nás zaujíma strojové učenie a tieto údaje?

Vieme, že ľudstvo iba nahrádza históriu, akoby sme boli rovnakí ako predchádzajúce generácie, a naši potomkovia budú tiež čeliť niekoľkým situáciám, ktorým teraz čelíme alebo ktorým čelíme. V tejto fáze si musíme predstaviť, ako reagovať do budúcnosti pomocou historických údajov.
Takže teraz vieme, že údaje sú veľmi cenným prínosom.

Výzva je, ako najlepšie môžeme využiť tieto dostupné údaje?

Toto je najzaujímavejšia téma (Ako?), V ktorej objasníme dostupné údaje. V podstate existujú 3 prístupy k strojovému učeniu:

  • Učenie pod dohľadom
  • Učenie bez dozoru
  • Posilnenie učenia

Tieto tri prístupy sa používajú na vytvorenie modelu strojového učenia, ako je (lineárna regresia, logistická regresia, náhodný les, rozhodovacie stromy atď.).

Existuje mnoho rôznych aplikácií týchto modelov strojového učenia, napríklad:

  • Financie: odhaľovanie podvodov
  • Marketing / predaj: prispôsobte odporúčanie
  • Zdravotná starostlivosť: identifikujte trend choroby.

Záver - Data Science Machine Learning

  • Data Science je široké pole, ktorého strojové učenie je podmnožinou. V tejto analýze analyzujeme dostupné historické údaje a snažíme sa predpovedať najpravdepodobnejšie budúce výsledky.
  • Aby sme mohli predpovedať, musíme údaje vyčistiť, usporiadať ich (technické vybavenie údajov). S údajmi v ruke vizualizujeme vzorec / trendy a potom so štatistickým porozumením odvodzujeme užitočné informácie.
  • Tieto údaje sa zavedú do stroja pomocou algoritmu strojového učenia.
  • Tieto algoritmy cvičia stroj a vytvárajú jeden model strojového učenia.
  • Tento model sa potom môže použiť na predpoveď.

Odporúčané články

Toto je sprievodca strojom Data Science Machine Learning. Tu diskutujeme o dôležitosti dátovej vedy spolu so strojovým učením. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Najlepšie programy v oblasti vedy o údajoch
  2. Zručnosti v oblasti dát
  3. Jazyky vedy o údajoch
  4. Techniky strojového učenia
  5. Čo je integrácia údajov?
  6. Ako sa stĺpcový graf používa v Matlabe (príklady)
  7. Rozhodovací strom v strojovom učení
  8. Jednoduché spôsoby, ako vytvoriť strom rozhodovania

Kategórie: