Úvod do analýzy údajov

V tomto článku sa zobrazí osnova o typoch analýzy údajov. V období 21. storočia je možno najvýznamnejšou zmenou spôsob, akým sa údaje stali súčasťou nášho rozhodovacieho systému v každej oblasti nášho života. Niet pochýb o tom, že „údaje sú novou ropou“ každého odvetvia. Teraz so zvyšovaním takmer nekonečnej šírky pásma sa objavuje nová skupina výziev, ako efektívne využívať túto obrovskú škálu údajov a odvodiť z nich dôležité poznatky. Spolu s veľkým rozsahom údajov sa postupne zvyšuje aj hluk. Analýza údajov je zbierka rôznych metodológií a postojov, aby sa z dostupných údajov využilo to najlepšie a aby sa prvotné údaje previedli na nejakú obchodnú alebo sociálnu hodnotu.

Typy analýzy údajov

Na základe použitých metodík možno analýzu údajov rozdeliť do nasledujúcich štyroch častí:

  • Opisná analýza
  • Analýza prieskumných údajov
  • Prediktívna analýza
  • Inferenčná analýza

1. Opisná analýza

Deskriptívna analýza je numerický spôsob, ako získať informácie o údajoch. V deskriptívnej analýze dostaneme súhrnnú hodnotu číselných premenných. Predpokladajme, že analyzujete údaje o predaji od výrobcu automobilu. V literatúre opisnej analýzy budete hľadať otázky, ako je priemer, spôsob predajnej ceny typu automobilu, aký bol príjem z predaja konkrétneho typu automobilu atď. Môžeme získať centrálnu tendenciu a rozptyl numerických premenných údajov pomocou tohto typu analýzy. Vo väčšine prípadov praktického využitia dátovej vedy vám popisná analýza pomôže získať informácie o vysokej úrovni údajov a zvyknúť si na súbor údajov. Dôležité terminológie deskriptívnej analýzy sú:

  • Priemer (priemer všetkých čísel v zozname čísel)
  • Režim (najčastejšie číslo v zozname čísel)
  • Medián (stredná hodnota zoznamu čísel)
  • Štandardná odchýlka (veľkosť odchýlky súboru hodnôt od strednej hodnoty)
  • Odchýlka (druh štandardnej odchýlky)
  • Medzikvartilový rozsah (hodnoty medzi 25 a 75 percentami zo zoznamu čísel)

V pythone poskytuje knižnica pandas metódu nazvanú „description“, ktorá poskytuje opisné informácie o dátovom rámci. Používame tiež iné knižnice, ako je štatistický model, alebo môžeme vyvíjať náš kód podľa prípadu použitia.

2. Analýza prieskumných údajov

Na rozdiel od deskriptívnej analýzy údajov, kde údaje analyzujeme číselne, je prieskumná analýza údajov vizuálnym spôsobom analýzy údajov. Akonáhle budeme mať základné porozumenie dát po ruke pomocou deskriptívnej analýzy, prejdeme k prieskumnej analýze údajov. Analýzu prieskumných údajov môžeme rozdeliť aj na dve časti:

  • Analýza uni variácie (skúmanie charakteristík jednej premennej)
  • Viacrozmerná analýza (porovnávacia analýza viacerých premenných, ak porovnáme koreláciu dvoch premenných, nazýva sa bivariačná analýza)

Pri vizuálnom spôsobe analýzy údajov používame na analýzu údajov rôzne druhy grafov a grafov. Na analýzu jednej premennej (univariačná analýza) môžeme použiť stĺpcový graf, histogramy, boxový graf s fúgom, husľový graf, atď. Pre viacrozmernú analýzu používame rozptylový graf, kontúrové grafy, viacrozmerné grafy atď.

Ale prečo potrebujeme analýzu prieskumných údajov?

  • Prieskumná analýza údajov poskytuje vizuálny spôsob opisu údajov, čo pomáha jasnejšie identifikovať vlastnosti údajov.
  • Pomáha nám to zistiť, ktoré funkcie sú dôležitejšie. Toto je obzvlášť užitočné, keď pracujeme s vysokorozmernými údajmi. (tj metódy ako PCA a t-SNE pomáhajú pri znižovaní rozmerov).
  • Je to efektívny spôsob, ako vysvetliť vzniknutý výsledok vedúcim pracovníkom a držiteľom netechnických zásobníkov.

V pythone existuje veľa knižníc na vykonávanie prieskumných analýz údajov. Matplotlib, Seaborn, Plotly, Bokeh atď. Sú medzi nimi najobľúbenejšie.

3. Prediktívna analýza

Čo sa stane, ak budeme vedieť chyby, ktoré urobíme v budúcnosti vopred? Pokúsime sa vyhnúť týmto právam? Prediktívna analýza nie je nič iné ako naj vedeckejší spôsob, ako predpovedať budúce výsledky analýzou historických udalostí. Srdce dátovej vedy je založené na prediktívnej analýze. Prediktívna analýza nám pomáha odpovedať na nasledujúce otázky: „Môžeme predpovedať, či kupujúci kúpi konkrétny produkt alebo nie?“ Alebo „Môžeme odhadnúť celkové náklady, ktoré musí poisťovateľ zaplatiť za poistné udalosti? „Alebo„ Môžeme odhadnúť množstvo zrážok v nadchádzajúcom monzúne? “

Prediktívna analýza nám pomáha dať približný alebo najpravdepodobnejší výsledok dôležitých otázok, ktoré potom vyústia do rozsiahlych obchodných a sociálno-ekonomických zmien. Modely strojového učenia sa vyvíjajú na základe historických údajov na predpovedanie výsledku podobných neviditeľných budúcich udalostí.

4. Inferenčná analýza

Inferenciálna analýza je literatúra z oblasti dát, zatiaľ čo predpovedáme referenčný výsledok pre rôzne sektory. Napríklad odvodenie indexu spotrebiteľských cien alebo príjmu na obyvateľa. Nie je možné osloviť každého spotrebiteľa jeden po druhom a vypočítať ho. Namiesto toho vedecky odoberáme vzorky z populácie a pomocou štatistickej analýzy odvodzujeme index.

záver

V tomto článku sme diskutovali o rôznych metodikách analýzy údajov. Potrebujeme použiť všetky tieto metódy alebo ich môžeme použiť? Teraz je to založené na prípade použitia a doméne aplikácie. Vo väčšine prípadov však začneme s opisnou a prieskumnou analýzou údajov a vytvoríme prediktívne modely na predpovedanie budúcich výsledkov.

Odporúčané články

Toto je príručka k analýze typov údajov. V tejto časti uvádzame stručný prehľad analýzy údajov a rôznych metodík založených na prípade použitia a doméne aplikácie. Viac informácií nájdete aj v našich navrhovaných článkoch -

  1. Top 8 bezplatných nástrojov na analýzu údajov
  2. Úvod do typov techník analýzy údajov
  3. Analýza údajov verzus analýza údajov - najväčšie rozdiely
  4. Naučte sa koncepciu integrácie údajov

Kategórie: