Čo je to Analýza údajov?
Analýza údajov je proces zisťovania kľúčových poznatkov a cenných záverov z veľkého množstva údajov zhromaždených alebo zhromaždených z rôznych zdrojov na podporu rozhodovania. Zvýšený výpočtový výkon, vysoká rýchlosť spracovania. Príchod interaktívnych rozhraní koncových používateľov a preukázaná účinnosť distribuovanej výpočtovej paradigmy na zvládnutie veľkých kúskov dátových analytických údajov priniesli pokrok vo všetkých oblastiach, najmä v maloobchode, bankovníctve, zdravotníctve, logistike, obrane, verejnej správe atď.
Typy analýzy údajov
Proces analýzy údajov je subjektívne kategorizovaný do troch typov na základe účelu analýzy údajov ako
- Opisná analýza
- Prediktívne analýzy
- Predbežná analýza
Funkcie vyššie uvedených typov služieb Analytics sú opísané nižšie:
1. Opisná analýza
Opisná analýza sa zameriava na sumarizáciu minulých údajov na odvodenie záverov. Najbežnejšie používané opatrenia na kvantitatívnu charakterizáciu distribúcie historických údajov
- Opatrenia centrálnej tendencie - priemer, medián, kvartily, režim.
- Miera variability alebo šírenia - rozsah, medzikvartilový rozsah, percentá.
V nedávnej dobe sa ťažkosti a obmedzenia spojené so zhromažďovaním, uchovávaním a porozumením rozsiahlych hromád údajov prekonávajú procesom štatistického zisťovania. Zovšeobecnené závery o štatistike súboru údajov o obyvateľstve sa odvodzujú pomocou metód vzorkovania spolu s uplatňovaním teórie centrálneho obmedzenia.
Vedúci spravodajské organizácie zhromažďujú údaje o hlasovaní náhodne vybraných voličov na výstupe z volebnej miestnosti v deň volieb, aby odvodili štatistické závery o preferenciách celej populácie.
Opakované vzorkovanie súboru údajov o populácii má za následok kúsky vzoriek s dostatočne veľkou veľkosťou vzorky. Skupinový odber vzoriek sa vo všeobecnosti uprednostňuje na vytvorenie dobre stratifikovaných, nezaujatých zástupcov súboru údajov o populácii. Štatistická miera záujmu sa vypočíta na vzorkovaných dátových kúskoch, aby sa získalo rozdelenie štatistických hodnôt vzorky nazývané distribúcia vzorkovania. Charakteristiky distribúcie vzoriek súvisia s charakteristikami súboru údajov o populácii pomocou centrálnej teórie obmedzenia.
2. Prediktívne analýzy
Predictive Analytics využíva vzorce v historických alebo minulých údajoch na odhad budúcich výsledkov, identifikáciu trendov, odhalenie potenciálnych rizík a príležitostí alebo na predvídanie správania procesov. Pretože prípady použitia predpovede sú vierohodné, tieto prístupy využívajú pravdepodobnostné modely na meranie pravdepodobnosti všetkých možných výsledkov.
ChatBot na portáli zákazníckych služieb finančnej spoločnosti proaktívne zisťuje zámery alebo potreby zákazníkov na základe svojich minulých aktivít vo svojej webovej doméne. V predpovedanom kontexte chatBot interaktívne komunikuje so zákazníkom, aby poskytoval vhodné služby rýchlo a dosiahol lepšiu spokojnosť zákazníka.
Okrem scenárov extrapolácie na predpovedanie toho, čo sa v budúcnosti stane na základe dostupných minulých údajov, existuje len málo aplikácií, ktoré odhadujú vynechanie zadávania údajov pomocou dostupných vzoriek údajov. Táto aproximácia zmeškaných hodnôt v rozsahu daných vzoriek údajov sa technicky označuje ako interpolácia.
Výkonná aplikácia na úpravu obrázkov podporuje rekonštrukciu zmeškaných častí textúry v dôsledku nadmerne ukladaného textu interpoláciou funkcie funkcie v zmeškanom bloku. Funkciu funkcie je možné interpretovať ako matematický zápis vzorov v textúre skresleného obrázka.
Významné faktory, ktoré ovplyvňujú výber prediktívnych modelov / stratégií, sú:
- Presnosť predpovede: To vyjadruje stupeň blízkosti medzi predpokladanou hodnotou a skutočnou hodnotou. Nižší rozptyl rozdielu medzi predpokladanou hodnotou a skutočnou hodnotou znamená vyššiu presnosť prediktívneho modelu.
- Rýchlosť predpovedí: V aplikáciách sledovania v reálnom čase má vysokú prioritu
- Miera učenia sa modelu: Závisí to od zložitosti modelu a výpočtov zahrnutých do výpočtu parametrov modelu.
3. Predbežná analýza
Prescriptive Analytics využíva vedomosti objavené ako súčasť deskriptívnej aj prediktívnej analýzy na odporúčanie kontextového postupu. Na pochopenie distribúcie odhadovaných predpovedí sú implementované pokročilé štatistické techniky a výpočtovo náročné optimalizačné metódy.
Presne povedané, vplyv a prínos každého výsledku, ktorý sa odhaduje počas prediktívnej analýzy, sa hodnotí s cieľom urobiť heuristické a časovo citlivé rozhodnutia pre daný súbor podmienok.
Poradenská spoločnosť na akciovom trhu vykonáva analýzu SWOT (Sila, Slabosť, Príležitosti a Hrozba) predpovedaných cien akcií v portfóliu investorov a svojim klientom odporúča najlepšie možnosti nákupu a predaja.
Tok procesov v analýze údajov
Proces analýzy údajov má rôzne štádiá spracovania údajov, ako je vysvetlené ďalej:
1. Extrakcia dát
Prijímanie údajov z viacerých zdrojov údajov rôznych typov, vrátane webových stránok, databáz, starších aplikácií, vedie k vstupným súborom údajov rôznych formátov. Dátové formáty vložené do toku dátovej analýzy možno všeobecne klasifikovať ako
- Štruktúrované údaje majú jasnú definíciu typov údajov spolu s pridruženou dĺžkou poľa alebo oddeľovačmi polí. Na tento typ údajov možno ľahko odpovedať ako na obsah uložený v relačnej databáze (RDBMS).
- V pološtrukturovaných údajoch chýba presná definícia rozloženia, ale dátové prvky možno identifikovať, oddeliť a zoskupiť na základe štandardnej schémy alebo iných pravidiel metaúdajov. Súbor XML využíva označovanie na uchovávanie údajov, zatiaľ čo súbor notácie objektu Javascript (JSON) uchováva údaje v pároch názov-hodnota. NoSQL (nielen SQL) databázy ako MongoDB, ale gaučová základňa sa tiež používajú na ukladanie semi-štruktúrovaných údajov.
- Neštruktúrované údaje zahŕňajú konverzácie na sociálnych sieťach, obrázky, zvukové klipy atď. Tradičné metódy analýzy údajov týmto údajom nerozumejú. Neštruktúrované údaje sa ukladajú do dátových jazier.
Implementácia analýzy dát pre štruktúrované a pološtrukturované údaje je začlenená do rôznych nástrojov ETL, ako sú Ab Initio, Informatica, Datastage a alternatívy otvoreného zdroja, ako je Talend.
2. Čistenie a transformácia dát
Čistenie analyzovaných údajov sa vykonáva na zabezpečenie konzistentnosti údajov a dostupnosti príslušných údajov pre neskoršie fázy procesu. Hlavnými čistiacimi operáciami v dátovej analýze sú:
- Zisťovanie a eliminácia extrémnych hodnôt v objemoch údajov
- Odstránenie duplikátov v množine údajov
- Zaobchádzanie s chýbajúcimi záznamami v záznamoch údajov s pochopením funkčnosti alebo prípadov použitia
- Overenie prípustných hodnôt polí v údajových záznamoch, ako napríklad „31. február“, nemôže byť platnou hodnotou v žiadnom z dátumových polí.
Vyčistené údaje sa transformujú do vhodného formátu na analýzu údajov. Transformácie údajov zahŕňajú
- Filter nežiaducich záznamov údajov.
- Spájanie údajov získaných z rôznych zdrojov.
- Agregácia alebo zoskupenie údajov
- Typové vysielanie údajov
3. Odvodenie KPI / Insight
Dolovanie údajov, metódy hlbokého učenia sa používajú na hodnotenie kľúčových ukazovateľov výkonnosti (KPI) alebo na získanie cenných poznatkov z vyčistených a transformovaných údajov. Na základe cieľa analytiky sa analýza údajov vykonáva pomocou rôznych techník rozpoznávania vzorov, ako je zhlukovanie k-prostriedkov, klasifikácia SVM, Bayesovské klasifikátory atď. A modely strojového učenia, ako sú Markovove modely, Gaussovské modely zmiešania (GMM) atď.
Pravdepodobnostné modely sa vo fáze výcviku učia optimálne parametre modelu a vo fáze validácie sa model testuje pomocou krížového validačného testu s veľkosťou K, aby sa predišlo chybám pri nadmernom montáži a nedostatočnom vybavení.
Najbežnejšie používaným programovacím jazykom pre analýzu dát sú R a Python. Obe majú bohatú skupinu knižníc (SciPy, NumPy, Pandas), ktoré sú otvorené na vykonávanie komplexnej analýzy údajov.
4. Vizualizácia dát
Vizualizácia údajov je proces jasnej a efektívnej prezentácie nekrytých vzorov, odvodených záverov z údajov pomocou grafov, grafov, dashboardov a grafiky.
- Nástroje na vytváranie údajov, ako sú QlikView, Tableau atď., Zobrazujú KPI a ďalšie odvodené metriky na rôznych úrovniach podrobnosti.
- Nástroje na vytváranie prehľadov umožňujú koncovým používateľom vytvárať prispôsobené prehľady s možnosťou otočení a rozbalenia pomocou používateľsky prívetivých rozhraní drag and drop
- Knižnice interaktívnej vizualizácie dát, ako sú D3.js (Data-driven documents), HTML5-Anycharts atď., Sa používajú na zvýšenie schopnosti skúmať analyzované údaje.
Odporúčané články
Toto bol návod na analýzu údajov. Tu sme diskutovali o rôznych typoch analytických údajov s procesným tokom. Ďalšie informácie nájdete aj v ďalších navrhovaných článkoch -
- Otázky a odpovede týkajúce sa rozhovoru s analytikom údajov
- Čo je to vizualizácia dát?
- Čo je to veľká dátová analytika?
- Čo je Minitab?