Úvod do typov ťažby údajov
Termín „dolovanie údajov“ znamená, že sa musíme pozrieť do veľkého súboru údajov a banských údajov, aby sme vylíčili podstatu toho, čo údaje chcú povedať. Veľmi podobné tomu, ako sa robí ťažba uhlia, keď sa uhlie hlboko pod zemou ťaží pomocou rôznych nástrojov, dolovanie údajov má tiež spojené nástroje na čo najlepšie využitie údajov. Jednou z najbežnejších nesprávnych interpretácií pri dolovaní údajov je to, že sa to považuje za niečo, z čoho sa snažíme extrahovať nové údaje, ale nie vždy je to pravda. Vzťahuje sa to aj na niečo, z čoho sa snažíme získať zmysel z údajov, ktoré už máme. Teda samotná ťažba údajov je obrovské pole, v ktorom sa v nasledujúcich niekoľkých odsekoch podrobne venujeme nástrojom v oblasti dolovania údajov. V tomto článku budeme diskutovať o typoch dolovania údajov.
Čo je dolovanie dát?
Ako už bolo povedané o ťažbe údajov skôr, ťažba údajov je proces, pri ktorom sa snažíme z údajov vyťažiť to najlepšie. Nástroje získavania údajov fungujú ako most medzi údajmi a informáciami z údajov. V niekoľkých blogoch sa ťažba údajov nazýva aj zisťovanie znalostí. Tu by sme chceli poskytnúť stručnú predstavu o procese implementácie dolovania dát, aby intuícia za ťažbou údajov bola jasná a pre čitateľov bola ľahko pochopiteľná. Pod vývojovým diagramom predstavuje tok:
Vo vyššie spomenutom procese existujú nástroje na každej úrovni a my by sme sa pokúsili hlbšie ponoriť do tých najdôležitejších.
Typy ťažby údajov
Dolovanie údajov sa môže vykonávať na nasledujúcich typoch údajov:
1. Vyhladenie (Príprava údajov)
Táto konkrétna metóda techniky získavania údajov patrí do žánru prípravy údajov. Hlavným zámerom tejto techniky je odstránenie šumu z údajov. Na odstránenie šumu sa tu používajú algoritmy ako jednoduchý exponenciál, kĺzavý priemer. Počas prieskumnej analýzy je táto technika veľmi užitočná na vizualizáciu trendov / sentimentov.
2. Agregácia (príprava údajov)
Ako naznačuje tento termín, skupina údajov sa zhromažďuje, aby sa získalo viac informácií. Táto technika sa používa na poskytnutie prehľadu o obchodných cieľoch a môže sa vykonať ručne alebo pomocou špecializovaného softvéru. Táto technika sa zvyčajne používa pri veľkých údajoch, pretože veľké údaje neposkytujú požadované informácie ako celok.
3. Zovšeobecnenie (príprava údajov)
Ako už názov napovedá, táto technika sa opäť používa na zovšeobecnenie údajov ako celku. Toto sa líši od agregácie spôsobom, že údaje počas generalizácie nie sú zoskupené do jedného celku, aby sa získalo viac informácií, ale naopak sa zovšeobecní celý súbor údajov. Umožní to, aby sa model vedy o údajoch prispôsobil novším údajovým bodom.
4. Normalizácia (príprava údajov)
Pri tejto technike sa osobitná starostlivosť venuje údajovým bodom, aby sa dostali do rovnakej stupnice na analýzu. Napríklad vek a plat osoby spadajú do rôznych mierok merania, a preto ich vykreslenie do grafu nám nepomôže získať užitočné informácie o trendoch, ktoré sa vyskytujú ako spoločná črta. Pomocou normalizácie ich môžeme uviesť do rovnakej mierky, aby bolo možné vykonať porovnávanie medzi jablkami.
5. Výber atribútov / prvkov (Príprava údajov)
V tejto technike používame metódy na vykonávanie výberu funkcií tak, aby model použitý na trénovanie súborov údajov mohol znamenať hodnotu na predpovedanie údajov, ktoré nevidel. Je to veľmi podobné výberu správneho oblečenia z šatníka plného oblečenia, ktorý sa hodí pre danú udalosť. Nerelevantné funkcie môžu mať negatívny vplyv na výkonnosť modelu, nehovoriac o zlepšení výkonu.
6. Klasifikácia (Modelovanie údajov)
V tejto technike získavania údajov sa budeme zaoberať skupinami známymi ako „triedy“. V tejto technike využívame vybrané funkcie (ako je uvedené v predchádzajúcom bode) kolektívne pre skupiny / kategórie. Napríklad v obchode, ak musíme vyhodnotiť, či si niekto kúpi produkt alebo nie, existuje „n“ počet funkcií, ktoré môžeme spoločne použiť na získanie výsledku True / False.
7. Sledovanie vzorov
Toto je jedna zo základných techník používaných pri získavaní údajov na získanie informácií o trendoch / vzorcoch, ktoré môžu byť vystavené údajovými bodmi. Môžeme napríklad určiť trend väčšieho predaja počas víkendu alebo sviatku, a nie vo všedné dni alebo pracovné dni.
8. Analýza odľahlých hodnôt alebo detekcia anomálií
Tu aj názov napovedá, táto technika sa používa na nájdenie alebo analýzu odľahlých hodnôt alebo anomálií. Odľahlé hodnoty alebo anomálie nie sú záporné údajové body, sú to niečo, čo sa odlišuje od všeobecného trendu celého súboru údajov. Pri identifikácii odľahlých hodnôt ich môžeme buď úplne odstrániť zo súboru údajov, ktorý nastane po dokončení prípravy údajov. Inak sa táto technika vo veľkej miere používa v modelových súboroch údajov aj na predpovedanie odľahlých hodnôt.
9. Zhlukovanie
Táto technika je do značnej miery podobná klasifikácii, ale jediný rozdiel je, že nepoznáme skupinu, v ktorej údajové body po zoskupení funkcií klesnú po zoskupení. Táto metóda sa zvyčajne používa na zoskupovanie ľudí s cieľom zacieliť na podobné odporúčania produktov.
10. Regresia
Táto technika sa používa na predpovedanie pravdepodobnosti prvku s prítomnosťou ďalších funkcií. Môžeme napríklad sformulovať pravdepodobnosť ceny položky vzhľadom na dopyt, hospodársku súťaž a niekoľko ďalších funkcií.
11. Neurónová sieť
Táto technika je založená na princípe fungovania biologických neurónov. Podobne ako neuróny v ľudskom tele, neuróny v neurónovej sieti pri dolovaní dát tiež pôsobia ako spracovateľská jednotka a spájajú ďalší neurón, aby prenášali informácie pozdĺž reťazca.
12. Združenie
V tejto metóde získavania údajov sa určuje vzťah medzi rôznymi vlastnosťami a následne sa používa na nájdenie skrytých vzorcov alebo súvisiacej analýzy, ktorá sa vykonáva podľa požiadaviek podniku. Napríklad pomocou asociácie nájdeme funkcie, ktoré spolu súvisia, a preto zdôrazňujeme odstránenie každého, aby sa odstránili niektoré redundantné vlastnosti a zlepšil sa výkon a čas spracovania.
záver
Na záver možno povedať, že pri vykonávaní získavania údajov je potrebné mať na pamäti rôzne požiadavky. Človek musí byť veľmi opatrný v tom, čo sa očakáva, že výstup bude taký, aby sa príslušné techniky mohli použiť na dosiahnutie cieľa. Aj keď je dolovanie údajov vyvíjajúcim sa priestorom, pokúsili sme sa vytvoriť vyčerpávajúci zoznam pre všetky typy nástrojov v oblasti dolovania dát vyššie pre čitateľov.
Odporúčané články
Toto je sprievodca typom dolovania údajov. V tejto časti sa venujeme úvodným a dvanástim typom ťažby údajov. Môžete si tiež prečítať naše ďalšie navrhované články -
- Výhody dolovania dát
- Architektúra dolovania dát
- Metódy dolovania dát
- Nástroj na dolovanie dát
- Typy modelov pri ťažbe údajov