Úvod do ťažby dát

V tomto článku sa dozvieme o úvodu dolovania dát, pretože ľudia ťažili zo zeme od storočí, aby získali najrôznejšie cenné materiály. Niekedy sa pri ťažbe objavujú veci zo zeme, ktoré nikto neočakával na prvom mieste. Napríklad v roku 1898, pri vykopávke hrobky na nájdenie múmie v egyptskej Saqqare, sa našiel drevený artefakt, ktorý sa presne podobal letúnu. Bolo datované späť do roku 200 pred Kristom, približne pred 2200 rokmi! Aké možné informácie by sme však mohli získať z veľkého množstva údajov? A aj keď to začneme ťažiť, existujú nejaké šance na získanie neočakávaných výsledkov zo súboru údajov? Predtým sa pustíme do toho, čo presne je dolovanie dát.

Čo je dolovanie dát?

  • Ide v podstate o extrakciu dôležitých informácií / poznatkov z veľkého množstva údajov.
  • Mysli na dáta ako na veľkú zem / skalnatý povrch. Nevieme, čo je v nej, nevieme, či je pod kameňmi niečo užitočné.
  • V tomto úvodu dolovania údajov hľadáme skryté informácie, ale bez akejkoľvek predstavy o tom, aký druh informácií chceme nájsť a čo ich plánujeme použiť iba raz, nájdeme ich.
  • Rovnako ako v koncepcii tradičná ťažba, aj v oblasti ťažby údajov existujú rôzne techniky a nástroje, ktoré sa líšia podľa typu údajov, ktoré ťažíme, takže sme objasnili, že to, čo je ťažba údajov prostredníctvom tejto témy úvodu do ťažby údajov.

Príklad ťažby údajov

O úvodu do ťažby údajov sme sa dozvedeli v predchádzajúcej časti a teraz pokračujeme s príkladmi ťažby údajov, ktoré sú uvedené nižšie:

  • Existuje teda mobilný operátor. Nahliadnu do dátového baníka, aby vykopali záznamy hovorov operátora. Mineri údajov nie sú stanovené žiadne konkrétne ciele.
  • Je uvedený kvantitatívny cieľ nájsť najmenej 2 nové vzorce za mesiac.
  • Keď sa dátový baník začne kopať do údajov, zistí, že v stredu je v porovnaní s inými dňami menej medzinárodných hovorov.
  • Tieto informácie sú zdieľané s manažmentom a prichádzajú s plánom na zníženie medzinárodných volacích sadzieb v stredu a začatie kampane.
  • Sadzby volaní prudko stúpajú, zákazníci sú spokojní s nízkou cenou hovoru, zaregistruje sa viac zákazníkov a spoločnosť zarába viac peňazí! Situácia win-win!

Majte na pamäti vyššie uvedený príklad a pozrime sa teraz na rôzne kroky súvisiace s dolovaním údajov.

Kroky spojené s dolovaním údajov

V úvodnej časti sme sa dozvedeli o zavedení dolovania údajov a teraz postupujeme ďalej s krokmi, ktoré sa týkajú dolovania údajov, ktoré sú uvedené nižšie:

  • Porozumenie obchodu

V tomto Úvode do získavania údajov budeme rozumieť všetkým aspektom obchodných cieľov a potrieb. Súčasná situácia sa hodnotí nájdením zdrojov, predpokladov a iných dôležitých faktorov. V súlade s tým sa vytvorí dobrý úvod do plánu dolovania údajov na dosiahnutie obchodných cieľov a cieľov dolovania údajov.

  • Porozumenie údajom

Spočiatku sa údaje zbierajú zo všetkých dostupných zdrojov. Potom vyberieme najlepší súbor údajov, z ktorého môžeme extrahovať údaje, ktoré by mohli byť výhodnejšie.

  • Príprava údajov

Akonáhle je súbor údajov identifikovaný, je vybraný, vyčistený, skonštruovaný a naformátovaný v požadovanej forme.

  • Modelovanie dát

Je to proces prestavby daných údajov podľa požiadaviek užívateľa. v pripravenom súbore údajov by sa mohol vytvoriť jeden alebo viac modelov a nakoniec je potrebné modely starostlivo posúdiť za účasti zainteresovaných strán, aby sa zabezpečilo, že vytvorené modely spĺňajú obchodné iniciatívy.

  • ohodnotenie

Je to jeden z najpotrebnejších procesov v oblasti získavania údajov. Zahŕňa to absolvovanie všetkých aspektov procesu, aby sa skontrolovala prípadná chyba alebo únik údajov v procese. Vďaka objaveným novým vzorcom by sa mohli zvýšiť aj nové obchodné požiadavky.

  • rozvinutie

Znamená to jednoducho prezentovať vedomosti takým spôsobom, aby ich mohli zúčastnené strany využiť, keď si to želajú. V našom vyššie uvedenom príklade sa zistilo, že medzinárodné hovory boli v stredu menej, takže tieto informácie boli predložené zúčastneným stranám, ktoré tieto informácie následne využili vo svoj prospech a zvýšili svoje zisky.

Techniky používané pri ťažbe údajov

Vo vyššie uvedenej časti sme sa dozvedeli o úvode do získavania údajov, teraz ideme ďalej s technikami používanými pri získavaní údajov, ktoré sú uvedené nižšie:

  • Zhluková analýza

Clusterová analýza umožňuje identifikovať danú skupinu používateľov podľa bežných funkcií v databáze. Tieto funkcie môžu zahŕňať vek, geografickú polohu, úroveň vzdelania atď.

  • Detekcia anomálie

Používa sa na určenie, kedy sa niečo výrazne odlišuje od bežného vzoru. Používa sa na odstránenie akýchkoľvek nezrovnalostí alebo anomálií databázy pri zdroji.

  • Regresná analýza

Táto technika sa používa na vytváranie predpovedí na základe vzťahov v rámci súboru údajov. Napríklad je možné predpovedať mieru zásob konkrétneho produktu analýzou minulého kurzu a tiež zohľadnením rôznych faktorov, ktoré určujú mieru zásob. Alebo, ako je uvedené nižšie, ak máme údaje o výške a hmotnosti rôznych osôb, potom vzhľadom na výšku alebo hmotnosť môžeme určiť druhú hodnotu.

  • klasifikácia

Týka sa to vecí, ktoré sú na nich označené. Všimnite si v detekcii klastrov, veci v nej nemali označenie a pomocou dolovania údajov sme sa museli označiť a vytvoriť do zoskupení, ale v klasifikácii existujú informácie, ktoré možno ľahko klasifikovať pomocou algoritmu. Príkladom sú e-mailové spamové filtre. Filter nevyžiadanej pošty je poskytovaný s relevantnými aj nevyžiadanými správami (údaje o školení). Rozdiely medzi nimi sú identifikované, čo mu umožňuje správne klasifikovať budúce e-maily.

  • Asociatívne učenie

Používa sa na analýzu toho, ktoré veci majú tendenciu vyskytovať sa spolu vo dvojiciach alebo väčších skupinách. Napríklad ľudia, ktorí majú tendenciu kupovať citróny, kupovať tiež pomaranče, ľudia, ktorí majú tendenciu kupovať chlieb, kupovať mlieko a tak ďalej. Nákupy všetkých zákazníkov sú analyzované a veci, ktoré sa vyskytujú spoločne, sú umiestnené blízko seba, aby sa zvýšil predaj. Takže mlieko je umiestnené blízko chleba, citróny sú umiestnené vedľa pomarančov a podobne.

Je ťažba dát etická?

Takže s kamarátom plánujem víkendový výlet do Goa, hľadám na internete dobré miesta, ktoré by som mohol navštíviť v Goa. Pri najbližšom otvorení internetu nájdem reklamy na rôzne hotely v meste Goa na pobyt.

  • Dobrá vec?

Áno, internet mi pomohol zjednodušiť cestu. Nakoniec, ak sa rozhodnem navštíviť Gou, musel by som niekde spať a reklama, ktorá mi ukazuje hotel, je oveľa užitočnejšia ako reklama, ktorá mi ukazuje nákup oblečenia.

  • Zlá vec?

Áno! Prečo by spoločnosť zaoberajúca sa získavaním údajov, ktorú som nikdy predtým nepočula, vedela, kam idem na dovolenku. Čo keby som o tomto výlete nikomu nepovedal, ale tu internet zrazu vie, že tam idem. Pravda je, že obchodný model spoločnosti zaoberajúcej sa ťažbou údajov závisí od toho. Zhromažďujú tieto údaje prostredníctvom súborov cookie a skriptov, potom ich predávajú inzerentom, ktorí sa mi zase snažia predať niečo iné (v tomto prípade hotelovú izbu).

Takže by to mohlo byť dobré alebo zlé v závislosti od toho, ako sa na to pozeráme. Tiež by sme mohli vždy vypnúť cookies alebo ísť do inkognito vo vyššie uvedenom prípade. Aj keď je to tak, jedna vec je istá. Dolovanie údajov je tu, aby ste mohli zostať.

Odporúčané články

Toto bol sprievodca Úvodom do získavania údajov. Tu diskutujeme o jeho význame, technikách a krokoch, ktoré sa vyskytujú v úvode do získavania údajov, s príkladom na lepšie porozumenie. Viac informácií nájdete aj v nasledujúcich článkoch -

  1. Rozhovory na dolovanie údajov
  2. Prediktívne analýzy v porovnaní s dolovaním údajov
  3. Úvod do vedy o údajoch
  4. Čo je to regresná analýza?

Kategórie: