Úvod do metód získavania údajov

Údaje sa v obrovskom rozsahu denne zvyšujú. Všetky zozbierané alebo zhromaždené údaje však nie sú užitočné. Zmysluplné údaje sa musia oddeliť od hlučných údajov (bezvýznamné údaje). Tento proces separácie sa uskutočňuje pomocou získavania údajov.

Čo je dolovanie dát?

Dolovanie údajov je proces získavania užitočných informácií alebo poznatkov z obrovského množstva údajov (alebo veľkých údajov). Rozdiel medzi údajmi a informáciami sa zmenšil pomocou rôznych nástrojov na získavanie údajov. Dolovanie údajov sa môže nazývať aj získavanie poznatkov z údajov alebo KDD .

Zdroje: - www.ques10.com

Dolovanie údajov sa môže vykonávať na rôznych druhoch databáz a informačných úložiskách, ako sú relačné databázy, dátové sklady, transakčné databázy, dátové toky a mnoho ďalších.

Rôzne metódy ťažby údajov:

Na dolovanie údajov sa používa veľa metód, ale zásadným krokom je vybrať z nich vhodnú metódu podľa podnikového alebo problémového vyhlásenia. Tieto metódy získavania údajov pomáhajú pri predpovedaní budúcnosti a podľa toho pri prijímaní rozhodnutí. Pomáhajú tiež pri analýze trendov na trhu a pri zvyšovaní výnosov spoločnosti.

Niektoré metódy dolovania údajov sú:

  • združenie
  • klasifikácia
  • Zhluková analýza
  • predpoveď
  • Sekvenčné vzory alebo sledovanie vzorov
  • Rozhodovacie stromy
  • Mimoriadna analýza alebo analýza anomálií
  • Neurónová sieť

Pochopme jednotlivé metódy získavania údajov jeden po druhom.

1. Združenie:

Je to metóda, ktorá sa používa na nájdenie korelácie medzi dvoma alebo viacerými položkami identifikáciou skrytého vzoru v množine údajov, a preto sa nazýva aj ako analýza vzťahov . Táto metóda sa používa pri analýze trhového koša na predpovedanie správania zákazníka.

Predpokladajme, že marketingový manažér supermarketu chce zistiť, ktoré výrobky sa často kupujú spoločne.

Ako príklad,

Nákupy (x, „pivo“) -> nákupy (x, „čipy“) (podpora = 1%, spoľahlivosť = 50%)

  • Tu x predstavuje zákazníka, ktorý kupuje pivo a hranolky spolu.
  • Dôvera ukazuje istotu, že ak si zákazník kúpi pivo, existuje 50% šanca, že si žetóny kúpi tiež.
  • Podpora znamená, že 1% všetkých analyzovaných transakcií ukázalo, že pivo a hranolky sa nakupovali spoločne.

Je možné zvážiť mnoho podobných príkladov, ako je chlieb a maslo alebo počítač a softvér.

Existujú dva typy asociačných pravidiel:

  • Pravidlo jednorozmerného priradenia: Tieto pravidlá obsahujú jeden atribút, ktorý sa opakuje.
  • Pravidlo viacrozmerného priradenia: Tieto pravidlá obsahujú viacnásobné atribúty, ktoré sa opakujú.

https://bit.ly/2N61gzR

2. Klasifikácia:

Táto metóda získavania údajov sa používa na rozlíšenie položiek v množinách údajov na triedy alebo skupiny. Pomáha presne predpovedať správanie sa položiek v skupine. Je to proces pozostávajúci z dvoch krokov:

  • Krok učenia (fáza tréningu): V tomto klasifikačný algoritmus vytvára klasifikátor pomocou analýzy tréningovej sady.
  • Krok klasifikácie: Údaje z testov sa používajú na odhad presnosti alebo presnosti klasifikačných pravidiel.

Napríklad banková spoločnosť používa na identifikáciu žiadateľov o úver s nízkym, stredným alebo vysokým kreditným rizikom. Podobne lekársky výskumník analyzuje údaje o rakovine, aby predpovedal, ktorý liek predpísať pacientovi.

Zdroje: - www.tutorialspoint.com

3. Klastrovacia analýza:

Zhlukovanie je takmer podobné klasifikácii, ale v týchto zhlukoch sa vytvára podľa podobnosti údajov. Rôzne zhluky majú odlišné alebo nesúvisiace objekty. Nazýva sa tiež segmentácia údajov, pretože podľa podobností rozdelí obrovské súbory údajov do zoskupení.

Používajú sa rôzne metódy klastrovania:

  • Hierarchické aglomeračné metódy
  • Metódy založené na mriežke
  • Metódy rozdelenia
  • Metódy založené na modeli
  • Metódy založené na hustote

Podobný príklad žiadateľov o úver je možné zvážiť aj tu. Na obrázku nižšie sú niektoré rozdiely.

https://bit.ly/2N6aZpP

4. Predpoveď:

Táto metóda sa používa na predpovedanie budúcnosti na základe minulých a súčasných trendov alebo súboru údajov. Predikcia sa väčšinou používa v kombinácii s inými metódami získavania údajov, ako je klasifikácia, porovnávanie vzorov, analýza trendov a vzťah.

Napríklad, ak by manažér predaja supermarketu chcel predpovedať výšku výnosov, ktoré by každá položka vygenerovala na základe údajov o predaji v minulosti. Modeluje spojitú funkciu, ktorá predpovedá chýbajúce hodnoty číselných údajov.

Zdroje: - mining-data.philippe-fournier

Regresná analýza je najlepšou voľbou na vykonanie predikcie. Môže sa použiť na nastavenie vzťahu medzi nezávislými a závislými premennými.

5. Sekvenčné vzory alebo sledovanie vzorov:

Táto metóda získavania údajov sa používa na identifikáciu vzorcov, ktoré sa často vyskytujú počas určitého časového obdobia.

Napríklad manažér predaja odevnej spoločnosti vidí, že sa zdá, že predaj bund je zvýšený tesne pred zimnou sezónou, alebo sa predaj pekárskych výrobkov zvyšuje počas Vianoc alebo Silvestra.

Pozrime sa na príklad s grafom

Zdroje: - mining-data.philippe-fournier-viger

6. Rozhodovacie stromy:

Rozhodovací strom je stromová štruktúra (ako napovedá názov), kde

  • Každý vnútorný uzol predstavuje test na atribút.
  • Vetva označuje výsledok testu.
  • Terminálne uzly majú označenie triedy.
  • Najvyšší uzol je koreňový uzol, ktorý má jednoduchú otázku, ktorá má dve alebo viac odpovedí. V súlade s tým strom rastie a generuje sa štruktúra podobná vývojovému diagramu.

Zdroje: - www.tutorialride.com

V tomto rozhodnutí stromová vláda klasifikuje občanov mladších ako 18 rokov a 18 rokov. Pomohlo by im to rozhodnúť sa, či sa licencia musí vydať konkrétnemu občanovi alebo nie.

7.Outlierská analýza alebo analýza anomálie:

Táto metóda získavania údajov sa používa na identifikáciu dátových položiek, ktoré nespĺňajú očakávaný vzorec alebo očakávané správanie. Tieto neočakávané údajové položky sa považujú za odľahlé hodnoty alebo šum. Sú užitočné v mnohých doménach, ako je napríklad detekcia podvodov s kreditnými kartami, detekcia vniknutí, detekcia porúch atď .

Predpokladajme napríklad, že nižšie uvedený graf je vynesený pomocou niektorých súborov údajov v našej databáze.

Nakreslí sa teda tá najlepšia zhoda. Body ležiace blízko čiary ukazujú očakávané správanie, zatiaľ čo bod ďaleko od čiary je odľahlý.

Pomohlo by to odhaliť anomálie a podľa toho prijať potrebné opatrenia.

https://bit.ly/2GrgjDP

8. Neurónová sieť:

Táto metóda alebo model získavania údajov je založená na biologických neurónových sieťach. Je to zbierka neurónov, ako sú spracovateľské jednotky s váženými spojeniami medzi nimi. Používajú sa na modelovanie vzťahu medzi vstupmi a výstupmi. Používa sa na klasifikáciu, regresnú analýzu, spracovanie údajov atď. Táto technika pracuje na troch pilieroch -

  • Model
  • Algoritmus učenia (pod dohľadom alebo bez dozoru)
  • Aktivačná funkcia

Zdroje: - www.saedsayad.com

Odporúčané články

Toto bol sprievodca metódami dolovania dát. Tu sme diskutovali s príkladom Čo je to dolovanie údajov a rôzne typy metódy dolovania dát. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Softvér na analýzu veľkých dát
  2. Otázky týkajúce sa rozhovoru o štruktúre údajov
  3. Dôležité techniky dolovania údajov
  4. Architektúra dolovania dát

Kategórie: