Proces ETL Nástroje ETL Spracovanie ETL procesu s blokovým diagramom

Obsah:

Anonim

Zavedenie procesu ETL

ETL je jedným z dôležitých procesov, ktoré vyžaduje Business Intelligence. Business Intelligence sa spolieha na údaje uložené v dátových skladoch, z ktorých sa generuje veľa analýz a správ, čo pomáha pri vytváraní efektívnejších stratégií a vedie k taktickým a prevádzkovým poznatkom a rozhodovaniu.

ETL označuje proces extrakcie, transformácie a načítania. Je to druh kroku integrácie údajov, kde sa údaje pochádzajúce z rôznych zdrojov získavajú a odosielajú do dátových skladov. Dáta sú extrahované z rôznych zdrojov, ktoré sú najskôr transformované a prevedené do konkrétneho formátu podľa obchodných požiadaviek. Rôzne nástroje, ktoré pomáhajú pri vykonávaní týchto úloh, sú -

  • IBM DataStage
  • Abinitio
  • Informatica
  • výjav
  • Talend

Proces ETL

Ako to funguje?

Proces ETL je 3-krokový proces, ktorý sa začína extrakciou údajov z rôznych zdrojov údajov a potom surovými dátami prechádza rôznymi transformáciami, aby boli vhodné na ukladanie do dátového skladu a načítali ich do dátových skladov v požadovanom formáte a boli pripravené na analýza.

Krok 1: Extrahujte

Tento krok sa týka načítania požadovaných údajov z rôznych zdrojov, ktoré sú prítomné v rôznych formátoch, ako napríklad XML, súbory Hadoop, ploché súbory, JSON atď. Extrahované údaje sa uložia v pracovnej oblasti, kde sa vykonávajú ďalšie transformácie. Dáta sa teda pred presunom do dátových skladov dôkladne skontrolujú, inak bude výzvou vrátiť zmeny v dátových skladoch.

Pred extrakciou údajov je potrebná správna dátová mapa medzi zdrojom a cieľom, pretože proces ETL musí interagovať s rôznymi systémami, ako sú Oracle, Hardware, Mainframe, systémy v reálnom čase, ako sú ATM, Hadoop, atď.,

Poznámka - Je však potrebné dbať na to, aby tieto systémy počas extrakcie zostali nedotknuté.

Stratégie extrakcie údajov
  • Úplná extrakcia: Toto je nasledované, keď sa celé dáta zo zdrojov načítajú do dátových skladov, ktoré ukazujú, že sa prvýkrát naplní celý dátový sklad alebo sa nevykonala žiadna stratégia na extrakciu údajov.
  • Čiastočná extrakcia (s upozornením na aktualizáciu): Táto stratégia je známa aj ako delta, kde sa extrahujú iba údaje, ktoré sa menia, a aktualizujú sklady údajov
  • Čiastočná extrakcia (bez oznámenia o aktualizácii): Táto stratégia sa týka extrahovania konkrétnych požadovaných údajov zo zdrojov podľa zaťaženia v dátových skladoch namiesto extrahovania celých údajov.

Krok 2: Transformácia

Tento krok je najdôležitejším krokom ETL. V tomto kroku sa vykonáva veľa transformácií, aby sa údaje pripravili na načítanie v dátových skladoch použitím transformácií uvedených nižšie: -

A. Základné transformácie: Tieto transformácie sa používajú v každom scenári, pretože sú základnou potrebou pri načítaní údajov, ktoré boli extrahované z rôznych zdrojov, do dátových skladov.

  • Očistenie alebo obohatenie údajov: Jedná sa o vyčistenie nežiaducich údajov z pracovnej oblasti, aby sa z dátových skladov nenačítali nesprávne údaje.
  • Filtrovanie: Tu vyfiltrujeme požadované údaje z veľkého množstva údajov podľa obchodných požiadaviek. Napríklad na generovanie správ o predaji je potrebné iba záznamy o predaji za konkrétny rok.
  • Konsolidácia: Extrahované údaje sa pred načítaním do dátových skladov konsolidujú v požadovanom formáte.
  • Štandardizácie: Dátové polia sa transformujú, aby sa dostali do rovnakého požadovaného formátu, napr. Dátové pole sa musí špecifikovať ako MM / DD / RRRR.

B. Pokročilé transformácie: Tieto typy transformácií sú špecifické pre obchodné požiadavky.

  • Spájanie: V tejto operácii sa kombinujú údaje z 2 alebo viacerých zdrojov, t generujú údaje iba s požadovanými stĺpcami s riadkami, ktoré sú navzájom prepojené.
  • Kontrola platnosti dátového limitu: Hodnoty prítomné v rôznych poliach sa kontrolujú, či sú správne alebo nie, ako napríklad nulové číslo bankového účtu v prípade bankových údajov.
  • Na zlúčenie údajov použite vyhľadávanie. Rôzne ploché súbory alebo iné súbory sa používajú na extrahovanie konkrétnych informácií vykonaním operácie vyhľadávania.
  • Použitie akejkoľvek komplexnej validácie údajov: Mnoho komplexných validácií sa používa na extrahovanie platných údajov iba zo zdrojových systémov.
  • Vypočítané a odvodené hodnoty: Na transformáciu údajov na požadované informácie sa používajú rôzne výpočty
  • Duplikácia: Duplicitné údaje pochádzajúce zo zdrojových systémov sa analyzujú a odstránia pred ich načítaním do dátových skladov.
  • Reštrukturalizácia kľúčov: V prípade zachytávania pomaly sa meniacich údajov je potrebné vygenerovať rôzne náhradné kľúče na štruktúrovanie údajov v požadovanom formáte.

Poznámka - Paralelné spracovanie MPP-Massive Parallel Processing sa niekedy používa na vykonávanie niektorých základných operácií, ako je filtrovanie alebo čistenie údajov v pracovnej oblasti, aby sa rýchlejšie spracovalo veľké množstvo údajov.

Krok 3: Načítanie

Tento krok sa týka načítania transformovaných údajov do dátového skladu, z ktorého sa dajú vygenerovať mnohé analytické rozhodnutia, ako aj vykazovania.

1. Počiatočné načítanie: K tomuto typu zaťaženia dochádza pri prvom načítaní údajov do dátových skladov.

2. Prírastkové zaťaženie: Toto je typ zaťaženia, ktoré sa vykonáva na pravidelnú aktualizáciu dátového skladu so zmenami v zdrojových systémových údajoch.

3. Úplné obnovenie: Tento typ zaťaženia sa týka situácie, keď sú úplné údaje tabuľky vymazané a načítané novými údajmi.

Dátový sklad potom umožňuje funkcie OLAP alebo OLTP.

Nevýhody procesu ETL

  1. Zvyšovanie dát - Existuje limit údajov extrahovaných z rôznych zdrojov pomocou nástroja ETL a tlačených do dátových skladov. S nárastom údajov sa práca s nástrojom ETL a sklady údajov stali ťažkopádnymi.
  2. Prispôsobenie - Toto sa týka rýchlych a účinných riešení alebo reakcií na údaje generované zdrojovými systémami. Ale použitie nástroja ETL tu spomaľuje tento proces.
  3. Drahé - Používanie dátového skladu na pravidelné ukladanie rastúceho množstva údajov je vysoká cena, ktorú organizácia musí zaplatiť.

Záver - ETL proces

Nástroj ETL pozostáva z procesov extrakcie, transformácie a načítania, kde pomáha vytvárať informácie z údajov získaných z rôznych zdrojových systémov. Dáta zo zdrojového systému môžu byť v ľubovoľných formátoch a môžu byť načítané v akomkoľvek požadovanom formáte v dátových skladoch, takže nástroj ETL musí podporovať pripojenie ku všetkým typom týchto formátov.

Odporúčané články

Toto je sprievodca procesom ETL. Tu diskutujeme úvod, ako to funguje ?, ETL Tools a jeho nevýhody. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Informatica ETL Tools
  2. Nástroje na testovanie ETL
  3. Čo je ETL?
  4. Čo je ETL testovanie?