Zavedenie procesu ETL
ETL je jedným z dôležitých procesov, ktoré vyžaduje Business Intelligence. Business Intelligence sa spolieha na údaje uložené v dátových skladoch, z ktorých sa generuje veľa analýz a správ, čo pomáha pri vytváraní efektívnejších stratégií a vedie k taktickým a prevádzkovým poznatkom a rozhodovaniu.
ETL označuje proces extrakcie, transformácie a načítania. Je to druh kroku integrácie údajov, kde sa údaje pochádzajúce z rôznych zdrojov získavajú a odosielajú do dátových skladov. Dáta sú extrahované z rôznych zdrojov, ktoré sú najskôr transformované a prevedené do konkrétneho formátu podľa obchodných požiadaviek. Rôzne nástroje, ktoré pomáhajú pri vykonávaní týchto úloh, sú -
- IBM DataStage
- Abinitio
- Informatica
- výjav
- Talend
Proces ETL
Ako to funguje?
Proces ETL je 3-krokový proces, ktorý sa začína extrakciou údajov z rôznych zdrojov údajov a potom surovými dátami prechádza rôznymi transformáciami, aby boli vhodné na ukladanie do dátového skladu a načítali ich do dátových skladov v požadovanom formáte a boli pripravené na analýza.
Krok 1: Extrahujte
Tento krok sa týka načítania požadovaných údajov z rôznych zdrojov, ktoré sú prítomné v rôznych formátoch, ako napríklad XML, súbory Hadoop, ploché súbory, JSON atď. Extrahované údaje sa uložia v pracovnej oblasti, kde sa vykonávajú ďalšie transformácie. Dáta sa teda pred presunom do dátových skladov dôkladne skontrolujú, inak bude výzvou vrátiť zmeny v dátových skladoch.
Pred extrakciou údajov je potrebná správna dátová mapa medzi zdrojom a cieľom, pretože proces ETL musí interagovať s rôznymi systémami, ako sú Oracle, Hardware, Mainframe, systémy v reálnom čase, ako sú ATM, Hadoop, atď.,
Poznámka - Je však potrebné dbať na to, aby tieto systémy počas extrakcie zostali nedotknuté.
Stratégie extrakcie údajov
- Úplná extrakcia: Toto je nasledované, keď sa celé dáta zo zdrojov načítajú do dátových skladov, ktoré ukazujú, že sa prvýkrát naplní celý dátový sklad alebo sa nevykonala žiadna stratégia na extrakciu údajov.
- Čiastočná extrakcia (s upozornením na aktualizáciu): Táto stratégia je známa aj ako delta, kde sa extrahujú iba údaje, ktoré sa menia, a aktualizujú sklady údajov
- Čiastočná extrakcia (bez oznámenia o aktualizácii): Táto stratégia sa týka extrahovania konkrétnych požadovaných údajov zo zdrojov podľa zaťaženia v dátových skladoch namiesto extrahovania celých údajov.
Krok 2: Transformácia
Tento krok je najdôležitejším krokom ETL. V tomto kroku sa vykonáva veľa transformácií, aby sa údaje pripravili na načítanie v dátových skladoch použitím transformácií uvedených nižšie: -
A. Základné transformácie: Tieto transformácie sa používajú v každom scenári, pretože sú základnou potrebou pri načítaní údajov, ktoré boli extrahované z rôznych zdrojov, do dátových skladov.
- Očistenie alebo obohatenie údajov: Jedná sa o vyčistenie nežiaducich údajov z pracovnej oblasti, aby sa z dátových skladov nenačítali nesprávne údaje.
- Filtrovanie: Tu vyfiltrujeme požadované údaje z veľkého množstva údajov podľa obchodných požiadaviek. Napríklad na generovanie správ o predaji je potrebné iba záznamy o predaji za konkrétny rok.
- Konsolidácia: Extrahované údaje sa pred načítaním do dátových skladov konsolidujú v požadovanom formáte.
- Štandardizácie: Dátové polia sa transformujú, aby sa dostali do rovnakého požadovaného formátu, napr. Dátové pole sa musí špecifikovať ako MM / DD / RRRR.
B. Pokročilé transformácie: Tieto typy transformácií sú špecifické pre obchodné požiadavky.
- Spájanie: V tejto operácii sa kombinujú údaje z 2 alebo viacerých zdrojov, t generujú údaje iba s požadovanými stĺpcami s riadkami, ktoré sú navzájom prepojené.
- Kontrola platnosti dátového limitu: Hodnoty prítomné v rôznych poliach sa kontrolujú, či sú správne alebo nie, ako napríklad nulové číslo bankového účtu v prípade bankových údajov.
- Na zlúčenie údajov použite vyhľadávanie. Rôzne ploché súbory alebo iné súbory sa používajú na extrahovanie konkrétnych informácií vykonaním operácie vyhľadávania.
- Použitie akejkoľvek komplexnej validácie údajov: Mnoho komplexných validácií sa používa na extrahovanie platných údajov iba zo zdrojových systémov.
- Vypočítané a odvodené hodnoty: Na transformáciu údajov na požadované informácie sa používajú rôzne výpočty
- Duplikácia: Duplicitné údaje pochádzajúce zo zdrojových systémov sa analyzujú a odstránia pred ich načítaním do dátových skladov.
- Reštrukturalizácia kľúčov: V prípade zachytávania pomaly sa meniacich údajov je potrebné vygenerovať rôzne náhradné kľúče na štruktúrovanie údajov v požadovanom formáte.
Poznámka - Paralelné spracovanie MPP-Massive Parallel Processing sa niekedy používa na vykonávanie niektorých základných operácií, ako je filtrovanie alebo čistenie údajov v pracovnej oblasti, aby sa rýchlejšie spracovalo veľké množstvo údajov.
Krok 3: Načítanie
Tento krok sa týka načítania transformovaných údajov do dátového skladu, z ktorého sa dajú vygenerovať mnohé analytické rozhodnutia, ako aj vykazovania.
1. Počiatočné načítanie: K tomuto typu zaťaženia dochádza pri prvom načítaní údajov do dátových skladov.
2. Prírastkové zaťaženie: Toto je typ zaťaženia, ktoré sa vykonáva na pravidelnú aktualizáciu dátového skladu so zmenami v zdrojových systémových údajoch.
3. Úplné obnovenie: Tento typ zaťaženia sa týka situácie, keď sú úplné údaje tabuľky vymazané a načítané novými údajmi.
Dátový sklad potom umožňuje funkcie OLAP alebo OLTP.
Nevýhody procesu ETL
- Zvyšovanie dát - Existuje limit údajov extrahovaných z rôznych zdrojov pomocou nástroja ETL a tlačených do dátových skladov. S nárastom údajov sa práca s nástrojom ETL a sklady údajov stali ťažkopádnymi.
- Prispôsobenie - Toto sa týka rýchlych a účinných riešení alebo reakcií na údaje generované zdrojovými systémami. Ale použitie nástroja ETL tu spomaľuje tento proces.
- Drahé - Používanie dátového skladu na pravidelné ukladanie rastúceho množstva údajov je vysoká cena, ktorú organizácia musí zaplatiť.
Záver - ETL proces
Nástroj ETL pozostáva z procesov extrakcie, transformácie a načítania, kde pomáha vytvárať informácie z údajov získaných z rôznych zdrojových systémov. Dáta zo zdrojového systému môžu byť v ľubovoľných formátoch a môžu byť načítané v akomkoľvek požadovanom formáte v dátových skladoch, takže nástroj ETL musí podporovať pripojenie ku všetkým typom týchto formátov.
Odporúčané články
Toto je sprievodca procesom ETL. Tu diskutujeme úvod, ako to funguje ?, ETL Tools a jeho nevýhody. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Informatica ETL Tools
- Nástroje na testovanie ETL
- Čo je ETL?
- Čo je ETL testovanie?