Úvod do architektúry dátových skladov
- Dátový sklad je úložisko obsahujúce zbierky niekoľkých rôznych druhov údajov získaných z rôznych druhov zdrojov.
- Celý proces, v ktorom sa externé zdroje údajov získavajú, spracúvajú, ukladajú a analyzujú na použiteľné informácie, sa uskutočňuje v rámci množiny systémov, ktoré sú zjednotené v jedinej schéme známej ako Architecture Warehouse Architecture.
Architektúra dátového skladu
Architektúra dátového skladu sa vo všeobecnosti skladá z troch úrovní.
- Najvyššiu úroveň
- Stredná vrstva
- Spodná vrstva
Najvyššiu úroveň
- Horná vrstva pozostáva z klientskej prednej časti architektúry.
- Informácie o transformácii a logike uložené v dátovom sklade sa použijú a získajú na obchodné účely v tejto úrovni.
- Na generovanie požadovaných informácií je k dispozícii niekoľko nástrojov na generovanie a analýzu správ.
- Získavanie údajov, ktoré sa v týchto dňoch stalo veľkým trendom, sa tu vykonáva.
- Celý dokument Analýza požiadaviek, náklady a všetky funkcie, ktoré určujú obchodnú dohodu založenú na zisku, sa robia na základe týchto nástrojov, ktoré využívajú informácie Data Warehouse.
Stredná vrstva
- Stredná vrstva pozostáva zo serverov OLAP
- OLAP je server analytického spracovania online
- OLAP sa používa na poskytovanie informácií obchodným analytikom a manažérom
- Keďže sa nachádza v strednej vrstve, správne spolupracuje s informáciami nachádzajúcimi sa v spodnej vrstve a odovzdáva informácie nástrojom najvyššej úrovne, ktoré spracovávajú dostupné informácie.
- V architektúre dátového skladu sa používa väčšinou relačný alebo viacrozmerný OLAP.
Spodná vrstva
Spodná vrstva pozostáva hlavne zo zdrojov údajov, nástroja ETL a skladu údajov.
1. Zdroje údajov
Zdroje údajov pozostávajú zo zdrojových údajov, ktoré sa získavajú a poskytujú nástrojom Staging a ETL na ďalšie spracovanie.
2. Nástroje ETL
- Nástroje ETL sú veľmi dôležité, pretože pomáhajú kombinovať logiku, nespracované údaje a schému do jedného a načítavajú informácie do dátového skladu alebo dátových Martov.
- Niekedy ETL načíta dáta do Data Marts a potom sa informácie uložia do Data Warehouse. Tento prístup sa nazýva prístup zdola nahor.
- Prístup, kde ETL načíta informácie priamo do dátového skladu, sa nazýva prístup zhora nadol.
Rozdiel medzi prístupom zhora nadol a prístupom zdola nahor
Prístup zhora nadol | Prístup zdola nahor |
Poskytuje jednoznačný a konzistentný pohľad na informácie, keďže informácie z dátového skladu sa používajú na vytvorenie Data Marts | Prehľady je možné generovať ľahko, keď sa dáta najskôr vytvoria a je relatívne ľahké s nimi pracovať. |
Silný model, a preto uprednostňované veľkými spoločnosťami | Nie tak silný, ale dátový sklad možno rozšíriť a vytvoriť počet dátových máp |
Čas, náklady a údržba sú vysoké | Čas, náklady a údržba sú nízke. |
Data Marts
- Data Mart je tiež úložný komponent používaný na ukladanie údajov o určitej funkcii alebo časti týkajúcej sa spoločnosti jednotlivým orgánom.
- Data mart zhromažďuje informácie z Data Warehouse a preto môžeme povedať, že data mart ukladá podmnožinu informácií do Data Warehouse.
- Data Marts sú flexibilné a malé.
3. Dátový sklad
- Dátový sklad je ústrednou súčasťou celej architektúry dátových skladov.
- Slúži ako úložisko na ukladanie informácií.
- V dátovom sklade je uložených veľké množstvo údajov.
- Tieto informácie používa niekoľko technológií, ako napríklad Big Data, ktoré vyžadujú analýzu veľkých podskupín informácií.
- Data Mart je tiež modelom Data Warehouse.
Rôzne vrstvy architektúry dátových skladov
V architektúre dátových skladov budú vždy prítomné štyri rôzne typy vrstiev.
1. Vrstva zdroja údajov
- Vrstva zdroja údajov je vrstva, kde sa spracúvajú údaje zo zdroja a následne sa odosielajú do ďalších vrstiev na požadované operácie.
- Údaje môžu byť akéhokoľvek typu.
- Zdrojovými údajmi môže byť databáza, tabuľka alebo akýkoľvek iný druh textového súboru.
- Zdrojové údaje môžu mať akýkoľvek formát. Nemôžeme očakávať, že získame údaje v rovnakom formáte, pretože zdroje sú výrazne odlišné.
- V reálnom živote môžu byť niektoré príklady zdrojových údajov
- Protokolové súbory každej konkrétnej aplikácie alebo zamestnania alebo vstupu zamestnávateľov do spoločnosti.
- Údaje z prieskumov, burzové údaje atď.
- Údaje webového prehľadávača a mnoho ďalších.
2. Vrstva ukladania údajov
Nasledujúce kroky sa uskutočňujú v dátovej vrstve.
1. Extrakcia dát
Dáta prijaté zdrojovou vrstvou sa vkladajú do fázovej vrstvy, kde prvým procesom, ktorý prebieha so získanými údajmi, je extrakcia.
2. Pristátie databázy
- Extrahované údaje sa dočasne uložia do vstupnej databázy.
- Po extrahovaní údajov ich načíta.
3. Pracovná plocha
- Zaznamenávajú sa údaje v databáze pristátia a v pracovnej oblasti sa vykonáva niekoľko kontrol kvality a postupovania.
- Štruktúra a schéma sú tiež identifikované a vykonávajú sa úpravy údajov, ktoré nie sú usporiadané, čím sa snaží dosiahnuť zhodnosť medzi získanými údajmi.
- Mať miesto alebo nastaviť dáta tesne pred transformáciou a zmenami je ďalšou výhodou, ktorá robí proces postupovania veľmi dôležitým.
- Uľahčuje spracovanie údajov.
4. ETL
- Je to extrakcia, transformácia a zaťaženie.
- Nástroje ETL sa používajú na integráciu a spracovanie údajov, pri ktorých sa logika uplatňuje skôr na nespracované, ale trochu usporiadané údaje.
- Tieto údaje sa extrahujú podľa analytickej povahy, ktorá sa vyžaduje, a transformujú sa na údaje, ktoré sa považujú za vhodné na uloženie do skladu údajov.
- Po transformácii sa dáta alebo skôr informácie načítajú do dátového skladu.
- Niektoré príklady nástrojov ETL sú Informatica, SSIS atď.
3. Vrstva ukladania údajov
- Spracované údaje sú uložené v dátovom sklade.
- Tieto údaje sú očistené, transformované a pripravené s definitívnou štruktúrou, a tak poskytujú zamestnávateľom príležitosti na použitie údajov podľa požiadaviek podnikania.
- V závislosti od prístupu architektúry budú dáta uložené v Data Warehouse a Data Marts. Data Marts sa prediskutujú v neskorších fázach.
- Niektoré zahŕňajú aj úložisko prevádzkových údajov.
4. Vrstva prezentácie údajov
- Táto vrstva, kde sa používatelia dostanú do styku s údajmi uloženými v dátovom sklade.
- Na získanie rôznych typov informácií na základe údajov sa použijú otázky a niekoľko nástrojov.
- Informácie sa dostanú k používateľovi grafickým znázornením údajov.
- Nástroje na tvorbu prehľadov sa používajú na získanie obchodných údajov a obchodná logika sa používa aj na zhromažďovanie niekoľkých druhov informácií.
- V tejto vrstve sa tiež udržiavajú a zobrazujú operácie a výkon Meta údajov a systémov a ich výkon.
záver
Dôležitým bodom o dátovom sklade je jeho účinnosť. Aby sme vytvorili efektívny dátový sklad, konštruujeme rámec známy ako Business Analysis Framework. Pokiaľ ide o návrh dátového skladu, existujú štyri typy názorov.
1. Pohľad zhora nadol: Toto zobrazenie umožňuje vybrať iba konkrétne informácie potrebné pre dátový sklad.
2. Zobrazenie zdroja údajov: Toto zobrazenie zobrazuje všetky informácie od zdroja údajov po ich transformáciu a uloženie.
3. Zobrazenie dátového skladu: toto zobrazenie zobrazuje informácie prítomné v dátovom sklade prostredníctvom faktických tabuliek a rozmerových tabuliek.
4. Business Query View: Toto je zobrazenie, ktoré zobrazuje údaje z pohľadu používateľa.
Odporúčané články
Toto bol sprievodca architektúrou dátových skladov. Tu sme diskutovali o rôznych typoch pohľadov, vrstiev a úrovní architektúry dátových skladov. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Kariéra v oblasti skladovania dát
- Ako funguje JavaScript
- Otázky týkajúce sa rozhovoru s dátovým skladom
- Čo je Pandas