Úvod do architektúry dátových skladov

  • Dátový sklad je úložisko obsahujúce zbierky niekoľkých rôznych druhov údajov získaných z rôznych druhov zdrojov.
  • Celý proces, v ktorom sa externé zdroje údajov získavajú, spracúvajú, ukladajú a analyzujú na použiteľné informácie, sa uskutočňuje v rámci množiny systémov, ktoré sú zjednotené v jedinej schéme známej ako Architecture Warehouse Architecture.

Architektúra dátového skladu

Architektúra dátového skladu sa vo všeobecnosti skladá z troch úrovní.

  • Najvyššiu úroveň
  • Stredná vrstva
  • Spodná vrstva

Najvyššiu úroveň

  • Horná vrstva pozostáva z klientskej prednej časti architektúry.
  • Informácie o transformácii a logike uložené v dátovom sklade sa použijú a získajú na obchodné účely v tejto úrovni.
  • Na generovanie požadovaných informácií je k dispozícii niekoľko nástrojov na generovanie a analýzu správ.
  • Získavanie údajov, ktoré sa v týchto dňoch stalo veľkým trendom, sa tu vykonáva.
  • Celý dokument Analýza požiadaviek, náklady a všetky funkcie, ktoré určujú obchodnú dohodu založenú na zisku, sa robia na základe týchto nástrojov, ktoré využívajú informácie Data Warehouse.

Stredná vrstva

  • Stredná vrstva pozostáva zo serverov OLAP
  • OLAP je server analytického spracovania online
  • OLAP sa používa na poskytovanie informácií obchodným analytikom a manažérom
  • Keďže sa nachádza v strednej vrstve, správne spolupracuje s informáciami nachádzajúcimi sa v spodnej vrstve a odovzdáva informácie nástrojom najvyššej úrovne, ktoré spracovávajú dostupné informácie.
  • V architektúre dátového skladu sa používa väčšinou relačný alebo viacrozmerný OLAP.

Spodná vrstva

Spodná vrstva pozostáva hlavne zo zdrojov údajov, nástroja ETL a skladu údajov.

1. Zdroje údajov

Zdroje údajov pozostávajú zo zdrojových údajov, ktoré sa získavajú a poskytujú nástrojom Staging a ETL na ďalšie spracovanie.

2. Nástroje ETL

  • Nástroje ETL sú veľmi dôležité, pretože pomáhajú kombinovať logiku, nespracované údaje a schému do jedného a načítavajú informácie do dátového skladu alebo dátových Martov.
  • Niekedy ETL načíta dáta do Data Marts a potom sa informácie uložia do Data Warehouse. Tento prístup sa nazýva prístup zdola nahor.
  • Prístup, kde ETL načíta informácie priamo do dátového skladu, sa nazýva prístup zhora nadol.

Rozdiel medzi prístupom zhora nadol a prístupom zdola nahor

Prístup zhora nadolPrístup zdola nahor
Poskytuje jednoznačný a konzistentný pohľad na informácie, keďže informácie z dátového skladu sa používajú na vytvorenie Data MartsPrehľady je možné generovať ľahko, keď sa dáta najskôr vytvoria a je relatívne ľahké s nimi pracovať.
Silný model, a preto uprednostňované veľkými spoločnosťamiNie tak silný, ale dátový sklad možno rozšíriť a vytvoriť počet dátových máp
Čas, náklady a údržba sú vysokéČas, náklady a údržba sú nízke.

Data Marts

  • Data Mart je tiež úložný komponent používaný na ukladanie údajov o určitej funkcii alebo časti týkajúcej sa spoločnosti jednotlivým orgánom.
  • Data mart zhromažďuje informácie z Data Warehouse a preto môžeme povedať, že data mart ukladá podmnožinu informácií do Data Warehouse.
  • Data Marts sú flexibilné a malé.

3. Dátový sklad

  • Dátový sklad je ústrednou súčasťou celej architektúry dátových skladov.
  • Slúži ako úložisko na ukladanie informácií.
  • V dátovom sklade je uložených veľké množstvo údajov.
  • Tieto informácie používa niekoľko technológií, ako napríklad Big Data, ktoré vyžadujú analýzu veľkých podskupín informácií.
  • Data Mart je tiež modelom Data Warehouse.

Rôzne vrstvy architektúry dátových skladov

V architektúre dátových skladov budú vždy prítomné štyri rôzne typy vrstiev.

1. Vrstva zdroja údajov

  • Vrstva zdroja údajov je vrstva, kde sa spracúvajú údaje zo zdroja a následne sa odosielajú do ďalších vrstiev na požadované operácie.
  • Údaje môžu byť akéhokoľvek typu.
  • Zdrojovými údajmi môže byť databáza, tabuľka alebo akýkoľvek iný druh textového súboru.
  • Zdrojové údaje môžu mať akýkoľvek formát. Nemôžeme očakávať, že získame údaje v rovnakom formáte, pretože zdroje sú výrazne odlišné.
  • V reálnom živote môžu byť niektoré príklady zdrojových údajov
  • Protokolové súbory každej konkrétnej aplikácie alebo zamestnania alebo vstupu zamestnávateľov do spoločnosti.
  • Údaje z prieskumov, burzové údaje atď.
  • Údaje webového prehľadávača a mnoho ďalších.

2. Vrstva ukladania údajov

Nasledujúce kroky sa uskutočňujú v dátovej vrstve.

1. Extrakcia dát

Dáta prijaté zdrojovou vrstvou sa vkladajú do fázovej vrstvy, kde prvým procesom, ktorý prebieha so získanými údajmi, je extrakcia.

2. Pristátie databázy

  • Extrahované údaje sa dočasne uložia do vstupnej databázy.
  • Po extrahovaní údajov ich načíta.

3. Pracovná plocha

  • Zaznamenávajú sa údaje v databáze pristátia a v pracovnej oblasti sa vykonáva niekoľko kontrol kvality a postupovania.
  • Štruktúra a schéma sú tiež identifikované a vykonávajú sa úpravy údajov, ktoré nie sú usporiadané, čím sa snaží dosiahnuť zhodnosť medzi získanými údajmi.
  • Mať miesto alebo nastaviť dáta tesne pred transformáciou a zmenami je ďalšou výhodou, ktorá robí proces postupovania veľmi dôležitým.
  • Uľahčuje spracovanie údajov.

4. ETL

  • Je to extrakcia, transformácia a zaťaženie.
  • Nástroje ETL sa používajú na integráciu a spracovanie údajov, pri ktorých sa logika uplatňuje skôr na nespracované, ale trochu usporiadané údaje.
  • Tieto údaje sa extrahujú podľa analytickej povahy, ktorá sa vyžaduje, a transformujú sa na údaje, ktoré sa považujú za vhodné na uloženie do skladu údajov.
  • Po transformácii sa dáta alebo skôr informácie načítajú do dátového skladu.
  • Niektoré príklady nástrojov ETL sú Informatica, SSIS atď.

3. Vrstva ukladania údajov

  • Spracované údaje sú uložené v dátovom sklade.
  • Tieto údaje sú očistené, transformované a pripravené s definitívnou štruktúrou, a tak poskytujú zamestnávateľom príležitosti na použitie údajov podľa požiadaviek podnikania.
  • V závislosti od prístupu architektúry budú dáta uložené v Data Warehouse a Data Marts. Data Marts sa prediskutujú v neskorších fázach.
  • Niektoré zahŕňajú aj úložisko prevádzkových údajov.

4. Vrstva prezentácie údajov

  • Táto vrstva, kde sa používatelia dostanú do styku s údajmi uloženými v dátovom sklade.
  • Na získanie rôznych typov informácií na základe údajov sa použijú otázky a niekoľko nástrojov.
  • Informácie sa dostanú k používateľovi grafickým znázornením údajov.
  • Nástroje na tvorbu prehľadov sa používajú na získanie obchodných údajov a obchodná logika sa používa aj na zhromažďovanie niekoľkých druhov informácií.
  • V tejto vrstve sa tiež udržiavajú a zobrazujú operácie a výkon Meta údajov a systémov a ich výkon.

záver

Dôležitým bodom o dátovom sklade je jeho účinnosť. Aby sme vytvorili efektívny dátový sklad, konštruujeme rámec známy ako Business Analysis Framework. Pokiaľ ide o návrh dátového skladu, existujú štyri typy názorov.

1. Pohľad zhora nadol: Toto zobrazenie umožňuje vybrať iba konkrétne informácie potrebné pre dátový sklad.

2. Zobrazenie zdroja údajov: Toto zobrazenie zobrazuje všetky informácie od zdroja údajov po ich transformáciu a uloženie.

3. Zobrazenie dátového skladu: toto zobrazenie zobrazuje informácie prítomné v dátovom sklade prostredníctvom faktických tabuliek a rozmerových tabuliek.

4. Business Query View: Toto je zobrazenie, ktoré zobrazuje údaje z pohľadu používateľa.

Odporúčané články

Toto bol sprievodca architektúrou dátových skladov. Tu sme diskutovali o rôznych typoch pohľadov, vrstiev a úrovní architektúry dátových skladov. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Kariéra v oblasti skladovania dát
  2. Ako funguje JavaScript
  3. Otázky týkajúce sa rozhovoru s dátovým skladom
  4. Čo je Pandas

Kategórie: