Úvod do Data Lake vs Data Warehouse

Data Lake vs Data Warehouse sú pojmy, ktoré sa používajú zameniteľne, ale medzi týmito dvoma výrazmi existujú rozdiely. Predstavili sme nižšie uvedený diagram, aby sme pochopili rozdiel na vysokej úrovni medzi týmito dvoma a čoskoro sa budeme podrobne venovať každému z nich.

Čo je to Data Lake?

Dátové jazero je druh úložiska úložísk, ktoré pozostáva iba z nespracovaných údajov vo forme štruktúrovaného, ​​pološtrukturovaného a neštruktúrovaného formátu. Dátové jazero väčšinou používajú vedci údajov a technici strojového učenia, pretože im pomáha odpovedať na otázky, ktoré ešte nie sú zodpovedané, alebo si môžu vytvoriť otázku, ktorá ešte nie je známa. Obsahuje veľké množstvo údajov s rôznymi typmi a keď sú integrované, ukazujú sa ako veľmi užitočné z hľadiska prediktívneho modelovania, ktoré sa väčšinou používa na vytváranie modelov strojového učenia.

Čo je to dátový sklad?

Dátový sklad je centralizované miesto na ukladanie transformovaných údajov, ktoré sa pred uložením do dátového skladu vytvoria do štruktúrovaného formátu. Dátový sklad môže mať údaje z viacerých zdrojov údajov, ktoré sa načítajú pomocou procesu ETL do skladu a potom sa používajú na účely Business Intelligence.

Porovnanie medzi jednotlivými údajmi medzi dátovým jazerom a dátovým skladom (infografika)

Nižšie je uvedených 14 najlepších rozdielov medzi Data Lake a Data Warehouse

Kľúčové rozdiely

Nižšie sú uvedené hlavné kľúčové rozdiely medzi dátovým jazerom a dátovým skladom:

  • Pozostáva z neštruktúrovaných a štruktúrovaných údajov z rôznych platforiem, ako sú senzory, aplikácie a webové stránky atď. Väčšinou pozostáva z relačných údajov zo systémov RDBMS, DBMS a ďalších prevádzkových databáz a aplikácií.
  • Data Lake je spracovanie na čítanie schém. Dátový sklad je spracovanie podľa schémy.
  • Je vysoko pohyblivý. Je to menej pohyblivé.
  • Konfigurácia je jednoduchá a môže sa prispôsobiť zmenám. Má pevnú konfiguráciu a je veľmi ťažké ho zmeniť.
  • Väčšinou ho používajú vedci AI a odborníci na strojové učenie. Používajú ho odborníci z oblasti obchodu.

Porovnávacia tabuľka medzi Data Lake a Data Warehouse:

Poďme diskutovať o najväčšom rozdiele medzi Data Lake a Data Warehouse

charakteristikaDátové jazeroDátový sklad
skladovanieÚdaje sa v Data Lake uchovávajú v nespracovanej podobe a tu sa uchovávajú všetky údaje bez ohľadu na zdroj údajov. Do iných foriem sa premieňajú vždy, keď je to potrebné.Dátový sklad sa skladá z údajov, ktoré sa extrahujú z transakčných a iných metrických systémov. Údaje tu nie sú v surovej forme a sú vždy transformované a čisté.
Použitie a účelHlavným cieľom spoločnosti Data Lake sú vedci údajov, vývojári veľkých údajov a inžinieri strojového učenia, ktorí musia urobiť hĺbkovú analýzu a vytvoriť modely pre podnikanie, napríklad prediktívne modelovanie.Hlavným cieľom Data Warehouse sú prevádzkoví používatelia, pretože tieto údaje sú v štruktúrovanom formáte a môžu poskytovať správy na zostavenie. Väčšinou sa teda používajú na obchodné spravodajstvo.
Vstupy údajovHlavnými vstupmi do údajov Jazero sú všetky druhy údajov, ako sú štruktúrované, pološtrukturované a neštruktúrované údaje. Tieto údaje sa nachádzajú v dátovom jazere v pôvodnej podobe.Hlavnými vstupmi do dátového skladu sú štruktúrované údaje, ktoré pochádzajú z transakčných a metrických systémov, ktoré sú potom usporiadané do schém.
Kvalita údajovObsahuje prvotné údaje, ktoré môžu alebo nemusia byť spravované.Pozostáva z spravovaných údajov, ktoré sú centralizované a sú pripravené na podanie žaloby na účely business intelligence a analytics.
normalizácieÚdaje tu nie sú v normalizovanej podobe.Denormalizované schémy
histórieTechnológie, ktoré sa používajú v dátových jazerách ako Hadoop, Machine Learning, sú v porovnaní s dátovým skladom relatívne nové.Tu je technológia používaná pre dátový sklad staršia.
Časová os údajovDátové jazero môže mať všetky druhy údajov a môže byť použité s ohľadom na minulosť, prítomnosť a vyhliadky.Pokiaľ ide o dátový sklad, tu sa väčšinu času venuje analýze rôznych zdrojov údajov.
Doba spracovaniaTu je čas spracovania pri analýze a získavaní výsledkov z údajov Lake oveľa kratší ako v prípade Data Warehouse, pretože tu sú dáta uložené vo forme nespracovaných údajov a tie nie sú v transformovanom formáte a v dôsledku toho sme čas skrátili ktoré by sa mohli minúť na transformáciu údajov. Môžeme si len vyzdvihnúť údaje tak, ako sú, a urobiť nejaké základné čistenie a začať stavať naše modely.V prípade dátového skladu je čas potrebný na spracovanie viac v porovnaní s dátovým jazerom. Dôvodom je to, že údaje v akomkoľvek dátovom sklade musia byť najskôr transformované a potom analyzované.
Náklady na skladovanieNáklady na ukladanie dát v technológiách údajového jazera sú relatívne nižšie ako náklady na dátový sklad a sú časovo menej náročné.Náklady na uchovávanie v technológiách údajového skladu sú vyššie v porovnaní s dátovým jazerom. Je to preto, že potrebuje viac úložného priestoru pre transformované údaje, pretože najskôr musí ukladať nespracované údaje a potom ich transformovať, aby priradili rôzne polia podľa štruktúry Data Warehouse.
kompatibilitaTu sa údaje vždy uchovávajú v pôvodnom formáte a transformujú sa iba v prípade potreby alebo keď sú pripravené na použitie.Tu sú dáta uložené v transformovanom formáte a pri pokusoch o vykonanie zmien sa môžu vyskytnúť problémy.
prístupnosťÚdaje vo vnútri dátového jazera sú vysoko prístupné a dajú sa rýchlo aktualizovať.Dáta vo vnútri dátového skladu sú komplikovanejšie a vyžaduje si vyššie náklady na vykonanie akýchkoľvek zmien v nich, dostupnosť je obmedzená aj iba pre oprávnených používateľov.
Poloha schémySchéma sa väčšinou vytvorí po uložení údajov. To prináša vysokú pohyblivosť.Tu sa schéma väčšinou vytvára pred uložením údajov.
Proces spracovaniaDátové jazero využíva proces ELT, tj extrakt, zaťaženie a transformácia.Dátový sklad využíva tradičný prístup ETL, tj extrakt, transformáciu a načítanie.
výhodyDátové jazero vedie k novým vynálezom, pretože integrácia spája rôzne typy údajov a prináša aj odpovede na mnoho nezodpovedaných otázok.Väčšina používateľov organizácie sa podieľa na prevádzkových činnostiach a dátový sklad poskytuje jednu takúto vynikajúcu platformu na vytváranie zostáv a metrík nad transformovanými údajmi.

záver

V tomto príspevku sme sa dozvedeli o Data Lakes vs Data Warehouse. Taktiež sme postupovali ďalej a porovnávali obidva na základe rôznych parametrov. Toto by malo pomôcť každému žiakovi získať základnú predstavu o technológiách, ktoré podporujú Data Lake a Data Warehouse.

Odporúčané články

Toto bol sprievodca po najväčší rozdiel medzi Data Lake a Data Warehouse. Tu sme diskutovali o kľúčových rozdieloch medzi Data Lake a Data Warehouse s informačnými a porovnávacími tabuľkami. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Scrum vs Waterfall - najväčšie rozdiely
  2. MySQL vs MySQLi - ktorý z nich je lepší?
  3. Mikroprocesor verzus mikrokontrolér
  4. Rozhovory s otázkami modelovania dát

Kategórie: