Dátový sklad vs Hadoop - 6 dôležitých rozdielov, ktoré treba vedieť

Obsah:

Anonim

Rozdiely medzi dátovým skladom a Hadoopom

V každom desaťročí prežíva IT priemysel významnú inováciu, ktorá otriasa celým IT priemyslom. V posledných rokoch urobil Apache Hadoop to isté tým, že preniesol dátové centrá do novej infraštruktúry

Tým, že programátor Hadoop udelil moc paralelného spracovania, je na takom exponenciálnom náraste adopcie a jeho ekosystém sa rozširuje do hĺbky aj do šírky, je prirodzené sa pýtať, či Hadoop's nahradí tradičný dátový sklad.

Pozrime sa, čo povedal Alasdair Anderson (výkonný viceprezident spoločnosti Nordea) na samite v Hadoope o tejto horúcej téme v meste.

„V súčasnosti medzi EDW a Hadoop neexistuje žiadny vzťah - budú sa navzájom dopĺňať. Nejde o ripovanie a nahradzovanie: nezbavíme sa RDBMS alebo MPP, ale namiesto toho používame správny nástroj pre správnu prácu - a to bude veľmi ovplyvnené cenou. "

Kedykoľvek sa začne táto zaujímavá diskusia, napadne nás veľa otázok, napríklad:

1) Ak máte veľké dáta, potrebujete dátový sklad?

2) Nahradí spoločnosť Hadoop údajový sklad?

3) Je to smrť tradičného obdobia Data Warehouse?

Aby sme vedeli odpovede na všetky tieto otázky, musíme sa pozrieť do širšieho kontextu tohto obrázka.

1. Čo je to Hadoop?

Kto o Big Data nepočul v poslednej dobe? So stovkami terabajtov údajov generovaných každý deň z rôznych zdrojov je zrejmé, že dnešný moderný svet je svetom veľkých údajov.

Keď začnete hovoriť o veľkých údajoch, skôr alebo neskôr začnete diskutovať o najhorúcejšej téme sveta veľkých údajov: Hadoop - ale čo presne to je?

Hadoop je open-source programovací rámec založený na Java, ktorý podporuje spracovanie a ukladanie extrémne veľkých súborov údajov v distribuovanom výpočtovom prostredí.

4 moduly Hadoop -

Hadoop sa skladá zo 4 modulov -

  1. Distribuovaný systém súborov

Distribuovaný systém súborov umožňuje ukladať údaje v ľahko prístupnom formáte na veľké množstvo prepojených úložných zariadení.

  1. Mapa Znížiť

Mapa Reduce je kombináciou dvoch operácií - načítanie údajov z databázy a ich uvedenie do formátu vhodného na analýzu (mapu) a vykonávanie matematických operácií (zníženie).

  1. Hadoop Common

Hadoop Common poskytuje nástroje potrebné pre údaje uložené v HDFS (Hadoop Distributed File System)

  1. nite

Spoločnosť YARN riadi zdroje systémov na ukladanie údajov a vykonávanie analýzy.

2. Čo je dátový sklad?

Dátový sklad je relačná databáza, ktorá je navrhnutá pre údaje z dotazov a analýz. Zvyčajne obsahuje historické údaje získané z rôznych zdrojov.

Prostredie dátového skladu obsahuje riešenia ETL, online analytické spracovanie (OLAP), nástroje na analýzu klientov a ďalšie aplikácie, ktoré riadia proces analýzy údajov a ich poskytovania podnikovým používateľom.

Zhrnieme, čo je dátový sklad -

  1. Predmet orientované

Dátový sklad možno použiť na analýzu konkrétnej oblasti, ako je predaj, financie a inventár. Každá oblasť predmetu obsahuje podrobné údaje.

  1. integrovaný

Dátový sklad integruje údaje z viacerých zdrojov údajov. Napríklad dátumy sú v rovnakom formáte, mužské / ženské kódy sú konzistentné. V dátovom sklade bude existovať iba jediný spôsob identifikácie produktu a použijú ten istý záznam zákazníka, nie kópie

  1. Neprchavý

Dáta sú uložené v dátovom sklade nezmenené a nezmenia sa. Historické údaje v dátovom sklade by sa preto nikdy nemali meniť.

  1. Time-variant

z dátového skladu je možné získať údaje od 3 mesiacov, 6 mesiacov, 12 mesiacov alebo dokonca od starších údajov.

  1. Nie je virtuálny

Dátový sklad je fyzické, trvalé úložisko.

Dátový sklad vs Hadoop (infografika)

Nižšie je prvých 6 porovnaní medzi dátovým skladom a Hadoopom

Dátový sklad vs Hadoop - koho použiť?

  • Ak máte čisté, konzistentné a vysoko kvalitné údaje, mali by ste ísť do skladu dát, pretože spoločnosti Hadoop v niektorých svojich riešeniach chýba kvalita údajov.
  • Ak máte nespracované neštruktúrované údaje, mali by ste ísť na Hadoop, pretože Hadoop dobre pracuje s neštruktúrovanými / nespracovanými údajmi, ale Data Warehouse pracuje iba so štruktúrovanými údajmi.
  • V prípade prehľadov s nízkou latenciou a interaktívnych prehľadov by ste mali ísť do skladu údajov
  • Pri OLTP / Dotazoch v reálnom čase / Bodoch by ste mali ísť do Data Warehouse, pretože Hadoop dobre pracuje s dávkovými dátami.
  • V prípade množín údajov s veľkým objemom by ste mali zvoliť Hadoop, pretože Hadoop je navrhnutý na riešenie problémov s veľkými dátami.

Porovnávacia tabuľka Head to Head medzi dátovým skladom vs Hadoop

Nižšie je uvedený zoznam bodov, ktoré porovnávajú porovnanie medzi dátovým skladom a Hadoopom

Základ pre porovnanieDátový skladHadoop
údajeV dátovom sklade analyzujeme štruktúrované a spracované údajeV Hadoope môžeme spracovať akýkoľvek druh údajov vrátane štruktúrovaných / neštruktúrovaných / pološtrukturovaných a nespracovaných
spracovanieJeho spracovanie je založené na konceptoch typu on-write-on-writeJeho spracovanie je založené na konceptoch typu on-on-read
skladovanieVhodný pre dáta s malým objemom a je príliš drahý pre dáta s veľkým objemomFunguje dobre s veľkými množinami údajov, ktoré majú obrovský objem, rýchlosť a rozmanitosť
obratnosťJe menej pohyblivý a má pevnú konfiguráciuJe vysoko pohyblivý, nakonfigurujte a podľa potreby prekonfigurujte
zabezpečeniaTechnológie dátového skladu existujú už desaťročia. Z hľadiska bezpečnosti sa teda môžeme spoľahnúť na Data WarehouseZatiaľ čo technológie Hadoop sú v porovnaní s dátovým skladom relatívne nové, bezpečnosť tu predstavuje veľké obavy
užívateliaObchodní profesionáli zvyčajne používajú dátový skladHadoop je pomerne slávny v oblasti dátovej vedy a dátového inžinierstva

Záver - Data Warehouse vs Hadoop

Teraz vieme o Data Warehouse a Hadoop, vráťme sa a preskúmajme otázku, ktorú sme položili na začiatku tohto článku Data Warehouse a Hadoop -

1) Ak máte veľké dáta, potrebujete dátový sklad?

Odpoveď - pokiaľ vaša organizácia potrebuje spoľahlivé, uveriteľné a dostupné údaje, potom potrebujete dátový sklad.

2) Nahradí spoločnosť Hadoop údajový sklad?

Odpoveď - Porovnanie údajov Warehouse vs Hadoop je ako porovnávanie jabĺk a pomarančov. Obaja Data Warehouse a Hadoop majú svoje vlastné výhody v rôznych scenároch použitia. V niektorých prípadoch sme stále závislí od tradičných techník skladovania údajov, ale s časovými zmenami sa viac zameriavame na Hadoop Framework, ktorý rieši problémy s veľkými dátami.

3) Je to smrť tradičnej éry Data Warehouse?

Odpoveď - Ako vidíte, nejde v skutočnosti o jednoduchú otázku, a preto nie je vhodná na jednoduchú odpoveď. Je pravda, že veľké údaje v najbližších rokoch zmenia tradičný prístup k skladovaniu údajov, ale nebudú zastarávať koncepcie a prax skladovania údajov.

Odporúčaný článok

Toto bol užitočný návod pre Data Warehouse vs Hadoop, kde sme diskutovali o ich význame, porovnávaní hlava-hlava, rozdiel medzi kľúčmi a záver. Viac informácií nájdete aj v nasledujúcom článku -

  1. Hadoop vs Splunk - Zistite najlepšie 7 rozdielov
  2. Hadoop vs Elasticsearch - ktorý z nich je užitočnejší
  3. Big Data vs Data Warehouse - zistite najlepšie rozdiely
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios