Rozdiely medzi dátovým skladom a Hadoopom
V každom desaťročí prežíva IT priemysel významnú inováciu, ktorá otriasa celým IT priemyslom. V posledných rokoch urobil Apache Hadoop to isté tým, že preniesol dátové centrá do novej infraštruktúry
Tým, že programátor Hadoop udelil moc paralelného spracovania, je na takom exponenciálnom náraste adopcie a jeho ekosystém sa rozširuje do hĺbky aj do šírky, je prirodzené sa pýtať, či Hadoop's nahradí tradičný dátový sklad.
Pozrime sa, čo povedal Alasdair Anderson (výkonný viceprezident spoločnosti Nordea) na samite v Hadoope o tejto horúcej téme v meste.
„V súčasnosti medzi EDW a Hadoop neexistuje žiadny vzťah - budú sa navzájom dopĺňať. Nejde o ripovanie a nahradzovanie: nezbavíme sa RDBMS alebo MPP, ale namiesto toho používame správny nástroj pre správnu prácu - a to bude veľmi ovplyvnené cenou. "
Kedykoľvek sa začne táto zaujímavá diskusia, napadne nás veľa otázok, napríklad:
1) Ak máte veľké dáta, potrebujete dátový sklad?
2) Nahradí spoločnosť Hadoop údajový sklad?
3) Je to smrť tradičného obdobia Data Warehouse?
Aby sme vedeli odpovede na všetky tieto otázky, musíme sa pozrieť do širšieho kontextu tohto obrázka.
1. Čo je to Hadoop?
Kto o Big Data nepočul v poslednej dobe? So stovkami terabajtov údajov generovaných každý deň z rôznych zdrojov je zrejmé, že dnešný moderný svet je svetom veľkých údajov.
Keď začnete hovoriť o veľkých údajoch, skôr alebo neskôr začnete diskutovať o najhorúcejšej téme sveta veľkých údajov: Hadoop - ale čo presne to je?
Hadoop je open-source programovací rámec založený na Java, ktorý podporuje spracovanie a ukladanie extrémne veľkých súborov údajov v distribuovanom výpočtovom prostredí.
4 moduly Hadoop -
Hadoop sa skladá zo 4 modulov -
- Distribuovaný systém súborov
Distribuovaný systém súborov umožňuje ukladať údaje v ľahko prístupnom formáte na veľké množstvo prepojených úložných zariadení.
- Mapa Znížiť
Mapa Reduce je kombináciou dvoch operácií - načítanie údajov z databázy a ich uvedenie do formátu vhodného na analýzu (mapu) a vykonávanie matematických operácií (zníženie).
- Hadoop Common
Hadoop Common poskytuje nástroje potrebné pre údaje uložené v HDFS (Hadoop Distributed File System)
- nite
Spoločnosť YARN riadi zdroje systémov na ukladanie údajov a vykonávanie analýzy.
2. Čo je dátový sklad?
Dátový sklad je relačná databáza, ktorá je navrhnutá pre údaje z dotazov a analýz. Zvyčajne obsahuje historické údaje získané z rôznych zdrojov.
Prostredie dátového skladu obsahuje riešenia ETL, online analytické spracovanie (OLAP), nástroje na analýzu klientov a ďalšie aplikácie, ktoré riadia proces analýzy údajov a ich poskytovania podnikovým používateľom.
Zhrnieme, čo je dátový sklad -
-
Predmet orientované
Dátový sklad možno použiť na analýzu konkrétnej oblasti, ako je predaj, financie a inventár. Každá oblasť predmetu obsahuje podrobné údaje.
-
integrovaný
Dátový sklad integruje údaje z viacerých zdrojov údajov. Napríklad dátumy sú v rovnakom formáte, mužské / ženské kódy sú konzistentné. V dátovom sklade bude existovať iba jediný spôsob identifikácie produktu a použijú ten istý záznam zákazníka, nie kópie
-
Neprchavý
Dáta sú uložené v dátovom sklade nezmenené a nezmenia sa. Historické údaje v dátovom sklade by sa preto nikdy nemali meniť.
-
Time-variant
z dátového skladu je možné získať údaje od 3 mesiacov, 6 mesiacov, 12 mesiacov alebo dokonca od starších údajov.
-
Nie je virtuálny
Dátový sklad je fyzické, trvalé úložisko.
Dátový sklad vs Hadoop (infografika)
Nižšie je prvých 6 porovnaní medzi dátovým skladom a Hadoopom
Dátový sklad vs Hadoop - koho použiť?
- Ak máte čisté, konzistentné a vysoko kvalitné údaje, mali by ste ísť do skladu dát, pretože spoločnosti Hadoop v niektorých svojich riešeniach chýba kvalita údajov.
- Ak máte nespracované neštruktúrované údaje, mali by ste ísť na Hadoop, pretože Hadoop dobre pracuje s neštruktúrovanými / nespracovanými údajmi, ale Data Warehouse pracuje iba so štruktúrovanými údajmi.
- V prípade prehľadov s nízkou latenciou a interaktívnych prehľadov by ste mali ísť do skladu údajov
- Pri OLTP / Dotazoch v reálnom čase / Bodoch by ste mali ísť do Data Warehouse, pretože Hadoop dobre pracuje s dávkovými dátami.
- V prípade množín údajov s veľkým objemom by ste mali zvoliť Hadoop, pretože Hadoop je navrhnutý na riešenie problémov s veľkými dátami.
Porovnávacia tabuľka Head to Head medzi dátovým skladom vs Hadoop
Nižšie je uvedený zoznam bodov, ktoré porovnávajú porovnanie medzi dátovým skladom a Hadoopom
Základ pre porovnanie | Dátový sklad | Hadoop |
údaje | V dátovom sklade analyzujeme štruktúrované a spracované údaje | V Hadoope môžeme spracovať akýkoľvek druh údajov vrátane štruktúrovaných / neštruktúrovaných / pološtrukturovaných a nespracovaných |
spracovanie | Jeho spracovanie je založené na konceptoch typu on-write-on-write | Jeho spracovanie je založené na konceptoch typu on-on-read |
skladovanie | Vhodný pre dáta s malým objemom a je príliš drahý pre dáta s veľkým objemom | Funguje dobre s veľkými množinami údajov, ktoré majú obrovský objem, rýchlosť a rozmanitosť |
obratnosť | Je menej pohyblivý a má pevnú konfiguráciu | Je vysoko pohyblivý, nakonfigurujte a podľa potreby prekonfigurujte |
zabezpečenia | Technológie dátového skladu existujú už desaťročia. Z hľadiska bezpečnosti sa teda môžeme spoľahnúť na Data Warehouse | Zatiaľ čo technológie Hadoop sú v porovnaní s dátovým skladom relatívne nové, bezpečnosť tu predstavuje veľké obavy |
užívatelia | Obchodní profesionáli zvyčajne používajú dátový sklad | Hadoop je pomerne slávny v oblasti dátovej vedy a dátového inžinierstva |
Záver - Data Warehouse vs Hadoop
Teraz vieme o Data Warehouse a Hadoop, vráťme sa a preskúmajme otázku, ktorú sme položili na začiatku tohto článku Data Warehouse a Hadoop -
1) Ak máte veľké dáta, potrebujete dátový sklad?
Odpoveď - pokiaľ vaša organizácia potrebuje spoľahlivé, uveriteľné a dostupné údaje, potom potrebujete dátový sklad.
2) Nahradí spoločnosť Hadoop údajový sklad?
Odpoveď - Porovnanie údajov Warehouse vs Hadoop je ako porovnávanie jabĺk a pomarančov. Obaja Data Warehouse a Hadoop majú svoje vlastné výhody v rôznych scenároch použitia. V niektorých prípadoch sme stále závislí od tradičných techník skladovania údajov, ale s časovými zmenami sa viac zameriavame na Hadoop Framework, ktorý rieši problémy s veľkými dátami.
3) Je to smrť tradičnej éry Data Warehouse?
Odpoveď - Ako vidíte, nejde v skutočnosti o jednoduchú otázku, a preto nie je vhodná na jednoduchú odpoveď. Je pravda, že veľké údaje v najbližších rokoch zmenia tradičný prístup k skladovaniu údajov, ale nebudú zastarávať koncepcie a prax skladovania údajov.
Odporúčaný článok
Toto bol užitočný návod pre Data Warehouse vs Hadoop, kde sme diskutovali o ich význame, porovnávaní hlava-hlava, rozdiel medzi kľúčmi a záver. Viac informácií nájdete aj v nasledujúcom článku -
- Hadoop vs Splunk - Zistite najlepšie 7 rozdielov
- Hadoop vs Elasticsearch - ktorý z nich je užitočnejší
- Big Data vs Data Warehouse - zistite najlepšie rozdiely
- Business Intelligence vs Data Warehouse
- Splunk vs Nagios