Rozdiel medzi Hadoop a HBase

Hadoop je open-source Java framework, ktorý sa používa na správu a spracovanie veľkého množstva štruktúrovaných a neštruktúrovaných údajov. Hadoop je masívne škálovateľný, preto sa používa na spracovanie veľkých dátových pracovných za ažení. Veľké dáta sú uložené, prístupné a spracovávané v spoľahlivom a rozšíriteľnom klastri. HBase (Hadoop Database) je non-relačné a nielen SQL, tj NoSQL databáza, ktorá beží na vrchole Hadoop ako distribuované a škálovateľné veľké dátové úložisko. Ide o databázu s otvoreným zdrojovým kódom, v ktorej sú uložené údaje vo forme riadkov a stĺpcov, pričom táto bunka je priesečníkom stĺpcov a riadkov.

Nižšie sú uvedené hlavné komponenty architektúry Hadoop:

  • Distribuovaný súborový systém Hadoop (HDFS): Hadoop obsahuje distribuovaný úložný systém, distribuovaný systém súborov Hadoop (HDFS). HDFS je architektúra master-slave, ktorá ukladá údaje v klastri. Dáta distribuované na niekoľkých podradených uzloch hlavným uzlom vo formulárovom bloku. Hlavný uzol sa nazýva Namenode a slave uzly sa nazývajú Datanode. HDFS je ľahko rozšíriteľný a ukladá obrovské množstvo údajov do Datanodes. HDFS má konfigurovateľný replikačný faktor s predvolenou hodnotou 3, ktorú je možné upravovať.
  • MapReduce: MapReduce je programové paradigma, ktoré prebieha paralelne na veľkom počte súborov údajov v sieti. MapReduce odkazuje na dve rôzne úlohy: mapovanie vstupných údajov, v ktorých údaje rozdelené do podmnožiny údajov nazývané n-tice a redukcia úlohy, vezme tieto n-tice z mapy ako vstup a skombinuje sa tak, aby sa vytvoril výstup originálu.
  • Priadza: YARN je skratka pre ďalší navigátor prostriedkov, ktorý počíta prostriedky, ako je správa CPU a pamäte, plánovanie požiadaviek na zdroje.

Obr. Apache Hadoop Framework

Regionálny server slúži na operácie čítania a zápisu. Všetky údaje HBase sú uložené v súbore HDFS. Datanód HDFS ukladá údaje, ktoré spravuje regionálny server. HDen Namenode uchováva informácie o metaúdajoch pre všetky bloky fyzických údajov, ktoré tvoria súbory.

Verzovanie sa používa na sledovanie zmien buniek, ktoré udržujú prehľad o verzii obsahu. Z toho je možné získať akúkoľvek verziu obsahu. Každá hodnota bunky obsahuje atribút 'version' s ohľadom na časovú pečiatku na získanie bunky. Každá hodnota na mape predstavuje nepretržité pole bajtov. Mapa je indexovaná pomocou kľúča riadka, stĺpca a časovej pečiatky. Architektúra HBase je vysoko škálovateľná, riedka, distribuovaná, perzistentná a viacrozmerná mapa.

Porovnanie vzájomných vzťahov medzi Hadoopom a HBase (infografika)

Nižšie je uvedený zoznam najlepších 7 rozdielov medzi Hadoopom a HBase

Kľúčové rozdiely medzi Hadoopom a HBase

Rozdiel medzi Hadoop a HBase je vysvetlený v nasledujúcich bodoch:

  1. Hadoop nie je vhodný pre online analytické spracovanie (OLAP) a HBase je súčasťou ekosystému Hadoop, ktorý poskytuje náhodný prístup v reálnom čase (čítanie / zápis) k údajom v súborovom systéme Hadoop.
  2. Rámec Hadoop je konštrukčne odolný voči chybám a podporuje rýchly prenos údajov medzi uzlami aj počas zlyhaní systému. HBase je nerelačná a otvorená zdrojová databáza Not-Only-SQL, ktorá beží nad Hadoop. HBase spadá pod CP typ CAP (Konzistencia, dostupnosť a tolerancia oddielu).
  3. Hadoop je najvhodnejší na vykonávanie dávkovej analýzy. Jednou z jeho najväčších nevýhod je však neschopnosť vykonať analýzu v reálnom čase, čo je trend v IT priemysle. Na druhej strane HBase dokáže spracovať veľké súbory údajov a nie je vhodný pre dávkovú analýzu. Namiesto toho sa používa na zápis / čítanie údajov z Hadoop v reálnom čase.
  4. Hadoop aj HBase sú schopné spracovávať štruktúrované, pološtrukturované aj neštruktúrované údaje. V systéme Hadoop nemá systém HDFS stroj na spracovanie v pamäti spomaľujúci proces analýzy údajov; pretože to používa obyčajný MapReduce. HBase sa naopak môže pochváliť motorom na spracovanie v pamäti, ktorý drasticky zvyšuje rýchlosť čítania / zápisu.
  5. Hadoop je veľmi transparentný pri vykonávaní analýzy údajov. Na druhej strane HBase, ktorá je databázou NoSQL v tabuľkovom formáte, získava hodnoty zoradením pod rôzne kľúčové hodnoty.

Porovnávacia tabuľka Hadoop vs HBase

ZÁKLAD PRE POROVNANIEHadoopHBase
zmyselHadoop založený hlavne na HDFS a MapReduce.HBase je skratka pre databázu Hadoop.
pojemHadoop je framework založený na Java, v ktorom HDFS ukladá veľké množstvo množín údajov a MapReduce na ňom vykonáva operácie.HBase je Java založený nielen na SQL, tj databáze NoSQL, ktorá beží nad Hadoop.
skladovanieDátové sady sú rozdelené do podmnožiny nazývanej kusy a kusy sú uložené v klastri.Dáta uložené vo formáte tabuľky v HDFS. HBase ukladá dáta ako pár kľúč / hodnota.
PoužiteľnosťV Hadoop má HDFS pevnú architektúru, ktorá neumožňuje zmeny. Nepodporuje dynamické úložisko.HBase umožňuje zmeny v run-time a môže byť použitý pre samostatné aplikácie.
Flexibilita čítania a zápisuHadoop umožňuje HDFS mnohokrát čítať, ale iba raz.HBase je vhodná na viacnásobné čítanie a zápis údajov uložených v HDFS
Dostupnosť a prístupnosťVysoko dostupné a rýchlo prístupné ako údaje uložené na rôznych uzloch.Súbory údajov sú dostupné a ľahko dostupné
škálovateľnosťKlastru je možné pridať viac uzlov, a preto je vysoko škálovateľné.Je možné uložiť obrovské množstvo údajov.

Záver - Hadoop vs HBase

Hadoop architektúra založená hlavne na HDFS a MapReduce. HBase je podpornou súčasťou systému Hadoop. HBase je schopný hostiť obrovské tabuľky a poskytuje rýchly náhodný prístup k dostupným údajom, zatiaľ čo HDFS je vhodný na ukladanie veľkých súborov. Hadoop aj HBase poskytujú rýchly prístup k údajom, ale pomocou HBase je možné vykonávať operácie čítania / zápisu a pre HDFS čítať mnohokrát a raz je možné vykonať zápis. Tento článok popisuje porozumenie Hadoop a HBase, stručne zdôrazňuje vlastnosti a rozumne ich porovnáva.

Odporúčaný článok

  1. Apache Hadoop vs Apache Spark | Top 10 porovnaní, ktoré musíte vedieť!
  2. Hadoop vs Hive - Zistite najlepšie rozdiely
  3. HBase vs Cassandra - ktorý z nich je lepší (infografika)
  4. Top 12 Porovnanie Apache Hive vs Apache HBase (Infographics)
  5. Hadoop vs Spark: Aké sú funkcie

Kategórie: