Rozdiel medzi HBase verzus HDFS

V článku HBase vs HDFS sa objem údajov každý deň zvyšuje a pre organizácie je najdôležitejšie ukladať a spracovávať tento obrovský objem údajov. HBase, ako aj HDFS, sú jednou z dôležitých súčastí ekosystému Hadoop, ktoré pomáhajú pri ukladaní a spracovávaní obrovských množín údajov. Údaje môžu byť štruktúrované, pološtrukturované alebo neštruktúrované, ale s HDFS a HBase sa s nimi dá dobre zaobchádzať. HDFS je skratka pre distribuovaný súborový systém Hadoop, ktorý riadi ukladanie údajov v sieti strojov a spracovanie obrovských množín údajov sa vykonáva pomocou MapReduce. HDFS je vhodný na ukladanie veľkých súborov s údajmi, ktoré majú prístupový tok do streamu, tj zapisujte dáta do súborov a čítajte toľkokrát, koľkokrát je to potrebné. V Hadoop je HBase databázou NoSQL, ktorá beží na vrchole HDFS. HBase ukladá údaje do stĺpcovo orientovanej formy a je známa ako databáza Hadoop. HBase poskytuje konzistentné čítanie a zápis v reálnom čase a horizontálnu škálovateľnosť.

Porovnanie Head to Head medzi HBase vs HDFS (Infographics)

Nižšie je prvé 4 porovnanie medzi HBase verzus HDFS:

Kľúčové rozdiely medzi HBase verzus HDFS

Poďme diskutovať o najlepšom porovnaní medzi HBase vs HDFS:

  • HDFS je navrhnutý špeciálne a najlepšie vyhovuje dávkovému spracovaniu. Ale pokiaľ ide o analýzu v reálnom čase, HDFS nie je pre takéto prípady vhodný. Zatiaľ čo HBase nie je vhodná na vykonávanie šaržového spracovania, ale spracováva veľké súbory údajov na vykonávanie údajov na čítanie / zápis v reálnom čase.
  • HDFS je vhodný na jednorazové zapisovanie a čítanie súborov. Vzhľadom k tomu, HBase je vhodný na náhodný zápis a čítanie údajov, ktoré sa ukladajú v HDFS.
  • HDFS poskytuje operácie s veľkou latenciou pre veľké súbory údajov, zatiaľ čo HBase má nízku latenciu pre malé súbory údajov v rámci veľkých súborov údajov.
  • HDFS ukladá veľké množiny údajov v distribuovanom prostredí rozdelením súborov do blokov a využíva MapReduce na spracovanie obrovských množín údajov. Zatiaľ čo spoločnosť HBase ukladá údaje do databázy orientovanej na stĺpce, kde sú stĺpce uložené spoločne, takže čítanie v reálnom čase je rýchlejšie.
  • Úlohy MapReduce sa vykonávajú na prístup k HDFS všeobecne. Prístup k HBase je možný prostredníctvom príkazov Thrift, Avro, REST API alebo shell.

Porovnávacia tabuľka HBase verzus HDFS

V nasledujúcej tabuľke sú zhrnuté porovnania medzi HBase a HDFS:

HBase HDFS
Je to distribuovaná databáza NoSQL (nielen SQL) zameraná na stĺpce, ktorá je postavená na vrchole HDFS. Používa sa, keď sa v reálnom čase zapisuje a číta pre náhodný prístup k veľkým súborom údajov.Podporuje dávkové spracovanie, kde sú dáta uložené ako nezávislé jednotky nazývané bloky. Súbory sa rozdelia do rôznych blokov a údaje sa v nich uložia. Minimálna veľkosť bloku v HDFS je predvolene 128 MB (v Hadoop 2.x).
V HBase sú hostitelia riedko osídlené, ale veľké tabuľky. Tabuľka v HBase pozostáva z riadkov, riadok je zoskupený do rodín stĺpcov. Rodina stĺpcov sa skladá zo stĺpcov. Ako súčasť definície schémy sa musia uviesť rodiny stĺpcov tabuľky, ale kedykoľvek je to možné, je možné pridať novú rodinu stĺpcov.Klaster HDFS má dva typy uzlov na ukladanie údajov pomocou NameNodes a DataNodes. NameNodes sú hlavné uzly, ktoré ukladajú metadáta, zatiaľ čo DataNodes sú podriadené uzly, ktoré ukladajú bloky údajov (súbory rozdelené do blokov).
Tabuľky v HBase sú horizontálne rozdelené do regiónov a každá oblasť pozostáva z podmnožiny riadkov tabuľky. Tabuľka spočiatku pozostáva z jedného regiónu. Ale ako región rastie, nakoniec presahuje konfigurovateľnú veľkosť prahu a potom sa rozdelí na viac oblastí približne rovnakej veľkosti. S pomocou programu Zookeeper, ktorý poskytuje informácie o konfigurácii, distribuovanú synchronizáciu, klient komunikuje so servermi regiónu. NameNode je jediný bod zlyhania, pretože bez metadát nebude systém súborov fungovať. Stroj, na ktorom je spustený NameNode, musí mať vysokú dostupnosť. Spracovanie údajov sa uskutočňuje pomocou MapReduce. V Hadoop 1.x boli na spracovanie údajov nástroje Job Tracker a Task Tracker. Ale v Hadoop 2.x sa to vykonáva prostredníctvom YARN, kde správca zdrojov a plánovač robia to isté.
HBase má podobný dátový model ako veľká tabuľka spoločnosti Google, ktorá poskytuje veľmi rýchly náhodný prístup k obrovským súborom údajov. Má nízku latenciu prístupu k jednotlivým riadkom naprieč miliardou záznamov a interne používa tabuľky Hash a pre veľké tabuľky rýchle vyhľadávanie.HDFS funguje najlepšie pre veľmi veľké súbory, ktoré môžu mať veľkosť stoviek terabajtov alebo petabytov, ale práca s mnohými malými súbormi sa neodporúča v HDFS, ako pri viacerých súboroch. NameNode vyžaduje viac pamäte na ukladanie metadát. Aplikácia vyžadujúca nízku latenciu v prístupe k údajom nebude s HDFS dobre fungovať. Aj v HDFS sa zápisy robia iba pridaním a nie sú možné svojvoľné úpravy súborov.

záver

V HDFS sa súbory rozdelia do blokov a bloky sú efektívne, keď využijú zvyšný priestor po uložení súboru. Aj v prípade systému HDFS získame bonus systémov odolných voči chybám, kde poskytuje replikáciu, aby sa súbory mohli zálohovať v prípade, že dôjde k narušeniu siete. Aj pri použití komoditného hardvéru získavame lacnejšie náklady na robustný systém. HBase ako databáza poskytuje mnoho výhod, ktoré tradičný RDBMS nedokáže. S programom HBase neexistuje žiadna pevná schéma, pretože musíme definovať iba rodiny stĺpcov. HBase je tiež dobrá pre semi-štruktúrované údaje. V prostredí Hadoop, kde sa údaje spracúvajú postupne a v dávkach, poskytuje HBase výhodu čítania a zápisu v reálnom čase, takže človek nemusí prehľadávať celý súbor údajov ani pri jedinom zázname. HDFS aj HBase riešia mnoho problémov týkajúcich sa ukladania a spracovania veľkého množstva údajov. Je však potrebné analyzovať požiadavku na robustný, ale efektívny systém.

Odporúčané články

Toto je sprievodca k najvyššiemu rozdielu medzi HBase verzus HDFS. Ďalej diskutujeme o hlavných rozdieloch HBase verzus HDFS s informačnými a porovnávacími tabuľkami. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Dátové jazero vs. dátový sklad - najväčšie rozdiely
  2. Abstrakcia vs zapuzdrenie Top 6 Porovnanie
  3. Úvod do otázok o rozhovoroch s HBase
  4. Architektúra HBase s výhodami
  5. Zapuzdrenie do JavaScriptu

Kategórie: