HDFS vs HBase - ktorý z nich je lepší (infografika)

Rozdiel medzi HDFS a HBase

HDFS (Distribuovaný súborový systém Hadoop) HDFS vám umožňuje ukladať obrovské množstvo údajov distribuovaným a redundantným spôsobom, ktorý beží na komoditnom hardvéri. HBase (databáza Hadoop) je databáza NoSQL, ktorá beží na vrchole vášho klastra Hadoop

Pozrime sa na komponenty a architektúru systémov HDFS a HBase:

Komponenty HDFS

NameNode
DataNode

NameNode: NameNode možno považovať za master systému. Udržuje strom systému súborov a metadáta pre všetky súbory a adresáre, ktoré sú v systéme. Na ukladanie informácií o metaúdajoch sa používajú dva súbory „obraz namespace“ a „protokol úprav“. Namenode má vedomosti o všetkých dátových uzloch obsahujúcich dátové bloky pre daný súbor, neukladá však trvalé umiestnenia blokov. Tieto informácie sa obnovia zakaždým z dátových uzlov, keď sa systém spustí.

DataNode: DataNodes sú otroky, ktorí sídlia na každom počítači v klastri a poskytujú skutočné úložisko. Je zodpovedný za vybavovanie, čítanie a zápis požiadaviek pre klientov.

Architektúra HDFS: -

Zložky HBase: -

Hbase majster
Regionálny server
kraj
Ošetrovateľ v zoo

HMaster : Je to hlavný server v architektúre HBase. Je monitorovacím agentom, ktorý monitoruje všetky regionálne servery a je zodpovednosťou spoločnosti HMaster, aby bola rozhraním pre všetky zmeny metadát. Beží na NameNode.

Servery regiónov: Keď regionálny server prijme zapisovanie a načítanie požiadaviek od klienta, priradí žiadosť konkrétnej oblasti, v ktorej sa nachádza skutočná rodina stĺpcov. Klient sa však môže priamo spojiť so servermi regiónu, nie je potrebné povinné povolenie klienta HMaster týkajúce sa komunikácie so servermi regiónu. Klient vyžaduje pomoc HMaster, keď sú potrebné operácie týkajúce sa zmien metadát a schém.

Regióny: Regióny sú základné stavebné prvky klastra HBase, ktoré pozostávajú z distribúcie tabuliek a pozostávajú z rodín stĺpcov. Obsahuje viac obchodov, jeden pre každú rodinu stĺpcov. Pozostáva predovšetkým z dvoch komponentov, ktorými sú Memstore a Hfile.

ZooKeeper: V Hbase je Zookeeper centralizovaný monitorovací server, ktorý udržuje konfiguračné informácie a poskytuje distribuovanú synchronizáciu. Distribuovaná synchronizácia je prístup k distribuovaným aplikáciám bežiacim v klastri so zodpovednosťou za poskytovanie koordinačných služieb medzi uzlami. Ak chce klient komunikovať s regiónmi, musí klient servera najskôr navštíviť ZooKeeper.

Architektúra HBase: - HBase je súčasťou ekosystému Hadoop.

Hĺbkový model: -

Porovnanie vzájomných vzťahov medzi HDFS a HBase (infografika)

Nasleduje Top 14 Porovnanie medzi HDFS vs HBase

Kľúčové rozdiely medzi HDFS a HBase

Nižšie je uvedený rozdiel medzi HDFS a HBase

HDFS je distribuovaný systém súborov, ktorý je vhodný na ukladanie veľkých súborov. Ale HBase, na druhej strane, je postavený na vrchole HDFS a poskytuje rýchle vyhľadávanie záznamov (a aktualizácie) pre veľké tabuľky.
HDFS je založený na súborovom systéme GFS. Ale HBase je distribuovaný - používa HDFS na ukladanie, stĺpce - orientované, viacrozmerné (verzie) a úložný systém
HDFS používa HIVE ako jednu zo svojich zložiek pre jazyk quire, ktorý je HIVE Query Language (HQL), ale Hbase NIE JE SQL databáza, čo znamená: - Žiadni pripojení, žiadny dotazovací stroj, žiadne dátové typy, žiadne (sakra) SQL, žiadne schémy a bez potreby DBA.
Pretože HDFS je distribuovaná úložná jednotka, nemá preto iný špecifický jazyk ako príkazy používané ako príchuť UNIX, ako napríklad: - Hadoop dfs -mkdir / foodir
hadoop dfs -cat /foodir/myfile.txt
hadoop dfs -rm /foodir/myfile.txt

Na druhej strane má Hbase vlastné rozhranie vo forme Hbase Shell, ako napríklad: -

hbase (main): 003: 0> create 'test', 'cf'

0 riadkov za 1 200 sekúnd

hbase (main): 004: 0> dať 'test', 'row1', 'cf: a', 'value1'

0 riadkov za 0, 0560 sekúnd

hbase (main): 005: 0> dať 'test', 'row2', 'cf: b', 'value2'

0 riadkov za 0, 0370 sekundy

hbase (main): 006: 0> dať 'test', 'row3', 'cf: c', 'value3'

0 riadkov za 0, 0450 sekundy

hbase (hlavný): 007: 0> skenovací „test“

ROW COLUMN + CELL

stĺpec row1 = cf: a, timestamp = 1288380727188, value = value1

stĺpec row2 = cf: b, timestamp = 1288380738440, value = value2

row3 column = cf: c, timestamp = 1288380747365, value = value3

3 riadky za 0, 0590 sekundy

Porovnávacia tabuľka HDFS verzus HBase

Základ pre porovnanie	HDFS	HBase
Prečo ich potrebujeme	Potreba spracovať obrovské súbory údajov na veľkých klastroch počítačov	HBase je distribuovaný dátový sklad orientovaný na stĺpce postavený na vrchole HDFS
Uzly zlyhávajú každý deň	a) Očakáva sa skôr zlyhanie ako výnimočné b) Počet uzlov v klastri nie je konštantný	HBase je projekt Apache open source, ktorého cieľom je poskytnúť úložisko pre distribuovaný počítač Hadoop
Napíšte vzor	Pripojiť iba	Náhodné písanie, hromadné inkrementálne
Prečítajte si vzor	Skenovanie celej tabuľky, skenovanie tabuľky oddielov	Náhodné čítanie, skenovanie malého rozsahu alebo skenovanie tabuľky
Vzor W / R	HDFS je ideálny pre prípady jednorazového a opakovaného použitia	HBase je ideálna pre náhodný zápis a čítanie údajov, ktoré sú uložené v HDFS.
Výkon úľa (SQL)	Pomerne veľmi dobre	4-5 krát pomalšie
Štruktúrované úložisko	Urobte to sami alebo TSV alebo Sequence File	Dátový model riedkej rodiny stĺpcov
Maximálna veľkosť údajov	Zvyčajne môžu byť uložené približne 30 PB	Približne okolo 1 PB
Dynamické zmeny	HDFS má pevnú architektúru, ktorá neumožňuje zmeny. Nepomáha to dynamické ukladanie.	HBase umožňuje dynamické zmeny a môže byť použitý pre samostatné aplikácie.
Distribúcia údajov	Dáta sa ukladajú distribuovaným spôsobom cez uzly v klastri. Dáta sú rozdelené do blokov a potom sú uložené na uzloch prítomných v klastri HDFS.	Tabuľky sa distribuujú v klastri cez regióny a regióny sa automaticky rozdeľujú a znova rozdeľujú podľa rastu vašich údajov
Úložisko dát	Všetky dáta sú uložené vo forme malých súborov a všetky súbory majú typickú veľkosť 64 MB (čo je 128 MB v novšej verzii).	Všetky údaje sa ukladajú vo forme tabuliek, riadkov a stĺpcov
Modelovanie dát	V HDFS používame techniku Map Reduce, ktorá rozdeľuje súbory na páry kľúč - hodnota	Systém HBase je založený na modeli spoločnosti Bigtable od spoločnosti Google, ktorý využíva aj páry kľúč - hodnota
operácie	Má operácie s vysokou latenciou	Má operácie s nízkou latenciou
prístupnosť	Je prístupný predovšetkým prostredníctvom úloh MR (Map Reduce)	Je prístupný prostredníctvom príkazov shellu, klientskeho rozhrania API v jazyku Java, REST, Avro alebo Thrift

Záver - HDFS vs HBase

Na záver možno povedať, že HDFS aj HBase majú nádherné technológie samy o sebe. Oba systémy HDFS a HBase boli vytvorené na ukladanie veľkých dát a na uľahčenie ich prístupu a výpočtu. Oba systémy HDFS a HBase idú bok po boku, pretože jeden systém HDFS ukladá údaje, druhý program HBase vkladá do údajov schému, ako ich uložiť a načítať neskôr pre použitie klienta.

Hbase je jednou z distribuovaných databáz zameraných na stĺpce NoSql dostupných v nadácii apache. Program HBase poskytuje väčší výkon pri načítavaní menšieho počtu záznamov, ako pri Hadoop alebo Hive. Je veľmi ľahké vyhľadať zadanú hodnotu, pretože podporuje indexovanie, transakcie a aktualizácie.

Môžeme vykonávať online analýzy v reálnom čase pomocou systému Hbase integrovaného do ekosystému Hadoop. Má automatické a konfigurovateľné šrafovanie pre dátové sady alebo tabuľky a poskytuje pokojné API na vykonávanie úloh MapReduce.

Odporúčaný článok

Toto bola príručka pre systém HDFS verzus HBase, ich význam, porovnanie hlava-hlava, kľúčové rozdiely, porovnávacia tabuľka a záver. Tento článok obsahuje všetky užitočné rozdiely medzi HDFS a HBase. Ďalšie informácie nájdete v nasledujúcich článkoch -

HBase vs Cassandra - ktorý z nich je lepší (infografika)
Zistite 7 najlepších rozdielov medzi Hadoopom a HBase
Top 12 Porovnanie Apache Hive vs Apache HBase (Infographics)

HDFS vs HBase - ktorý z nich je lepší (infografika)

Obsah:

Rozdiel medzi HDFS a HBase

Komponenty HDFS

Porovnanie vzájomných vzťahov medzi HDFS a HBase (infografika)

Kľúčové rozdiely medzi HDFS a HBase

Porovnávacia tabuľka HDFS verzus HBase

Záver - HDFS vs HBase

Odporúčaný článok

Unixová architektúra Kompletný sprievodca architektúrou Unix

Odkryť stĺpce v Exceli Rôzne metódy na odkrytie stĺpcov v Exceli

Universal Analytics vs Google Analytics - dôležité rozdiely

Unixoví operátori Rôzne typy operátorov v Unixe

Povolenia pre súbory Unix Príručka k súborovým povoleniam systému Unix s príkladom

Účel výkazu ziskov a strát Kľúčový koncept Účel a príklad

Nákup vs obstaranie Top 9 úžasných rozdielov (s infografikou)

VLASTNÍK v Exceli (vzorec, príklady) Ako používať funkciu PROPER?

Cheat list Python 3 Najlepšie interaktívne podvádzať list na Python 3

Príkazy Python 3 - Koncepcia - Základné až rozšírené príkazy

Funkcia YIELD v Exceli (vzorec, príklady) Ako používať YIELD?

Pluginy ZBrush Naučte sa 6 najlepších zásuvných modulov ZBrush

Skóre Z vs. T Skóre 5 najlepších rozdielov, ktoré sa treba naučiť (s informáciami)

Alternatívy ZBrush Top 5 alternatív softvéru ZBrush a podobného softvéru

ZBrush Tools - Top 10 nástrojov ZBrush používaných na modelovanie modelov