Úľ vs Impala - 20 najužitočnejších vecí, ktoré by ste mali vedieť

Rozdiel medzi úľom a impalou

Hive je softvérový projekt dátového skladu postavený na vrchole APACHE HADOOP, ktorý vyvinul Jeffov tím na Facebooku s vydaním súčasnej stabilnej verzie 2.3.0. Používa sa na zhrnutie veľkých dát a uľahčuje vyhľadávanie a analýzu. Apache Hive je efektívny štandard pre SQL-in Hadoop. Impala je paralelný stroj na spracovanie dotazov SQL, ktorý beží na Apache Hadoop a používa sa na spracovanie údajov, ktoré sa ukladajú v HBase (Hadoop Database) a Hadoop Distributed File System. Impala je produkt s otvoreným zdrojovým kódom pre dotazovací stroj SQL s paralelným spracovaním (MPP) pre údaje uložené v lokálnom systémovom klastri, ktorý beží na Apache Hadoop. Apache Hive a Impala sú kľúčovými súčasťami systému Hadoop.

Pozrime sa teda podrobne na Úľ aj Impalu:

ÚĽ

Apache Hive pomáha pri analýze obrovského súboru údajov uloženého v súborovom systéme Hadoop (HDFS) a iných kompatibilných súborových systémoch.
Úľová QL - Na dopytovanie údajov uložených v klastri Hadoop .
Využíva škálovateľnosť Hadoopu prekladom .
Úľ NIE JE úplnou databázou .
Neposkytuje aktualizácie na úrovni záznamu .
Hadoop je dávkovo orientovaný systém .
Dotazy na úľ majú vysokú latenciu kvôli MapReduce .
Úľ neposkytuje funkcie, ktoré sú blízko OLAP .
Najlepšie sa hodí pre aplikácie Data Warehouse .
Vykonávanie dotazov cez MapReduce .
dotazovací jazyk sa dá použiť s vlastnými skalárnymi funkciami (UDF), agregáciami (UDAF) a tabuľkovými funkciami (UDTF) .
Úľ tiež poskytuje indexovanie na zrýchlenie, typ indexu vrátane zhutnenia a bitmapový index od 0, 10, plánuje sa viac typov indexov.
Typy úložísk podporovaných Hive sú RCfile, HBase, ORC a Plain text .
Dotazy typu SQL (Hive QL), ktoré sa implicitne prevádzajú na úlohy MapReduce alebo Tez alebo Spark .
V predvolenom nastavení ukladá Hive metadáta do zabudovanej databázy Apache Derby .

IMPALA

Impala je vyhľadávací stroj, ktorý beží na Hadoop . Distribúcia testov vo verzii beta bola oznámená v októbri 2012 a bola všeobecne dostupná v máji 2013.
Podporuje úložisko HDFS Apache HBase a Amazon S3 .
Číta formáty súborov Hadoop, vrátane textových, parketových, Avro, RCFile, LZO a sekvenčných súborov .
Podporuje zabezpečenie Hadoop (autentifikácia Kerberos) .
Používa metadáta, ovládač ODBC a syntax SQL z Apache Hive .
Podporuje viac kompresných kodekov:

a) Snappy (odporúča sa pre svoju účinnú rovnováhu medzi kompresným pomerom a rýchlosťou dekompresie),

b) Gzip (odporúča sa, keď sa dosahuje najvyššia úroveň kompresie),

Umožňuje vám dotazovať na vnorené štruktúry vrátane máp, štruktúr a polí.
Umožňuje súbežné dotazy pre viacerých používateľov a tiež umožňuje kontrolu vstupu na základe stanovenia priorít a radenia otázok.

Porovnania Head to Head medzi Hive vs Impala (Infographics)

Nižšie je Top 20 Porovnanie Hive vs Impala

Kľúčový rozdiel medzi úľom a impalou

Rozdiely medzi Hive vs Impala sú vysvetlené v nasledujúcich bodoch:

Úľ je vyvinutý tímom Jeffa na Facebooku, ale Impala je vyvinutá Apache Software Foundation .
Úľ podporuje formát súboru Optimalizovaný stĺpcový stĺpcový formát (ORC) s kompresiou Zlib, ale Impala podporuje formát Parquet s úprimnou kompresiou .
Úľ je napísaný v jazyku Java, ale Impala je napísaný v jazyku C ++.
Rýchlosť spracovania dopytov v Hive je pomalá, ale Impala je 6-69 krát rýchlejšia ako Hive .
V úľovej latencii je vysoká, ale v Impale je latencia nízka .
Úľ podporuje ukladanie RC súborov a ORC, ale úložný priestor Impala je Hadoop a Apache HBase .
Úľ generuje výraz dotazu v čase kompilácie, ale pri generovaní kódu Impala pre veľké slučky dochádza počas behu programu .
Úľ nepodporuje paralelné spracovanie, ale Impala podporuje paralelné spracovanie.
Úľ podporuje MapReduce, ale Impala nepodporuje MapReduce .
V Hive neexistuje žiadna bezpečnostná funkcia, ale Impala podporuje autentifikáciu Kerberos .
V aktualizácii každého projektu, kde je dôležitá kompatibilita a rýchlosť, je Úľ ideálnou voľbou, ale pre nový projekt je Impala ideálnou voľbou .
Úľ je odolný voči poruchám, ale Impala nepodporuje odolnosť proti poruchám .
Úľ podporuje zložitý typ, ale Impala nepodporuje zložité typy .
Úľ je dávkovo založený Hadoop MapReduce, ale Impala je databáza MPP .
Úľ nepodporuje interaktívne výpočty, ale Impala podporuje interaktívne výpočty .
Dotaz úľa má problém so „studeným štartom“, ale v Impala sa proces démona spustí už pri samotnom zavedení systému .
Správca zdrojov úľa je YARN (ešte ďalší prostriedok na vyjednávanie zdrojov), ale v nástroji Impala je správca zdrojov * YARN .
Distribúcie úľov sú všetky distribúcie Hadoop, Hortonworks (Tez, LLAP), ale v distribúcii Impala sú Cloudera MapR (* Amazon EMR) .
Úľové publikum sú Data Engineers, ale v publiku Impala sú Data Analyst / Data scientists.
Priepustnosť úľa je vysoká, ale pri impale je priepustnosť nízka .

Porovnávacia tabuľka Hive vs Impala

Sériové číslo.	Základ pre porovnanie	Úľ	Impala
1.	Vyvinutý	Facebook	Softvér Apache nadácie
2.	Formát súboru	Sekvenčný súbor. Textový súbor. Optimalizovaný formát stĺpcového riadka (ORC) s kompresiou Zlib. Formát súboru RC.	Parketový formát s elegantnou kompresiou. Avro LZO Sekvenčný súbor.
3.	Jazyk	Napísané v JAVA	Napísané v C ++
4.	Rýchlosť spracovania	Úľ je pomalý	Impala je rýchla
5.	latencia	vysoký	nízky
6.	Podpora úložiska	RC súbor, ORC	Hadoop, Apache HBase
7.	Konverzia kódu	Generuje výraz dotazu v čase kompilácie	Generovanie kódu sa uskutočňuje za behu.
8.	Podporuje paralelné spracovanie	žiadny	Áno
9.	Podpora MapReduce	Áno	žiadny
10.	Hadoop Security	žiadny	Podporuje autentifikáciu Kerberos.
11.	používanie	Ideálne na vylepšenie projektu	Ideálne na začatie nového projektu.
12.	Odolné proti chybám	Úľ toleruje chyby.	Nepodporuje odolnosť proti poruchám.
13.	Komplexné typy	Úľ podporuje zložité typy.	Impala nepodporuje zložité typy.
14.	Typ databázy	Úľ je Hadoop MapReduce založený na dávkach.	Je to databáza MPP
15.	Interaktívne výpočty	Nepodporuje interaktívne výpočty.	Podporuje interaktívne výpočty.
16.	poprava	Dotaz úľa má problém s „studeným štartom“	Proces Impala sa vždy začína v Boot-time of Daemons.
17.	Riadenie zdrojov	nite	Natívne * YARN
18.	rozvody	HIVE - všetky distribúcie Hadoop, Hortonworks (Tez, LLAP)	Cloudera MapR, (* Amazon EMR)
19.	publikum	Dátoví inžinieri	Analytik údajov / vedci údajov
20.	priepustnosť	Veľký prietok	Nízka priepustnosť

Záver - Úľ vs Impala

V tomto článku sme sa snažili ukázať, že to, čo sú dve technológie, konkrétne Hive a Impala, sú tiež základným rozdielom medzi týmito technológiami. Z praktického hľadiska môžeme povedať, že Hive a Impala nie sú konkurenti, ktorí patria k rovnakému základu, ktorý je známy ako MapReduce pre vykonávanie otázok, použitie oboch môže spôsobiť rozdiel. Podľa našich potrieb ich môžeme používať spoločne alebo najlepšie podľa kompatibility, potreby a výkonu. Dotazovacím jazykom úľa je Hive QL, ktorý je veľmi univerzálny a univerzálny jazyk, zatiaľ čo Impala je náročná na pamäť a nepracuje dobre na spracovanie operácií s veľkými údajmi, napríklad na dotazy typu join. Ak je práca na vašom projekte spojená s dávkovým spracovaním veľkého množstva údajov, v tomto prípade bude Úľ lepší av prípade, že vaša práca súvisí s procesom ad-hoc dotazu na údaje v reálnom čase, bude Impala v v takom prípade.

Odporúčaný článok

Toto bol sprievodca pre Hive Vs Impala, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Ďalšie informácie nájdete aj v nasledujúcich článkoch -