Rozdiel medzi úľom a impalou

Hive je softvérový projekt dátového skladu postavený na vrchole APACHE HADOOP, ktorý vyvinul Jeffov tím na Facebooku s vydaním súčasnej stabilnej verzie 2.3.0. Používa sa na zhrnutie veľkých dát a uľahčuje vyhľadávanie a analýzu. Apache Hive je efektívny štandard pre SQL-in Hadoop. Impala je paralelný stroj na spracovanie dotazov SQL, ktorý beží na Apache Hadoop a používa sa na spracovanie údajov, ktoré sa ukladajú v HBase (Hadoop Database) a Hadoop Distributed File System. Impala je produkt s otvoreným zdrojovým kódom pre dotazovací stroj SQL s paralelným spracovaním (MPP) pre údaje uložené v lokálnom systémovom klastri, ktorý beží na Apache Hadoop. Apache Hive a Impala sú kľúčovými súčasťami systému Hadoop.

Pozrime sa teda podrobne na Úľ aj Impalu:

ÚĽ

  • Apache Hive pomáha pri analýze obrovského súboru údajov uloženého v súborovom systéme Hadoop (HDFS) a iných kompatibilných súborových systémoch.
  • Úľová QL - Na dopytovanie údajov uložených v klastri Hadoop .
  • Využíva škálovateľnosť Hadoopu prekladom .
  • Úľ NIE JE úplnou databázou .
  • Neposkytuje aktualizácie na úrovni záznamu .
  • Hadoop je dávkovo orientovaný systém .
  • Dotazy na úľ majú vysokú latenciu kvôli MapReduce .
  • Úľ neposkytuje funkcie, ktoré sú blízko OLAP .
  • Najlepšie sa hodí pre aplikácie Data Warehouse .
  • Vykonávanie dotazov cez MapReduce .
  • dotazovací jazyk sa dá použiť s vlastnými skalárnymi funkciami (UDF), agregáciami (UDAF) a tabuľkovými funkciami (UDTF) .
  • Úľ tiež poskytuje indexovanie na zrýchlenie, typ indexu vrátane zhutnenia a bitmapový index od 0, 10, plánuje sa viac typov indexov.
  • Typy úložísk podporovaných Hive sú RCfile, HBase, ORC a Plain text .
  • Dotazy typu SQL (Hive QL), ktoré sa implicitne prevádzajú na úlohy MapReduce alebo Tez alebo Spark .
  • V predvolenom nastavení ukladá Hive metadáta do zabudovanej databázy Apache Derby .

IMPALA

  • Impala je vyhľadávací stroj, ktorý beží na Hadoop . Distribúcia testov vo verzii beta bola oznámená v októbri 2012 a bola všeobecne dostupná v máji 2013.
  • Podporuje úložisko HDFS Apache HBase a Amazon S3 .
  • Číta formáty súborov Hadoop, vrátane textových, parketových, Avro, RCFile, LZO a sekvenčných súborov .
  • Podporuje zabezpečenie Hadoop (autentifikácia Kerberos) .
  • Používa metadáta, ovládač ODBC a syntax SQL z Apache Hive .
  • Podporuje viac kompresných kodekov:

a) Snappy (odporúča sa pre svoju účinnú rovnováhu medzi kompresným pomerom a rýchlosťou dekompresie),

b) Gzip (odporúča sa, keď sa dosahuje najvyššia úroveň kompresie),

(c) Deflate (nepodporované pre textové súbory), Bzip2, LZO (len pre textové súbory);

  • Umožňuje vám dotazovať na vnorené štruktúry vrátane máp, štruktúr a polí.
  • Umožňuje súbežné dotazy pre viacerých používateľov a tiež umožňuje kontrolu vstupu na základe stanovenia priorít a radenia otázok.

Porovnania Head to Head medzi Hive vs Impala (Infographics)

Nižšie je Top 20 Porovnanie Hive vs Impala

Kľúčový rozdiel medzi úľom a impalou

Rozdiely medzi Hive vs Impala sú vysvetlené v nasledujúcich bodoch:

  • Úľ je vyvinutý tímom Jeffa na Facebooku, ale Impala je vyvinutá Apache Software Foundation .
  • Úľ podporuje formát súboru Optimalizovaný stĺpcový stĺpcový formát (ORC) s kompresiou Zlib, ale Impala podporuje formát Parquet s úprimnou kompresiou .
  • Úľ je napísaný v jazyku Java, ale Impala je napísaný v jazyku C ++.
  • Rýchlosť spracovania dopytov v Hive je pomalá, ale Impala je 6-69 krát rýchlejšia ako Hive .
  • V úľovej latencii je vysoká, ale v Impale je latencia nízka .
  • Úľ podporuje ukladanie RC súborov a ORC, ale úložný priestor Impala je Hadoop a Apache HBase .
  • Úľ generuje výraz dotazu v čase kompilácie, ale pri generovaní kódu Impala pre veľké slučky dochádza počas behu programu .
  • Úľ nepodporuje paralelné spracovanie, ale Impala podporuje paralelné spracovanie.
  • Úľ podporuje MapReduce, ale Impala nepodporuje MapReduce .
  • V Hive neexistuje žiadna bezpečnostná funkcia, ale Impala podporuje autentifikáciu Kerberos .
  • V aktualizácii každého projektu, kde je dôležitá kompatibilita a rýchlosť, je Úľ ideálnou voľbou, ale pre nový projekt je Impala ideálnou voľbou .
  • Úľ je odolný voči poruchám, ale Impala nepodporuje odolnosť proti poruchám .
  • Úľ podporuje zložitý typ, ale Impala nepodporuje zložité typy .
  • Úľ je dávkovo založený Hadoop MapReduce, ale Impala je databáza MPP .
  • Úľ nepodporuje interaktívne výpočty, ale Impala podporuje interaktívne výpočty .
  • Dotaz úľa má problém so „studeným štartom“, ale v Impala sa proces démona spustí už pri samotnom zavedení systému .
  • Správca zdrojov úľa je YARN (ešte ďalší prostriedok na vyjednávanie zdrojov), ale v nástroji Impala je správca zdrojov * YARN .
  • Distribúcie úľov sú všetky distribúcie Hadoop, Hortonworks (Tez, LLAP), ale v distribúcii Impala sú Cloudera MapR (* Amazon EMR) .
  • Úľové publikum sú Data Engineers, ale v publiku Impala sú Data Analyst / Data scientists.
  • Priepustnosť úľa je vysoká, ale pri impale je priepustnosť nízka .

Porovnávacia tabuľka Hive vs Impala

Sériové číslo.Základ pre porovnanieÚľImpala
1.VyvinutýFacebookSoftvér Apache
nadácie
2.Formát súboru
  • Sekvenčný súbor.
  • Textový súbor.
  • Optimalizovaný formát stĺpcového riadka (ORC) s kompresiou Zlib.
  • Formát súboru RC.
  • Parketový formát s elegantnou kompresiou.
  • Avro
  • LZO
  • Sekvenčný súbor.
3.JazykNapísané v JAVANapísané v C ++
4.Rýchlosť spracovaniaÚľ je pomalýImpala je rýchla
5.latenciavysokýnízky
6.Podpora úložiskaRC súbor, ORCHadoop, Apache HBase
7.Konverzia kóduGeneruje výraz dotazu v čase kompilácieGenerovanie kódu sa uskutočňuje za behu.
8.Podporuje paralelné spracovaniežiadnyÁno
9.Podpora MapReduceÁnožiadny
10.Hadoop SecurityžiadnyPodporuje autentifikáciu Kerberos.
11.používanieIdeálne na vylepšenie projektuIdeálne na začatie nového projektu.
12.Odolné proti chybámÚľ toleruje chyby.Nepodporuje odolnosť proti poruchám.
13.Komplexné typyÚľ podporuje zložité typy.Impala nepodporuje zložité typy.
14.Typ databázyÚľ je Hadoop MapReduce založený na dávkach.Je to databáza MPP
15.Interaktívne výpočtyNepodporuje interaktívne výpočty.Podporuje interaktívne výpočty.
16.popravaDotaz úľa má problém s „studeným štartom“Proces Impala sa vždy začína v Boot-time of Daemons.
17.Riadenie zdrojovniteNatívne * YARN
18.rozvodyHIVE - všetky distribúcie Hadoop, Hortonworks (Tez, LLAP)Cloudera MapR,
(* Amazon EMR)
19.publikumDátoví inžinieriAnalytik údajov / vedci údajov
20.priepustnosťVeľký prietokNízka priepustnosť

Záver - Úľ vs Impala

V tomto článku sme sa snažili ukázať, že to, čo sú dve technológie, konkrétne Hive a Impala, sú tiež základným rozdielom medzi týmito technológiami. Z praktického hľadiska môžeme povedať, že Hive a Impala nie sú konkurenti, ktorí patria k rovnakému základu, ktorý je známy ako MapReduce pre vykonávanie otázok, použitie oboch môže spôsobiť rozdiel. Podľa našich potrieb ich môžeme používať spoločne alebo najlepšie podľa kompatibility, potreby a výkonu. Dotazovacím jazykom úľa je Hive QL, ktorý je veľmi univerzálny a univerzálny jazyk, zatiaľ čo Impala je náročná na pamäť a nepracuje dobre na spracovanie operácií s veľkými údajmi, napríklad na dotazy typu join. Ak je práca na vašom projekte spojená s dávkovým spracovaním veľkého množstva údajov, v tomto prípade bude Úľ lepší av prípade, že vaša práca súvisí s procesom ad-hoc dotazu na údaje v reálnom čase, bude Impala v v takom prípade.

Odporúčaný článok

Toto bol sprievodca pre Hive Vs Impala, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Apache Hive vs Apache Spark SQL - 13 úžasných rozdielov
  2. Úľ VS HUE - Top 6 užitočných porovnaní, ktoré sa môžete naučiť
  3. Apache Pig vs Apache Hive - Top 12 užitočných rozdielov
  4. Hadoop vs Hive - Zistite najlepšie rozdiely
  5. Použitie funkcie OBJEDNÁVKA POD Úľ

Kategórie: