Rozdiel medzi úľom a impalou
Hive je softvérový projekt dátového skladu postavený na vrchole APACHE HADOOP, ktorý vyvinul Jeffov tím na Facebooku s vydaním súčasnej stabilnej verzie 2.3.0. Používa sa na zhrnutie veľkých dát a uľahčuje vyhľadávanie a analýzu. Apache Hive je efektívny štandard pre SQL-in Hadoop. Impala je paralelný stroj na spracovanie dotazov SQL, ktorý beží na Apache Hadoop a používa sa na spracovanie údajov, ktoré sa ukladajú v HBase (Hadoop Database) a Hadoop Distributed File System. Impala je produkt s otvoreným zdrojovým kódom pre dotazovací stroj SQL s paralelným spracovaním (MPP) pre údaje uložené v lokálnom systémovom klastri, ktorý beží na Apache Hadoop. Apache Hive a Impala sú kľúčovými súčasťami systému Hadoop.
Pozrime sa teda podrobne na Úľ aj Impalu:
ÚĽ
- Apache Hive pomáha pri analýze obrovského súboru údajov uloženého v súborovom systéme Hadoop (HDFS) a iných kompatibilných súborových systémoch.
- Úľová QL - Na dopytovanie údajov uložených v klastri Hadoop .
- Využíva škálovateľnosť Hadoopu prekladom .
- Úľ NIE JE úplnou databázou .
- Neposkytuje aktualizácie na úrovni záznamu .
- Hadoop je dávkovo orientovaný systém .
- Dotazy na úľ majú vysokú latenciu kvôli MapReduce .
- Úľ neposkytuje funkcie, ktoré sú blízko OLAP .
- Najlepšie sa hodí pre aplikácie Data Warehouse .
- Vykonávanie dotazov cez MapReduce .
- dotazovací jazyk sa dá použiť s vlastnými skalárnymi funkciami (UDF), agregáciami (UDAF) a tabuľkovými funkciami (UDTF) .
- Úľ tiež poskytuje indexovanie na zrýchlenie, typ indexu vrátane zhutnenia a bitmapový index od 0, 10, plánuje sa viac typov indexov.
- Typy úložísk podporovaných Hive sú RCfile, HBase, ORC a Plain text .
- Dotazy typu SQL (Hive QL), ktoré sa implicitne prevádzajú na úlohy MapReduce alebo Tez alebo Spark .
- V predvolenom nastavení ukladá Hive metadáta do zabudovanej databázy Apache Derby .
IMPALA
- Impala je vyhľadávací stroj, ktorý beží na Hadoop . Distribúcia testov vo verzii beta bola oznámená v októbri 2012 a bola všeobecne dostupná v máji 2013.
- Podporuje úložisko HDFS Apache HBase a Amazon S3 .
- Číta formáty súborov Hadoop, vrátane textových, parketových, Avro, RCFile, LZO a sekvenčných súborov .
- Podporuje zabezpečenie Hadoop (autentifikácia Kerberos) .
- Používa metadáta, ovládač ODBC a syntax SQL z Apache Hive .
- Podporuje viac kompresných kodekov:
a) Snappy (odporúča sa pre svoju účinnú rovnováhu medzi kompresným pomerom a rýchlosťou dekompresie),
b) Gzip (odporúča sa, keď sa dosahuje najvyššia úroveň kompresie),
(c) Deflate (nepodporované pre textové súbory), Bzip2, LZO (len pre textové súbory);
- Umožňuje vám dotazovať na vnorené štruktúry vrátane máp, štruktúr a polí.
- Umožňuje súbežné dotazy pre viacerých používateľov a tiež umožňuje kontrolu vstupu na základe stanovenia priorít a radenia otázok.
Porovnania Head to Head medzi Hive vs Impala (Infographics)
Nižšie je Top 20 Porovnanie Hive vs Impala
Kľúčový rozdiel medzi úľom a impalou
Rozdiely medzi Hive vs Impala sú vysvetlené v nasledujúcich bodoch:
- Úľ je vyvinutý tímom Jeffa na Facebooku, ale Impala je vyvinutá Apache Software Foundation .
- Úľ podporuje formát súboru Optimalizovaný stĺpcový stĺpcový formát (ORC) s kompresiou Zlib, ale Impala podporuje formát Parquet s úprimnou kompresiou .
- Úľ je napísaný v jazyku Java, ale Impala je napísaný v jazyku C ++.
- Rýchlosť spracovania dopytov v Hive je pomalá, ale Impala je 6-69 krát rýchlejšia ako Hive .
- V úľovej latencii je vysoká, ale v Impale je latencia nízka .
- Úľ podporuje ukladanie RC súborov a ORC, ale úložný priestor Impala je Hadoop a Apache HBase .
- Úľ generuje výraz dotazu v čase kompilácie, ale pri generovaní kódu Impala pre veľké slučky dochádza počas behu programu .
- Úľ nepodporuje paralelné spracovanie, ale Impala podporuje paralelné spracovanie.
- Úľ podporuje MapReduce, ale Impala nepodporuje MapReduce .
- V Hive neexistuje žiadna bezpečnostná funkcia, ale Impala podporuje autentifikáciu Kerberos .
- V aktualizácii každého projektu, kde je dôležitá kompatibilita a rýchlosť, je Úľ ideálnou voľbou, ale pre nový projekt je Impala ideálnou voľbou .
- Úľ je odolný voči poruchám, ale Impala nepodporuje odolnosť proti poruchám .
- Úľ podporuje zložitý typ, ale Impala nepodporuje zložité typy .
- Úľ je dávkovo založený Hadoop MapReduce, ale Impala je databáza MPP .
- Úľ nepodporuje interaktívne výpočty, ale Impala podporuje interaktívne výpočty .
- Dotaz úľa má problém so „studeným štartom“, ale v Impala sa proces démona spustí už pri samotnom zavedení systému .
- Správca zdrojov úľa je YARN (ešte ďalší prostriedok na vyjednávanie zdrojov), ale v nástroji Impala je správca zdrojov * YARN .
- Distribúcie úľov sú všetky distribúcie Hadoop, Hortonworks (Tez, LLAP), ale v distribúcii Impala sú Cloudera MapR (* Amazon EMR) .
- Úľové publikum sú Data Engineers, ale v publiku Impala sú Data Analyst / Data scientists.
- Priepustnosť úľa je vysoká, ale pri impale je priepustnosť nízka .
Porovnávacia tabuľka Hive vs Impala
Sériové číslo. | Základ pre porovnanie | Úľ | Impala |
1. | Vyvinutý | Softvér Apache nadácie |
|
2. | Formát súboru |
|
|
3. | Jazyk | Napísané v JAVA | Napísané v C ++ |
4. | Rýchlosť spracovania | Úľ je pomalý | Impala je rýchla |
5. | latencia | vysoký | nízky |
6. | Podpora úložiska | RC súbor, ORC | Hadoop, Apache HBase |
7. | Konverzia kódu | Generuje výraz dotazu v čase kompilácie | Generovanie kódu sa uskutočňuje za behu. |
8. | Podporuje paralelné spracovanie | žiadny | Áno |
9. | Podpora MapReduce | Áno | žiadny |
10. | Hadoop Security | žiadny | Podporuje autentifikáciu Kerberos. |
11. | používanie | Ideálne na vylepšenie projektu | Ideálne na začatie nového projektu. |
12. | Odolné proti chybám | Úľ toleruje chyby. | Nepodporuje odolnosť proti poruchám. |
13. | Komplexné typy | Úľ podporuje zložité typy. | Impala nepodporuje zložité typy. |
14. | Typ databázy | Úľ je Hadoop MapReduce založený na dávkach. | Je to databáza MPP |
15. | Interaktívne výpočty | Nepodporuje interaktívne výpočty. | Podporuje interaktívne výpočty. |
16. | poprava | Dotaz úľa má problém s „studeným štartom“ | Proces Impala sa vždy začína v Boot-time of Daemons. |
17. | Riadenie zdrojov | nite | Natívne * YARN |
18. | rozvody | HIVE - všetky distribúcie Hadoop, Hortonworks (Tez, LLAP) | Cloudera MapR, (* Amazon EMR) |
19. | publikum | Dátoví inžinieri | Analytik údajov / vedci údajov |
20. | priepustnosť | Veľký prietok | Nízka priepustnosť |
Záver - Úľ vs Impala
V tomto článku sme sa snažili ukázať, že to, čo sú dve technológie, konkrétne Hive a Impala, sú tiež základným rozdielom medzi týmito technológiami. Z praktického hľadiska môžeme povedať, že Hive a Impala nie sú konkurenti, ktorí patria k rovnakému základu, ktorý je známy ako MapReduce pre vykonávanie otázok, použitie oboch môže spôsobiť rozdiel. Podľa našich potrieb ich môžeme používať spoločne alebo najlepšie podľa kompatibility, potreby a výkonu. Dotazovacím jazykom úľa je Hive QL, ktorý je veľmi univerzálny a univerzálny jazyk, zatiaľ čo Impala je náročná na pamäť a nepracuje dobre na spracovanie operácií s veľkými údajmi, napríklad na dotazy typu join. Ak je práca na vašom projekte spojená s dávkovým spracovaním veľkého množstva údajov, v tomto prípade bude Úľ lepší av prípade, že vaša práca súvisí s procesom ad-hoc dotazu na údaje v reálnom čase, bude Impala v v takom prípade.
Odporúčaný článok
Toto bol sprievodca pre Hive Vs Impala, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Ďalšie informácie nájdete aj v nasledujúcich článkoch -
- Apache Hive vs Apache Spark SQL - 13 úžasných rozdielov
- Úľ VS HUE - Top 6 užitočných porovnaní, ktoré sa môžete naučiť
- Apache Pig vs Apache Hive - Top 12 užitočných rozdielov
- Hadoop vs Hive - Zistite najlepšie rozdiely
- Použitie funkcie OBJEDNÁVKA POD Úľ