Úvod do alternatív úľa

Predtým, ako budeme diskutovať o alternatívach Úľa. Poďme najprv pochopiť, čo je Úľ? HIVE je teda v podstate nástroj na skladovanie údajov, ktorý je vyvinutý na vrchole HDFS (Hadoop Distributed File System). Používa sa na poskytnutie rozhrania dotazu typu SQL, ktoré umožňuje dotazovať údaje, ktoré sú uložené v rôznych súboroch integrovaných s programom Hadoop. Konvertuje dotazy typu SQL na úlohy Map Reduce, ktoré pomáhajú pri ľahkom spracovaní veľkého množstva údajov.

Vlastnosti

Nižšie sú uvedené niektoré z vlastností Úľa:

  • Rovnako ako SQL má svoj vlastný deklaratívny jazyk s názvom HiveQL.
  • Má štruktúru tabuľky podobnú tabuľkám v relačnej databáze a tiež poskytuje podporu ETL (extrakt / podpora / načítanie).
  • Zaujímavou vlastnosťou je, že umožňuje prevod formátu zvnútra HIVE.

Obmedzenie alternatív úľa

Povedzme niekoľko obmedzení úľa:

  • Nie je určený pre OLTP (online spracovanie transakcií), ale podporuje OLAP (online analytické spracovanie).
  • Jedným dôležitým obmedzením je, že nepodporuje aktualizácie a maže.
  • V podregistri Hive nie sú podporované.

5 Dôležité alternatívy úľa

Ďalej budeme diskutovať o piatich dôležitých alternatívach HIVE, ktoré sú na trhu:

1. Apache Impala

Je to open-source paralelný stroj na spracovanie dotazov SQL pre údaje uložené v počítačovom klastri, na ktorom beží Apache Hadoop. Bolo to ohlásené v októbri 2012. Nižšie sú uvedené hlavné črty Apache Impala ako alternatívy k HIVE.

  • Impala je dobrá voľba pre ľudí, ktorí spúšťajú dotazy SQL na serveroch Hadoop a Apache HBase bez transformácie údajov, pretože na rozdiel od HIVE nie je potrebné ich transformovať ani presúvať.
  • Ďalším rozdielom medzi týmito dvoma je generovanie výrazov dotazov. Impala ich generuje za behu pomocou llvm, zatiaľ čo HIVE ich generuje v čase kompilácie.
  • Hive Queries má problém so studeným štartom, čo nie je prípad dotazov Impala, pretože v Impala sa démonové procesy spúšťajú v samotnom bootovacom čase vždy pripravené spracovať dotaz, vďaka ktorému sa vyhýba problému so studeným štartom.
  • Impala rozpoznáva formáty súborov Hadoop, bezpečnosť Hadoop, ovládač ODBC.
  • Hlavným USP impaly je hrubá sila paralelného spracovania. Impala je teda lepšou alternatívou, ak niekto začína nový projekt.

2. Presto DB

Presto je ďalšou alternatívou pre HIVE vyvinutú spoločnosťou facebook. Jeho USP je to, že môže dokonca dotazovať údaje z viacerých zdrojov v rámci jedného dotazu. Nižšie sú uvedené hlavné črty PrestoDB ako alternatívy k HIVE.

  • Presto je vyhľadávací stroj SQL distribuovaný v pamäti, ktorý je tiež veľmi rýchly, pretože vyhľadávací stroj Presto je rýchly a vhodný na interaktívnu analýzu.
  • USP pre Presto nad ostatnými je jeho plug and play model s rôznymi zdrojmi údajov. Vďaka tomuto modelu plug and play je spojenie otázok medzi rôznymi zdrojmi údajov s testovaním veľmi jednoduché.
  • V aplikácii Presto boli tabuľky pre malé rozmery rýchlejšie. Program Presto vyniká väčšinou ostatných distribuovaných dopytovacích strojov.
  • Program Presto nie je vhodný pre veľké spojenia, pretože nevyužíva disk a nevyužíva pamäť na spracovanie.
  • Ďalším dôležitým bodom programu presto je prideľovanie zdrojov. Má pridelenie zdrojov na základe poradia priorít.
  • Jedným z kompromisov pre dobrý výkon v aplikácii Presto je, že podpora UDF nie je k dispozícii v rámci programu Presto, v dôsledku čoho je potrebné napísať vlastnú funkciu, ktorá zvyšuje režijné náklady, pretože sa musí budovať výlučne pre program Presto a obmedzuje interoperabilitu.

3. Spark SQL

Je to modul pre štruktúrované spracovanie dát a tiež open-source. Môže tiež pôsobiť ako distribuovaný dotazovací stroj SQL a jednou z jeho jedinečných súčastí je programová abstrakcia známa ako dátové rámce. Prvýkrát bol vydaný v roku 2014 vyvinutým spoločnosťou Apache Software Foundation. Nižšie sú uvedené niektoré z hlavných čŕt Spark SQL ako alternatíva k HIVE.

  • Dobrou vecou programu Spark SQL je, že môže byť implementovaný v jazykoch Java, Scala, Python a R, zatiaľ čo HIVE môže byť implementovaný v jazyku Java.
  • V modeli primárnej databázy existuje úplná podobnosť medzi HIVE a Spark, pretože pre obidva modely primárnej databázy je Relational DBMS.
  • Podobá sa aj HIVE, pretože oba podporujú úložisko kľúč - hodnota ako ďalší databázový model.
  • Má preddefinované typy údajov, ako napríklad float a date.
  • Podporuje SQL, pretože vlastní príkazy DML a DDL.
  • Na rozdiel od HIVE, ktorý podporuje JDBC, ODBC a Thrift, Spark SQL podporuje iba JDBC a ODBC.
  • Spark SQL používa jadro iskier na ukladanie údajov do rôznych uzlov.
  • Ďalším hlavným rozdielom medzi iskrami a HIVE sú replikačné metódy: V HIVE je selektívny replikačný faktor na ukladanie redundantných údajov na viacerých uzloch, ale v Spark SQL nie je k dispozícii žiadny replikačný faktor.
  • V programe Spark SQL neexistujú žiadne prístupové práva pre používateľov, zatiaľ čo v Apache Hive máme prístupové práva pre používateľov, skupiny.
  • Nepodporuje transakčnú tabuľku a nepodporuje typ char.

4. Žralok

Je to open-source SQL query engine, ktorý je napísaný v Scale. Zaujímavou skutočnosťou Shark je namiesto toho, aby Map-Reduce použil na vykonávanie svojich dopytov, používa svoje vlastné množiny pracovných uzlov. Nižšie sú uvedené niektoré z vlastností Shark:

  • Používa klienta príkazového riadka.
  • Ponúka interoperabilitu s Hive na zdieľanie schém.
  • Poskytuje podporu pre existujúce rozšírenia úľov, ako sú UDF.

Zatiaľ to nie je príliš známe, ale poskytuje alternatívu k ÚPRE.

5. BigSQL od spoločnosti IBM

Poskytuje ju spoločnosť Big Blue (IBM). IBM má svoju vlastnú distribúciu Hadoop s názvom Big Insights. Big SQL sa preto ponúka ako jeho súčasť. Nie je to otvorený zdroj, ako ho poskytuje IBM. Niektoré z vecí, ktoré poskytujú, sú uvedené nižšie:

  • Podporujú ovládače JDBC aj OJDBC.
  • Poskytujú podporu SQL
  • Môžu byť použité na dotazovanie dát z HDFS.

Odporúčané články

Toto je sprievodca alternatívami Úľa. Tu diskutujeme o vlastnostiach, obmedzeniach a 5 dôležitých alternatívach úľa. Viac informácií nájdete aj v ďalších súvisiacich článkoch.

  1. Hadoop Alternatívy
  2. Tableau Alternatívy
  3. Alternatívy služby Google Analytics
  4. Hadoop Streaming
  5. Usporiadať úľ podľa
  6. Inštalácia úľa
  7. Dátové rámce v R

Kategórie: