Rozdiely medzi Spark SQL a Presto
Jednoducho povedané, je 'SQL Query Engine', pôvodne vyvinutý pre Apache Hadoop. Je to open source distribuovaný dotazovací stroj SQL určený na spúšťanie interaktívnych analytických dotazov proti množinám údajov všetkých veľkostí.
Spark SQL je distribuovaný výpočtový stroj v pamäti s vrstvou SQL na vrchole štruktúrovaných a čiastočne štruktúrovaných súborov údajov. Od spracovania v pamäti bude spracovanie v prostredí Spark SQL rýchle.
Porovnanie Head to Head medzi Spark SQL a Presto (infografika)
Nižšie je porovnanie najlepších 7 medzi Spark SQL vs Presto
Kľúčové rozdiely medzi programom Spark SQL a programom Presto
Nižšie je uvedený zoznam kľúčových rozdielov medzi programami Presto a Spark SQL
- Apache Spark predstavuje programovací modul na spracovanie štruktúrovaných údajov s názvom Spark SQL. Spark SQL obsahuje abstrakciu kódovania nazvanú Data Frame, ktorá môže fungovať ako distribuovaný dotazovací stroj SQL.
- Motívom začiatku programu Presto bolo umožniť interaktívnu analýzu a prístupy k rýchlosti obchodných skladov údajov s možnosťou zväčšovania veľkosti organizácií zodpovedajúcich Facebooku.
- Zatiaľ čo Spark SQL je komponentom nad jadrom Spark Core, ktorý zavádza novú abstrakciu údajov s názvom SchemaRDD (Resilient Distributed Datasets), poskytuje podporu pre štruktúrované / pološtrukturované údaje.
- Program Presto bol navrhnutý ako alternatíva k nástrojom, ktoré zisťujú údaje HDFS pomocou úloh MapReduce, ako sú Hive alebo Pig, ale Presto sa neobmedzuje iba na HDFS.
- Spark SQL nasleduje spracovanie v pamäti, čo zvyšuje rýchlosť spracovania. Spark je navrhnutý na spracovanie širokej škály pracovných úloh, ako sú dávkové dotazy, iteračné algoritmy, interaktívne dotazy, streaming atď.
- Program Presto je schopný vykonávať federatívne dotazy. Nižšie je uvedený príklad predbežných federovaných dopytov
Predpokladajme akýkoľvek RDBMS s ukážkou tabuľky1
A ÚP s ukážkou tabuľky2,
'Testdb' je databáza v úli aj v MYSQL. Pomocou programu Presto môžeme vyhodnotiť údaje pomocou jediného dotazu, akonáhle sú ich konektory správne nakonfigurované tak, ako je to zobrazené nižšie -
presto> hive.Testdb.sample2
Funkcia (vyberte / Zoskupiť podľa ..etc)> mysql.Testdb.sample1
- Architektúra Spark SQL pozostáva z Spark SQL, Schema RDD a Data Frame
- Dátový rámec je súbor údajov; údaje sú usporiadané do pomenovaných stĺpcov. Technicky je to rovnaké ako tabuľky relačných databáz.
- Schéma RDD: Spark Core obsahuje špeciálnu štruktúru údajov s názvom RDD. Spark SQL pracuje na schémach, tabuľkách a záznamoch. Užívateľ preto môže použiť schému RDD ako dočasnú tabuľku. Tento užívateľ tak môže nazývať túto schému RDD ako dátový rámec
- Schopnosti dátového rámca: Dátový rámec spracúva údaje vo veľkosti kilobajtov do Petabytov v jednom klastri uzlov na klastre viacerých uzlov,
- Dátový rámec podporuje rôzne dátové formáty (CSV, elasticsearch, Cassandra atď.) A úložné systémy (HDFS, tabuľky HIVE, MySQL, atď.). Je možné ho integrovať do všetkých nástrojov a rámcov veľkých dát cez Spark-Core a poskytuje API pre jazyky, ako sú Programovanie v jazyku Python, Java, Scala a R.
- Zatiaľ čo Presto je distribuovaný motor, pracuje na nastavení klastra. Architektúra Presto je ľahko pochopiteľná a rozšíriteľná. Klient Presto (CLI) predkladá príkazy SQL koordinátorovi hlavného démona, ktorý riadi spracovanie.
- Spoločnosti používajúce program Presto: Facebook, Netflix, Airbnd, Dropbox atď.
- Prípady použitia Apache Spark nájdete v odvetviach, ako sú financie, maloobchod, zdravotníctvo a cestovanie atď. Mnoho webových stránok v oblasti elektronického obchodu, ako sú eBay, Alibaba, Pinterest, používajú program Spark SQL na analýzu stoviek petabytov údajov na svojej platforme elektronického obchodu.
Porovnanie tabuľky Spark SQL vs Presto
Nižšie je uvedené najvyššie porovnanie medzi verziou SQL a programom Presto
Základ porovnania medzi SQL verziou Presto | Presto | Spark SQL |
Ekosystémy / platformy | Hadoop, spracovanie veľkých dát atď | Spark Framework, spracovanie veľkých dát atď |
účel | Program Presto je navrhnutý na spúšťanie otázok SQL nad veľkými dátami (obrovské pracovné zaťaženie). Bol navrhnutý Facebookom na spracovanie ich obrovského pracovného zaťaženia. | Spark SQL je jednou zo súčastí Apache Spark Core. Spark Core je základný výkonný motor pre iskrovú platformu |
Nastaviť |
|
|
Schopnosti / Vlastnosti | Program Presto umožňuje dotazovanie údajov na mnohých zdrojoch údajov; Napríklad, Data môžu bývať v dátových skladoch: Hive, Cassandra, RDBMS a v niektorých ďalších vlastníckych skladoch údajov. | Spark SQL poskytuje flexibilitu pri integrácii s inými zdrojmi údajov pomocou dátových rámcov a konektorov JDBC. |
Podpora konektorov | Presto podporuje zásuvné konektory. Tieto konektory poskytujú súbory údajov pre dotazy.
Nižšie je uvedených niekoľko už existujúcich konektorov dostupných v programe Presto, zatiaľ čo program Presto umožňuje pripojenie aj pomocou vlastných konektorov.
| Rozhranie dátového rámca umožňuje, aby na zdroji Spark SQL fungovali rôzne zdroje údajov. Spark SQL obsahuje serverový režim s priemyselne štandardným pripojením JDBC a ODBC. |
Federované dotazy | Program Presto podporuje Federované dotazy. Program Presto môže byť nakonfigurovaný na pripojenie k rôznym databázam a po nakonfigurovaní; jeho CLI sa dá použiť na spustenie „federatívnych dopytov“. V jednom dotaze Presto môže užívateľ kombinovať údaje z viacerých zdrojov údajov a spustiť dotaz. | Spark SQL prichádza s vstavanou funkciou na pripojenie k iným databázam pomocou JDBC, ktoré je „JDBC do iných databáz“, pomáha pri federácii. Spark vytvára dátové rámce pomocou funkcie databázy JDBC: pomocou škálovania API Scala / Python, ale tiež pracuje priamo so serverom Spark SQL Thrift a umožňuje používateľom bez námahy vyhľadávať externé tabuľky JDBC ako iné tabuľky podregistrov. |
Kto používa? | Analytici údajov, dátoví inžinieri, vedci údajov atď | Analytici údajov, dátoví inžinieri, vedci údajov, vývojári iskier atď |
Závery -Spark SQL vs Presto
Spark SQL a Presto, oba sú distribuované motory SQL dostupné na trhu.
Program Presto je veľmi užitočný, pokiaľ ide o dotazy typu BI, a Spark SQL vedie vo veľkých analytických dotazoch výkonnostne. Pri porovnávaní s ohľadom na konfiguráciu bolo nastavenie Presto jednoduché ako Spark SQL. Spark SQL aj Presto stoja na trhu rovnako a riešia rôzne druhy obchodných problémov.
Odporúčaný článok
Bol to sprievodca programom Spark SQL verzus Presto, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Ďalšie informácie nájdete aj v nasledujúcich článkoch -
- Apache Spark vs Apache Flink - 8 užitočných vecí, ktoré potrebujete vedieť
- Apache Hive vs Apache Spark SQL - 13 úžasných rozdielov
- Najlepšie 6 porovnaní medzi Hadoop Vs SQL
- Hadoop vs Teradata - cenné rozdiely