Úvod do architektúry Apache Spark

Tento článok definuje koncepty architektúry Apache Spark a jej komponenty. Považuje sa za špičkové spracovanie údajov v Apache Software Foundation. Spark je nakoniec považovaná za ďalšiu možnosť Hadoop a Map Reduce.

Spark je open-source architektúra s dobre definovanými komponentami, ktoré pomáhajú analyzovať veľké množstvo údajov a pracujú pre distribuované výpočty. Spark je napísaný v Scale s povolenými funkciami, ako sú API, R a obohatil sadu knižníc, ktoré uľahčujú spracovanie údajov. Apache Spark má svoj vlastný výpočet klastra pre rýchlejšiu dostupnosť a spúšťa sa na rôznych platformách.

Apache Spark má širokú škálu funkcií, ako je zrýchlenie zrýchlenia v pamäti, prispôsobenie viacerým programovacím jazykom, vylepšené techniky ukladania do vyrovnávacej pamäte a podpora SQL dotazov, strojové učenie. Beží na platformách, ako sú operačné systémy Microsoft Windows a Linux. Ich nasadenie hovorí, že by mohli bežať aj na jednom stroji a klastri.

Apache Spark Architecture

Architektúra iskry Apache obsahuje voľne spojené komponenty. Spark zvažuje hlavný / pracovný proces v architektúre a všetky úlohy fungujú na vrchole distribuovaného systému súborov Hadoop. Apache iskra používa Hadoop na spracovanie a ukladanie dát. Sú považované za motor na spracovanie údajov v pamäti a ich aplikácie bežia na klastroch Hadoop rýchlejšie ako pamäť. Spracovanie v pamäti zabraňuje zlyhaniu diskových vstupov / výstupov. Spark umožňuje heterogénnej úlohe pracovať s rovnakými údajmi. Spark rozdeľuje svoje údaje na oddiely, veľkosť rozdelených oddielov závisí od daného zdroja údajov.

Nižšie sú uvedené dve hlavné implementácie Apache Spark Architecture:

1. Odolné distribuované množiny údajov (RDD)

Zodpovedá za poskytovanie rozhrania API na riadenie vyrovnávacej pamäte a vytváranie oddielov. Je to dôležitá sada nástrojov na výpočet údajov. Pomáha pri prepočítavaní prvkov v prípade zlyhania a považuje sa za nemenné údaje a slúži ako rozhranie. Transformácie a akcie sú dve operácie, ktoré vykonáva RDD.

2. Riadený acyklický graf (DAG)

Tvorí sekvenčné spojenie z jedného uzla do druhého. Ovládač prevádza program na DAG pre každú úlohu. Ekosystém Apache Spark má rôzne komponenty, ako je jadro API, Spark SQL, streamovanie a spracovanie v reálnom čase, MLIB a Graph X. Niektoré terminológie, ktoré sa tu treba naučiť, sú shell Spark, ktorý pomáha pri čítaní veľkých objemov údajov, kontext Spark - zrušiť, spustiť úlohu, úlohu (prácu), úlohu (výpočet)

Súčasti architektúry iskier Apache

Štyri hlavné komponenty Spark sú uvedené nižšie a je potrebné im porozumieť pre celý rámec.

  1. Ovládač iskier
  2. exekútori
  3. Správca klastrov
  4. Uzly pracovníkov

Nasledujúci diagram zobrazuje architektúru a komponenty iskry:

Obr: Samostatný režim Apache Spark Architecture

Tok vykonávania sa začína takto:

1. Ovládač iskier

Vodič je zodpovedný za koordináciu úloh a pracovníkov pre riadenie. Je to proces aplikácie JVM a považuje sa za hlavný uzol. Vodič rozdeľuje iskru na úlohy a plány, ktoré má vykonať na exekútoroch v zoskupeniach. V diagrame vyvolávajú programy ovládača hlavnú aplikáciu a vytvárajú kontext iskry (funguje ako brána), kolektívne monitorujú prácu pracujúcu v danom klastri a pripájajú sa k klastru iskier. Všetky funkcie a príkazy sa vykonávajú v kontexte iskier.

Kontext iskier je vstup pre každú reláciu. Ovládač iskier má viac komponentov na vykonávanie úloh v klastroch. Klastre iskier sa pripájajú k rôznym typom klastrových manažérov a súčasne kontext získava pracovné uzly na vykonávanie a ukladanie údajov. V klastri, keď vykonávame proces, je ich úloha rozdelená do etáp s etapami zisku na naplánované úlohy.

2. Exekútor

Zodpovedá za vykonanie úlohy a ukladá údaje do vyrovnávacej pamäte. Vo veľmi počiatočnej fáze sa exekútori registrujú u vodičov. Tento vykonávateľ má množstvo časových úsekov na súčasné spustenie aplikácie. Exekútori vykonávajú proces čítania a zápisu na externých zdrojoch. Exekútor spustí úlohu, keď načíta údaje a ak sú odstránené v pohotovostnom režime. Exekútor je povolený dynamickým prideľovaním a sú neustále zahrnuté a vylúčené v závislosti od trvania. Počas vykonávania úloh sú vykonávatelia monitorovaní programom vodiča. Exekútori vykonávajú úlohu používateľov v procese Java.

3. Správca klastrov

Pomáha pri správe klastrov, ktoré majú jedného pána a počet otrokov. Existujú dva typy manažérov klastrov, napríklad YARN, a samostatne sú manažovaní správcami prostriedkov a uzlom. práca s klastrami na samostatnom serveri vyžaduje ako ich úlohy Spark Master a pracovník uzol. Manažér klastra je zodpovedný za pridelenie zdrojov a vykonanie úlohy,

4. Uzly pracovníkov

Sú to otroky; hlavnou zodpovednosťou je vykonávanie úloh a ich výstup sa vracia späť do kontextu iskier. Komunikujú s hlavným uzlom o dostupnosti zdrojov. Kontext iskry to vykoná a vydá pracovným uzlom. Každému uzlu pracovníka je pridelený jeden pracovník na iskri na monitorovanie. Výpočty robia veľmi jednoducho zväčšením počtu pracovných uzlov (1 až n počtu pracovníkov), takže všetky úlohy sa vykonávajú paralelne rozdelením úlohy na oddiely na viacerých systémoch. Úloha druhého prvku sa považuje za pracovnú jednotku a je priradená jednému vykonávateľovi, pre každú iskru oddielu sa spustí jedna úloha.

záver

Preto pochopením architektúry Apache Spark to znamená, ako jednoduchým spôsobom implementovať veľké dáta. Nakoniec sme sa naučili ich prístupnosť a úlohy komponentov, čo je veľmi prospešné pre klastrovú výpočtovú techniku ​​a technológiu veľkých dát. Spark ľahšie vypočíta požadované výsledky a uprednostňuje dávkové spracovanie.

Charakteristické vlastnosti programu Spark, ako sú súbory údajov a dátové rámce, pomáhajú optimalizovať kód používateľov. Dôležitá vlastnosť, ako je motor SQL, zvyšuje rýchlosť vykonávania a robí tento softvér univerzálnym. Preto sme videli, že iskrové aplikácie bežia lokálne alebo sú distribuované v klastri. Apache Spark je považovaný za skvelý doplnok v širokej škále priemyselných odvetví, ako sú veľké dáta. Aby som to zhrnul, iskra pomáha pri riešení vysokých výpočtových úloh.

Odporúčané články

Toto je sprievodca architektúrou Apache Spark Architecture. Tu diskutujeme Úvod do architektúry Apache Spark spolu s komponentmi a blokovým diagramom Apache Spark. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Príkazy Spark Shell
  2. Ekosystém Apache Hadoop
  3. Architektúra veľkých dát
  4. Čo je Apache

Kategórie: