Nainštalujte iskru Kompletný sprievodca inštaláciou iskry

Ako nainštalovať iskru?

Spark je otvorený zdrojový rámec pre spúšťanie analytických aplikácií. Je to stroj na spracovanie údajov hostený u Apache Software Foundation nezávislého od dodávateľa, ktorý pracuje na veľkých množinách údajov alebo veľkých údajoch. Je to univerzálny klastrový počítačový systém, ktorý poskytuje API na vysokej úrovni v Scala, Python, Java a R. Bol vyvinutý na prekonanie obmedzení v paradigme Hadoop v MapReduce. Vedci údajov sa domnievajú, že program Spark sa spúšťa stokrát rýchlejšie ako MapReduce, pretože dokáže ukladať údaje do pamäte cache, zatiaľ čo MapReduce funguje viac čítaním a zápisom na disky. Vykonáva spracovanie v pamäti, vďaka čomu je výkonnejší a rýchlejší.

Spark nemá vlastný systém súborov. Spracováva údaje z rôznych zdrojov údajov, ako sú napríklad Hadoop Distributed File System (HDFS), Amazon S3 systém, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Môže bežať na Hadoop YARN (Ešte ďalší prostriedok na vyjednávanie zdrojov), na Mesose, na EC2, na Kubernetes alebo pomocou samostatného klastrového režimu. Využíva RDD (Resilient Distributed Dataset) na delegovanie pracovných za ažení na jednotlivé uzly, ktoré podporujú iteratívne aplikácie. Vďaka RDD je programovanie v porovnaní s Hadoop ľahké.

Spark pozostáva z rôznych komponentov nazývaných ako komponenty Spark Ecosystem Components.

Spark Core: Je to základ aplikácie Spark, od ktorej sú ostatné komponenty priamo závislé. Poskytuje platformu pre širokú škálu aplikácií, ako sú plánovanie, dispečing distribuovaných úloh, pri spracovaní pamäte a odkazovaní na dáta.
Spark Streaming: Je to komponent, ktorý pracuje na živých dátových tokoch, aby poskytoval analýzy v reálnom čase. Živé údaje sa prijímajú do samostatných jednotiek nazývaných šarže, ktoré sa vykonávajú na jadre Spark Core.
Spark SQL: Je to komponent, ktorý pracuje nad jadrom Spark, aby spúšťal dotazy SQL na štruktúrované alebo čiastočne štruktúrované údaje. Dátový rámec je spôsob interakcie s programom Spark SQL.
GraphX: Je to stroj na výpočet grafov alebo rámec, ktorý umožňuje spracovanie grafových údajov. Poskytuje rôzne algoritmy grafov na spustenie v programe Spark.
MLlib: Obsahuje algoritmy strojového učenia, ktoré poskytujú rámec strojového učenia v distribuovanom prostredí založenom na pamäti. Vykonáva iteratívne algoritmy efektívne vďaka schopnosti spracovania údajov v pamäti.
SparkR: Spark poskytuje balík R na spustenie alebo analýzu súborov údajov pomocou shellu R.

Existujú tri spôsoby, ako nainštalovať alebo nasadiť iskru do vašich systémov:

Samostatný režim v Apache Spark
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

Pozrime sa na nasadenie v samostatnom režime.

Samostatný spôsob nasadenia iskier:

Krok 1: Aktualizujte index balíkov

Je potrebné aktualizovať všetky súčasné balíčky vo vašom počítači.

Použite príkaz : $ sudo apt-get update

Krok 2: Inštalácia súpravy Java Development Kit (JDK)

To nainštaluje JDK do vášho počítača a pomôže vám spustiť Java aplikácie.

Krok 3: Skontrolujte, či je Java správne nainštalovaná

Java je nevyhnutným predpokladom na použitie alebo spustenie aplikácií Apache Spark.

Použite príkaz : $ java –version

Tento obrázok ukazuje verziu javy a zaisťuje prítomnosť javy v počítači.

Krok 4: Nainštalujte Scala do svojho počítača

Keďže Spark je napísaný v mierke, je potrebné nainštalovať mierku, aby na vašom stroji fungovala iskra.

Použite príkaz: $ sudo apt-get install scala

Krok 5: Skontrolujte, či je Scala správne nainštalovaná

Tým sa zabezpečí úspešná inštalácia mierky na váš systém.

Použite príkaz : $ scala –version

Krok 6: Stiahnite si Apache Spark

Stiahnite si Apache Spark podľa vašej verzie Hadoop z https://spark.apache.org/downloads.html

Keď prejdete na vyššie uvedený odkaz, zobrazí sa okno.

Krok 7: Vyberte príslušnú verziu podľa vašej verzie Hadoop a kliknite na odkaz označený.

Zobrazí sa ďalšie okno.

Krok 8: Kliknite na odkaz označený a Apache iskra bude stiahnutá do vášho systému.

Skontrolujte, či je súbor .tar.gz k dispozícii v priečinku preberania.

Krok 9: Nainštalujte program Apache Spark

Na inštaláciu programu Spark je potrebné extrahovať súbor dechtu.

Použite príkaz: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Verziu uvedenú v príkaze musíte zmeniť podľa stiahnutej verzie. V tomto sme stiahli verziu iskra-2.4.0-bin-hadoop2.7.

Krok 10: Premenná prostredia nastavenia pre Apache Spark

Použite príkaz: $ source ~ / .bashrc

Pridajte riadok : export PATH = $ PATH: / usr / local / spark / bin

Krok 11: Overte inštaláciu Apache Spark

Použite príkaz : $ spark-shell

Ak bola inštalácia úspešná, vytvorí sa nasledujúci výstup.

Znamená to úspešnú inštaláciu Apache Spark na vašom počítači a Apache Spark sa spustí v Scale.

Nasadenie iskry na Hadoop YARN:

Existujú dva režimy nasadenia Apache Spark na Hadoop YARN.

Klastrový režim: V tomto režime YARN na klastri riadi ovládač iskier, ktorý beží vo vnútri hlavného procesu aplikácie. Po spustení aplikácie môže klient ísť.
Klientsky režim: V tomto režime sú prostriedky požadované od YARN aplikačným masterom a Spark ovládač beží v klientskom procese.

Ak chcete nasadiť aplikáciu Spark v režime klastra, použite príkaz:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Vyššie uvedený príkaz spustí klientsky program YARN, ktorý spustí predvolený aplikačný kmeň.

Ak chcete nasadiť aplikáciu Spark v klientskom režime, použite príkaz:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

V klientskom režime môžete spustiť iskru pomocou príkazu:

$ spark-shell –master yarn –deploy-mode client

Tipy a triky na inštaláciu iskry:

Pred inštaláciou iskry skontrolujte, či je na vašom počítači nainštalovaná Java.
Ak používate jazyk Scala, pred použitím Apache Spark sa uistite, že je už nainštalovaná škála.
Môžete použiť Python aj namiesto Scaly na programovanie v programe Spark, ale musí byť tiež predinštalovaný ako Scala.
Apache Spark môžete spustiť aj na Windows, ale odporúča sa vytvoriť virtuálny stroj a nainštalovať Ubuntu pomocou Oracle Virtual Box alebo VMWare Player .
Spark môže bežať bez systému Hadoop (tj samostatný režim), ale ak je potrebné nastavenie viacerých uzlov, sú potrebné manažéri zdrojov, ako sú YARN alebo Mesos.
Pri používaní YARN nie je potrebné inštalovať Spark na všetky tri uzly. Apache Spark musíte nainštalovať iba na jeden uzol.
Ak používate YARN, ak ste v rovnakej lokálnej sieti s klastrom, môžete použiť klientsky režim, zatiaľ čo ak ste ďaleko, môžete použiť klastrový režim.

Odporúčané články - Inštalácia iskier

Toto bola príručka o tom, ako nainštalovať program Spark. Tu sme videli, ako nasadiť Apache Spark v samostatnom režime a na vrchole manažéra zdrojov YARN. Tiež uvádzame niektoré tipy a triky pre bezproblémovú inštaláciu Spark. Viac informácií nájdete aj v nasledujúcom článku -

Ako používať príkazy Spark
Kariéra v spoločnosti Spark - Musíte sa snažiť
Rozdiely medzi Splunk a Spark
Spark Rozhovor Otázky a odpovede
Výhody Spark Streaming
Typy pripojení v programe Spark SQL (príklady)

Nainštalujte iskru Kompletný sprievodca inštaláciou iskry

Obsah:

Ako nainštalovať iskru?

Spark pozostáva z rôznych komponentov nazývaných ako komponenty Spark Ecosystem Components.

Existujú tri spôsoby, ako nainštalovať alebo nasadiť iskru do vašich systémov:

Samostatný spôsob nasadenia iskier:

Krok 1: Aktualizujte index balíkov

Krok 2: Inštalácia súpravy Java Development Kit (JDK)

Krok 3: Skontrolujte, či je Java správne nainštalovaná

Krok 4: Nainštalujte Scala do svojho počítača

Krok 5: Skontrolujte, či je Scala správne nainštalovaná

Krok 6: Stiahnite si Apache Spark

Krok 7: Vyberte príslušnú verziu podľa vašej verzie Hadoop a kliknite na odkaz označený.

Krok 8: Kliknite na odkaz označený a Apache iskra bude stiahnutá do vášho systému.

Krok 9: Nainštalujte program Apache Spark

Krok 10: Premenná prostredia nastavenia pre Apache Spark

Krok 11: Overte inštaláciu Apache Spark

Nasadenie iskry na Hadoop YARN:

Tipy a triky na inštaláciu iskry:

Odporúčané články - Inštalácia iskier

Príklady koláčového grafu Typy koláčových grafov v Exceli s príkladmi

Výsečový graf v Exceli (použitia, typy, príklady) Ako vytvoriť koláčový graf?

Plastové peniaze - ich technický a menový význam eduCBA

Kontingenčná tabuľka v Exceli (príklady) Ako vytvoriť kontingenčnú tabuľku?

Top 10 otázok a odpovedí na rozhovor s PLC (aktualizované pre rok 2019)

Java vývoj aplikácií Komplexný sprievodca (Úžasné teórie)

Java Boolean - Typy logickej hodnoty Java Logická operácia

Java kryptografia Implementujúci poskytovateľ pre kryptografiu Java

Najčastejšie otázky a odpovede týkajúce sa rozhovoru pre vývojárov Java 7 boli aktualizované na rok 2019

Top 10 otázok a odpovedí na Java EE Interview (aktualizované pre rok 2019)

Vzorec nákladov na výrobok Kalkulačka (príklady so šablónou programu Excel)

Proces pracovného pohovoru Úžasných 20 tipov na spracovanie pracovného pohovoru

Tlač v Exceli (príklady) Ako nastaviť vlastnosti tlače v Exceli?

Tlač Array v Jave - Techniky s 8 rôznymi metódami a príkladmi

Prečo by som mal ísť na PRM (Professional Risk Manager)? - Osnovy výhod a skúšok