Nainštalujte iskru Kompletný sprievodca inštaláciou iskry

Obsah:

Anonim

Ako nainštalovať iskru?

Spark je otvorený zdrojový rámec pre spúšťanie analytických aplikácií. Je to stroj na spracovanie údajov hostený u Apache Software Foundation nezávislého od dodávateľa, ktorý pracuje na veľkých množinách údajov alebo veľkých údajoch. Je to univerzálny klastrový počítačový systém, ktorý poskytuje API na vysokej úrovni v Scala, Python, Java a R. Bol vyvinutý na prekonanie obmedzení v paradigme Hadoop v MapReduce. Vedci údajov sa domnievajú, že program Spark sa spúšťa stokrát rýchlejšie ako MapReduce, pretože dokáže ukladať údaje do pamäte cache, zatiaľ čo MapReduce funguje viac čítaním a zápisom na disky. Vykonáva spracovanie v pamäti, vďaka čomu je výkonnejší a rýchlejší.

Spark nemá vlastný systém súborov. Spracováva údaje z rôznych zdrojov údajov, ako sú napríklad Hadoop Distributed File System (HDFS), Amazon S3 systém, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Môže bežať na Hadoop YARN (Ešte ďalší prostriedok na vyjednávanie zdrojov), na Mesose, na EC2, na Kubernetes alebo pomocou samostatného klastrového režimu. Využíva RDD (Resilient Distributed Dataset) na delegovanie pracovných za ažení na jednotlivé uzly, ktoré podporujú iteratívne aplikácie. Vďaka RDD je programovanie v porovnaní s Hadoop ľahké.

Spark pozostáva z rôznych komponentov nazývaných ako komponenty Spark Ecosystem Components.

  • Spark Core: Je to základ aplikácie Spark, od ktorej sú ostatné komponenty priamo závislé. Poskytuje platformu pre širokú škálu aplikácií, ako sú plánovanie, dispečing distribuovaných úloh, pri spracovaní pamäte a odkazovaní na dáta.
  • Spark Streaming: Je to komponent, ktorý pracuje na živých dátových tokoch, aby poskytoval analýzy v reálnom čase. Živé údaje sa prijímajú do samostatných jednotiek nazývaných šarže, ktoré sa vykonávajú na jadre Spark Core.
  • Spark SQL: Je to komponent, ktorý pracuje nad jadrom Spark, aby spúšťal dotazy SQL na štruktúrované alebo čiastočne štruktúrované údaje. Dátový rámec je spôsob interakcie s programom Spark SQL.
  • GraphX: Je to stroj na výpočet grafov alebo rámec, ktorý umožňuje spracovanie grafových údajov. Poskytuje rôzne algoritmy grafov na spustenie v programe Spark.
  • MLlib: Obsahuje algoritmy strojového učenia, ktoré poskytujú rámec strojového učenia v distribuovanom prostredí založenom na pamäti. Vykonáva iteratívne algoritmy efektívne vďaka schopnosti spracovania údajov v pamäti.
  • SparkR: Spark poskytuje balík R na spustenie alebo analýzu súborov údajov pomocou shellu R.

Existujú tri spôsoby, ako nainštalovať alebo nasadiť iskru do vašich systémov:

  1. Samostatný režim v Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark in MapReduce)

Pozrime sa na nasadenie v samostatnom režime.

Samostatný spôsob nasadenia iskier:

Krok 1: Aktualizujte index balíkov

Je potrebné aktualizovať všetky súčasné balíčky vo vašom počítači.

Použite príkaz : $ sudo apt-get update

Krok 2: Inštalácia súpravy Java Development Kit (JDK)

To nainštaluje JDK do vášho počítača a pomôže vám spustiť Java aplikácie.

Krok 3: Skontrolujte, či je Java správne nainštalovaná

Java je nevyhnutným predpokladom na použitie alebo spustenie aplikácií Apache Spark.

Použite príkaz : $ java –version

Tento obrázok ukazuje verziu javy a zaisťuje prítomnosť javy v počítači.

Krok 4: Nainštalujte Scala do svojho počítača

Keďže Spark je napísaný v mierke, je potrebné nainštalovať mierku, aby na vašom stroji fungovala iskra.

Použite príkaz: $ sudo apt-get install scala

Krok 5: Skontrolujte, či je Scala správne nainštalovaná

Tým sa zabezpečí úspešná inštalácia mierky na váš systém.

Použite príkaz : $ scala –version

Krok 6: Stiahnite si Apache Spark

Stiahnite si Apache Spark podľa vašej verzie Hadoop z https://spark.apache.org/downloads.html

Keď prejdete na vyššie uvedený odkaz, zobrazí sa okno.

Krok 7: Vyberte príslušnú verziu podľa vašej verzie Hadoop a kliknite na odkaz označený.

Zobrazí sa ďalšie okno.

Krok 8: Kliknite na odkaz označený a Apache iskra bude stiahnutá do vášho systému.

Skontrolujte, či je súbor .tar.gz k dispozícii v priečinku preberania.

Krok 9: Nainštalujte program Apache Spark

Na inštaláciu programu Spark je potrebné extrahovať súbor dechtu.

Použite príkaz: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Verziu uvedenú v príkaze musíte zmeniť podľa stiahnutej verzie. V tomto sme stiahli verziu iskra-2.4.0-bin-hadoop2.7.

Krok 10: Premenná prostredia nastavenia pre Apache Spark

Použite príkaz: $ source ~ / .bashrc

Pridajte riadok : export PATH = $ PATH: / usr / local / spark / bin

Krok 11: Overte inštaláciu Apache Spark

Použite príkaz : $ spark-shell

Ak bola inštalácia úspešná, vytvorí sa nasledujúci výstup.

Znamená to úspešnú inštaláciu Apache Spark na vašom počítači a Apache Spark sa spustí v Scale.

Nasadenie iskry na Hadoop YARN:

Existujú dva režimy nasadenia Apache Spark na Hadoop YARN.

  1. Klastrový režim: V tomto režime YARN na klastri riadi ovládač iskier, ktorý beží vo vnútri hlavného procesu aplikácie. Po spustení aplikácie môže klient ísť.
  2. Klientsky režim: V tomto režime sú prostriedky požadované od YARN aplikačným masterom a Spark ovládač beží v klientskom procese.

Ak chcete nasadiť aplikáciu Spark v režime klastra, použite príkaz:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Vyššie uvedený príkaz spustí klientsky program YARN, ktorý spustí predvolený aplikačný kmeň.

Ak chcete nasadiť aplikáciu Spark v klientskom režime, použite príkaz:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

V klientskom režime môžete spustiť iskru pomocou príkazu:

$ spark-shell –master yarn –deploy-mode client

Tipy a triky na inštaláciu iskry:

  1. Pred inštaláciou iskry skontrolujte, či je na vašom počítači nainštalovaná Java.
  2. Ak používate jazyk Scala, pred použitím Apache Spark sa uistite, že je už nainštalovaná škála.
  3. Môžete použiť Python aj namiesto Scaly na programovanie v programe Spark, ale musí byť tiež predinštalovaný ako Scala.
  4. Apache Spark môžete spustiť aj na Windows, ale odporúča sa vytvoriť virtuálny stroj a nainštalovať Ubuntu pomocou Oracle Virtual Box alebo VMWare Player .
  5. Spark môže bežať bez systému Hadoop (tj samostatný režim), ale ak je potrebné nastavenie viacerých uzlov, sú potrebné manažéri zdrojov, ako sú YARN alebo Mesos.
  6. Pri používaní YARN nie je potrebné inštalovať Spark na všetky tri uzly. Apache Spark musíte nainštalovať iba na jeden uzol.
  7. Ak používate YARN, ak ste v rovnakej lokálnej sieti s klastrom, môžete použiť klientsky režim, zatiaľ čo ak ste ďaleko, môžete použiť klastrový režim.

Odporúčané články - Inštalácia iskier

Toto bola príručka o tom, ako nainštalovať program Spark. Tu sme videli, ako nasadiť Apache Spark v samostatnom režime a na vrchole manažéra zdrojov YARN. Tiež uvádzame niektoré tipy a triky pre bezproblémovú inštaláciu Spark. Viac informácií nájdete aj v nasledujúcom článku -

  1. Ako používať príkazy Spark
  2. Kariéra v spoločnosti Spark - Musíte sa snažiť
  3. Rozdiely medzi Splunk a Spark
  4. Spark Rozhovor Otázky a odpovede
  5. Výhody Spark Streaming
  6. Typy pripojení v programe Spark SQL (príklady)