Prehľad komponentov iskier

Predstavte si, že máte po ruke 1 000 úloh a veľmi málo času na ich dokončenie. Niekto vám ponúka pomoc tým, že poskytuje zdroje, ktoré vám môžu zobrať niektoré úlohy z ruky a vykonávať ich súbežne s vami, aby boli všetky úlohy dokončené včas. Že niekto je pre vás Spark v počítačovom slova zmysle. Apache Spark je open-source a distribuovaný klasterový výpočtový rámec pre Big Data a poskytuje optimalizovaný prístup na vykonávanie analytických analýz na veľkých súboroch údajov. Funguje to stokrát rýchlejšie ako Hadoop a poskytuje rôzne knižnice na rôzne účely, ako je vykonávanie operácií SQL, ML, streamovanie, spracovanie grafov atď. Nižšie uvidíme rôzne komponenty iskry podrobne.

Najlepšie komponenty iskry

V súčasnosti máme 6 komponentov v ekosystéme Spark, ktorými sú Spark Core, Spark SQL, Spark Streaming, Spark MLlib, Spark GraphX ​​a SparkR. Pozrime sa, čo robí každá z týchto zložiek.

1. Spark Core

Spark Core je, ako už názov napovedá, jadrom procesu Spark. Zaoberá sa plánovaním úloh, obnovovaním porúch, správou pamäte a operáciami vstup-výstup, atď. Ber to ako niečo podobné CPU k počítaču. Podporuje programovacie jazyky ako Java, Scala, Python a R a poskytuje rozhrania API pre jednotlivé jazyky, pomocou ktorých môžete zostaviť svoju úlohu ETL alebo vykonať analýzu. Všetky ostatné komponenty Spark majú svoje vlastné API, ktoré sú postavené na Spark Core. Vďaka možnosti paralelného spracovania a výpočtu v pamäti dokáže Spark zvládnuť akúkoľvek záťaž.

Spark Core prichádza so špeciálnou dátovou štruktúrou nazývanou RDD (Resilient Distributed Dataset), ktorá distribuuje dáta cez všetky uzly v klastri. RDD pracujú na paradigme vyhodnotenia Lazy, kde sa výpočet zapamätá a vykoná sa iba v prípade potreby. Pomáha to pri optimalizácii procesu iba výpočtom potrebných objektov.

2. Spark SQL

Ak ste pracovali s databázami, rozumiete dôležitosti SQL. Nebolo by nesmierne ohromujúce, keby rovnaký kód SQL fungoval N-krát rýchlejšie aj na väčších množinách údajov? Spark SQL vám pomáha manipulovať s údajmi na Spark pomocou SQL. Podporuje pripojenia JDBC a ODBC, ktoré vytvárajú vzťah medzi objektmi Java a existujúcimi databázami, dátovými skladmi a nástrojmi business intelligence. Spark obsahuje niečo, čo sa nazýva Dataframes, čo je štruktúrovaný zber údajov vo forme stĺpcov a riadkov.

Spark vám umožňuje pracovať na týchto údajoch pomocou SQL. Dátové rámce sú rovnocenné s relačnými tabuľkami a môžu sa zostaviť z akýchkoľvek externých databáz, štruktúrovaných súborov alebo už existujúcich RDD. Dataframes majú všetky vlastnosti RDD, napríklad nemennú, odolnú, zabudovanú v pamäti, ale navyše majú štruktúrovanú štruktúru a ľahkú prácu s ňou. Dataframe API je k dispozícii aj v programoch Scala, Python, R a Java.

3. Spark Streaming

Streamovanie údajov je technika, pri ktorej sa spracováva nepretržitý tok údajov v reálnom čase. Vyžaduje si rámec, ktorý ponúka nízku latenciu pre analýzu. Spark Streaming to poskytuje a tiež vysokú priepustnosť, odolnosť voči chybám a škálovateľné API na spracovanie údajov v reálnom čase. Získava sa na diskrétnom prúde (DStream), ktorý predstavuje prúd údajov rozdelených na malé dávky. DStream je postavený na RDD, vďaka čomu je Spark Streamovanie bezproblémové s ostatnými komponentmi iskier. Niektorí z najvýznamnejších používateľov programu Spark.

Streamovanie je Netflix, Pinterest a Uber. Spark Streaming je možné integrovať do Apache Kafka, čo je platforma na oddelenie a ukladanie do vyrovnávacej pamäte pre vstupné toky. Kafka pôsobí ako centrálny uzol pre prúdy v reálnom čase, ktoré sú spracovávané pomocou algoritmov v programe Spark Streaming.

4. Spark MLLib

Hlavnou atrakciou spoločnosti Spark je rozsiahle rozšírenie výpočtu a táto vlastnosť je najdôležitejšou požiadavkou každého projektu strojového učenia. Spark MLLib je komponent strojového učenia Spark, ktorý obsahuje algoritmy strojového učenia, ako sú klasifikácia, regresia, klastrovanie a kolaboratívne filtrovanie. Ponúka tiež priestor na extrahovanie prvkov, zmenšenie rozmerov, transformáciu atď.

Môžete tiež uložiť svoje modely a spustiť ich na väčších množinách údajov bez toho, aby ste sa museli obávať problémov s veľkosťou. Obsahuje tiež pomocné programy pre lineárnu algebru, štatistiku a spracovanie údajov. Vďaka Sparkovmu spracovaniu v pamäti, odolnosti voči chybám, škálovateľnosti a ľahkému programovaniu môžete pomocou tejto knižnice ľahko spúšťať iteračné algoritmy ML.

5. GraphX

Graph Analytics v zásade určuje vzťahy medzi objektmi v grafe, napríklad najkratšiu vzdialenosť medzi dvoma bodmi. To pomáha optimalizovať trasu. Spark GraphX ​​API pomáha pri výpočte grafov a grafov. Zjednodušuje analytickú analýzu a robí ju rýchlejšou a spoľahlivejšou. Jednou z hlavných a dobre známych aplikácií grafovej analýzy sú Mapy Google.

Zistí vzdialenosť medzi dvoma miestami a poskytne optimálny návrh trasy. Ďalším príkladom môžu byť návrhy priateľov z Facebooku. GraphX ​​pracuje s grafmi aj výpočtami. Spark ponúka celý rad grafických algoritmov, ako sú poradie stránok, pripojené komponenty, šírenie štítkov, SVD ++, pevne pripojené komponenty a počet trojuholníkov.

6. SparkR

R je najpoužívanejší štatistický jazyk, ktorý obsahuje viac ako 10 000 balíkov na rôzne účely. Využívalo API dátových rámcov, vďaka ktorým je vhodné s nimi pracovať, a tiež poskytuje výkonné vizualizácie pre vedcov údajov, aby dôkladne analyzovali svoje údaje. R však nepodporuje paralelné spracovanie a je obmedzený na množstvo pamäte dostupnej v jednom stroji. To je miesto, kde SparkR prichádza do obrazu.

Spark vyvinul balík známy ako SparkR, ktorý rieši problém škálovateľnosti R. Je založený na distribuovaných dátových rámcoch a tiež poskytuje rovnakú syntax ako distribuovaný procesor spracovania R. Spark a neprekonateľná interaktivita, balíčky a vizualizácia spoločnosti R, ktoré dávajú Data Scientists čo chcú pre svoje analýzy.

záver

Pretože Spark je univerzálny rámec, nachádza sa v širokej škále aplikácií. Spark sa vo veľkej miere používa vo väčšine veľkých dátových aplikácií kvôli svojmu výkonu a spoľahlivosti. Všetky tieto komponenty Spark sa aktualizujú o nové funkcie v každej novej verzii a uľahčujú náš život.

Odporúčané články

Toto je sprievodca komponentmi Spark. Tu diskutujeme prehľad a 6 najdôležitejších komponentov iskry s podrobným vysvetlením. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Top 5 dôležitých alternatív úľa
  2. Súčasti / nástroje Talend Open Studio
  3. Prvých 6 komponentov ekosystému IoT
  4. Čo je integrácia dát Talend s výhodami?

Kategórie: