Spark DataFrame - Rôzne operácie DataFrame s príkladom

Úvod do súboru Spark DataFrame

O dátovom rámci iskry sa dá povedať, že ide o distribuovaný zber údajov, ktorý je usporiadaný do pomenovaných stĺpcov a ktorý sa tiež používa na zabezpečenie operácií, ako je filtrovanie, výpočet agregácií, zoskupovanie a tiež sa môže použiť s programom Spark SQL. Dátové rámce môžu byť vytvorené použitím štruktúrovaných dátových súborov, spolu s existujúcimi RDD, externými databázami a tabuľkami Hive. V zásade sa nazýva abstrakčná vrstva, ktorá je postavená na vrchole RDD, a za ňou nasleduje aj dataset API, ktorý bol zavedený v novších verziách Spark (2.0 +). Navyše, súbory údajov neboli zavedené v Pysparku, ale iba v prípade Scala so Sparkom, ale to neplatilo v prípade Dataframes. Dátové rámce, ktoré sa bežne nazývajú DF, sú logické stĺpcové formáty, ktoré uľahčujú a uľahčujú prácu s RDD, rovnako využívajú rovnaké funkcie ako RDD. Ak hovoríte viac na koncepčnej úrovni, je to ekvivalentné relačným tabuľkám spolu s dobrými funkciami a technikami optimalizácie.

Ako vytvoriť DataFrame?

Dátový rámec sa všeobecne vytvára ktoroukoľvek z uvedených metód. Môže sa vytvoriť pomocou tabuliek Hive, externých databáz, štruktúrovaných dátových súborov alebo dokonca v prípade existujúcich RDD. Všetky tieto spôsoby môžu vytvoriť tieto pomenované stĺpce známe ako Dataframes používané na spracovanie v Apache Spark. Použitím aplikácií SQLContext alebo SparkSession sa dajú použiť na vytvorenie dátových mien.

Spark DataFrames Operácie

V programe Spark je dátový rámec distribúcia a zhromažďovanie organizovanej formy údajov do pomenovaných stĺpcov, čo je ekvivalentné relačnej databáze alebo schéme alebo dátovému rámci v jazyku, ako je R alebo python, ale spolu s bohatšou úrovňou optimalizácie. na použitie. Používa sa na poskytnutie špecifického druhu domény jazyka, ktorý by sa mohol použiť na manipuláciu so štruktúrovanými údajmi.

Nižšie sú uvedené niektoré základné operácie spracovania štruktúrovaných údajov pomocou Dataframes.

1. Čítanie dokumentu typu: JSON: Využívame príkaz sqlContext.read.json.

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:
val dfs= sqlContext.read.json(“student.json”)

Výstup: V tomto prípade bude výstupom to, že názvy polí sa automaticky prevezmú zo súboru student.json.

2. Zobrazenie údajov: Na zobrazenie údajov v dátových rámcoch Spark budete musieť použiť príkaz:
dfs.show ()

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Výstup: Údaje o študentovi sa zobrazia v tabuľkovom formáte.

3. Použitie metódy printSchema: Ak máte záujem vidieť štruktúru, tj schému dátového rámca, použite nasledujúci príkaz: dfs.printSchema ()

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Výstup: Štruktúra alebo schéma sa vám zobrazí

4. Použite metódu select: Aby ste mohli použiť metódu select, nasledujúci príkaz sa použije na získanie mien a stĺpcov zo zoznamu dátových rámcov.
dfs.select ( "column-name"). zobraziť ()

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Výstup: Zobrazia sa hodnoty stĺpca názvu.

5. Použitie vekového filtra: Nasledujúci príkaz sa používa na nájdenie okruhu študentov, ktorých vek je vyšší ako 23 rokov.
dfs.filter (dfs („názov stĺpca“)> hodnota) .show ()

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Výstup: Vo výsledkoch sa zobrazí filtrovaná veková skupina pre viac ako 23 rokov.

6. Použitie metódy groupBy: Na výpočet počtu študentov, ktorí majú rovnaký vek, by sa mohla použiť nasledujúca metóda.
dfs.groupBy ( "column-name"). počítať (). zobraziť ()

Príklad: Predpokladajme, že náš názov súboru je student.json, potom bude náš kód vyzerať takto:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. Použitie funkcie SQL pri aplikácii SparkSession, ktorá umožňuje aplikácii vykonávať dotazy typu SQL programovo, a preto vracia výsledok vo forme dátového rámca.
spark.sql (otázka)

Príklad: Predpokladajme, že musíme zaregistrovať dátový rámec SQL ako dočasné zobrazenie, potom:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Výstup: Dočasné zobrazenie sa vytvorí podľa mena študenta a na jeho premietnutie sa použije súbor spark.sql, ktorý ho zmení na dátový rámec.

8. Použitie funkcie SQL na Spark Session pre globálne dočasné zobrazenie: To umožňuje aplikácii programovo vykonávať dotazy typu SQL programovo, a preto vracia výsledok vo forme dátového rámca.
spark.sql (otázka)

Príklad: Predpokladajme, že musíme zaregistrovať dátový rámec SQL ako dočasné zobrazenie, potom:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Výstup: Dočasné zobrazenie sa vytvorí podľa mena študenta a na jeho premietnutie sa použije súbor spark.sql, ktorý ho zmení na dátový rámec.

Výhody Spark DataFrame

Dátový rámec je distribuovaná kolekcia údajov, a preto sú dáta usporiadané podľa mena s názvom stĺpca.
V prípade relačných databáz sú viac-menej podobné ako v tabuľke a majú bohatú sadu optimalizácií.
Dataframes sa používajú na posilnenie otázok napísaných v SQL a tiež API dátového rámca
Môže sa použiť na spracovanie štruktúrovaných aj neštruktúrovaných údajov.
Použitie optimalizátora katalyzátora uľahčuje a efektívne optimalizáciu.
Knižnice sú prítomné v mnohých jazykoch, ako sú Python, Scala, Java a R.
Používa sa na zabezpečenie silnej kompatibility s Úľom a používa sa na vykonávanie nemodifikovaných dopytov Úľa v už existujúcom sklade úľov.
Môže veľmi dobre škálovať od niekoľkých kbs v osobnom systéme po mnoho petabytov na veľkých zhlukoch.
Používa sa na zabezpečenie ľahkej úrovne integrácie s inými veľkými dátovými technológiami a rámcami.
Abstrakcia, ktorú poskytujú pre RDD, je efektívna a zrýchľuje spracovanie.

Záver - Spark DataFrame

V tomto príspevku ste sa naučili veľmi dôležitú vlastnosť Apache Spark, ktorá predstavuje dátové rámce a ich využitie v aplikáciách bežiacich dnes spolu s operáciami a výhodami. Dúfam, že sa vám náš článok páčil. Zostaňte naladení na ďalšie podobné akcie.

Odporúčané články

Toto bol sprievodca Spark DataFrame. Tu diskutujeme o tom, ako vytvoriť DataFrame? jeho výhody a rôzne operácie DataFrames spolu s príslušným vzorovým kódom. Viac informácií nájdete aj v ďalších navrhovaných článkoch -