Úvod do príkazov ošípaných

Apache Pig nástroj / platforma, ktorá sa používa na analýzu veľkých množín údajov a vykonávanie dlhých sérií dátových operácií. Prasa sa používa s Hadoopom. Všetky skripty ošípaných sa interne prevedú na úlohy na zníženie mapy a potom sa vykonajú. Dokáže spracovať štruktúrované, pološtrukturované a neštruktúrované údaje. Obchody s ošípanými, ich výsledok do HDFS. V tomto článku sa dozvieme viac typov príkazov ošípaných.

Tu je niekoľko charakteristík prasaťa:

  1. Sebaoptimalizácia: Prasa môže optimalizovať úlohy vykonávania, používateľ má slobodu sústrediť sa na sémantiku.
  2. Jednoduché programovanie: Prasa poskytuje jazyk / dialekt na vysokej úrovni známy ako Pig Latin, ktorý sa ľahko píše. Pig Latin poskytuje veľa operátorov, ktoré programátor môže použiť na spracovanie údajov. Programátor má flexibilitu aj na písanie svojich vlastných funkcií.
  3. Extensible: Pig uľahčuje vytvorenie užívateľskej funkcie, ktorá sa nazýva UDF (Užívateľ definované funkcie), vďaka ktorej sú programátori schopní rýchlo a ľahko splniť akékoľvek požiadavky na spracovanie. Pig skript beží na shell známy ako grunt.

Prečo prasa príkazy?

Programátori, ktorí nie sú dobrí s Java, zvyčajne zápasia s písaním programov v Hadoope, tj s písaním úloh na zníženie mapy. Pre nich je prasa latinčina, ktorá je úplne ako jazyk SQL, výhoda. Jeho prístup založený na viacerých dotazoch znižuje dĺžku kódu.
Celkovo teda jeho stručný a efektívny spôsob programovania. Príkazy ošípaných môžu vyvolať kód v mnohých jazykoch ako JRuby, Jython a Java.

Architektúra príkazov ošípaných

Všetky skripty napísané v jazyku Pig-Latin cez grunt shell idú do syntaktického analyzátora, aby skontrolovali syntax, a tiež dôjde k iným rôznym kontrolám. Výstupom syntaktického analyzátora je DAG. Tento DAG sa potom dostane do nástroja Optimizer, ktorý potom vykoná logickú optimalizáciu, ako je projekcia a tlačí nadol. Potom kompilátor vyhovuje logickému plánu pre úlohy MapReduce. Nakoniec sa tieto úlohy MapReduce odovzdajú spoločnosti Hadoop v usporiadanom poradí. Tieto úlohy sa vykonajú a dosiahnu požadované výsledky.

Pig-latinský dátový model je úplne vnorený a umožňuje zložité typy údajov, ako sú mapy a tice.

Akákoľvek jednotlivá hodnota latiny ošípaných (bez ohľadu na typ údajov) je známa ako Atom.

Základné príkazy ošípaných

Pozrime sa na niektoré základné príkazy ošípaných, ktoré sú uvedené nižšie: -

1. Fs: Zobrazí sa zoznam všetkých súborov v HDFS

grunt> fs –ls

2. Vymazať: Vymaže to interaktívne gruntové prostredie.

zavrčať

3. História:

Tento príkaz zobrazuje doteraz vykonané príkazy.
grunt> história

4. Čítanie údajov: Za predpokladu, že sa údaje nachádzajú v HDFS, musíme údaje načítať do Pig.

grunt> college_students = LOAD 'hdfs: // localhost: 9000 / pig_data / college_data.txt'

POUŽÍVANIE PigStorage (', ')

ako (id: int, meno: chararray, priezvisko: chararray, phone: chararray,

mesto: chararray);

PigStorage () je funkcia, ktorá načíta a uloží údaje ako štruktúrované textové súbory.

5. Ukladanie údajov: Operátor ukladania sa používa na ukladanie spracovaných / načítaných údajov.

grunt> STORE college_students INTO 'hdfs: // localhost: 9000 / pig_Output /' USING PigStorage (', ');

Tu je „/ pig_Output /“ adresár, v ktorom je potrebné vzťah uložiť.

6. Operátor výpisu: Tento príkaz sa používa na zobrazenie výsledkov na obrazovke. Zvyčajne to pomáha pri ladení.

grunt> Vyhodiť college_students;

7. Opíšte operátora: Pomáha programátorovi zobraziť schému vzťahu.

grunt> opísať college_students;

8. Vysvetlite: Tento príkaz pomáha skontrolovať logické, fyzické a realizačné plány na zníženie mapy.

grunt> vysvetliť college_students;

9. Ilustrovaný operátor: Toto poskytuje postupné vykonávanie príkazov v príkazoch ošípaných.

grunt> ilustrovať college_students;

Dočasné príkazy pre ošípané

1. Skupina: Tento príkaz ošípaných pracuje na zoskupovaní údajov s rovnakým kľúčom.

grunt> group_data = GROUP college_students podľa krstného mena;

2. KOGROUP: Funguje podobne ako prevádzkovateľ skupiny. Hlavný rozdiel medzi operátorom skupiny a skupiny je ten, ktorý sa zvyčajne používa s jedným vzťahom, zatiaľ čo skupina sa používa s viac ako jedným vzťahom.

3. Pripojiť: Používa sa na kombináciu dvoch alebo viacerých vzťahov.

Príklad: Aby sme sa mohli zapojiť, povedzme, že vzťah „zákazník“ sa načíta z príkazov HDFS tp pig v dvoch vzťahoch customer1 a customers2.

grunt> customers3 = ZAREGISTRUJTE SA zákazníkov1 BY ID, customers2 BY ID;

Pripojiť sa môže byť samostatne, vnútorne, vonkajším.

4. Kríž: Tento príkaz prasa vypočíta krížový súčin dvoch alebo viacerých vzťahov.

grunt> cross_data = CROSS zákazníci, objednávky;

5. Únia: Spája dva vzťahy. Podmienkou zlúčenia je, že stĺpce aj domény vzťahu musia byť rovnaké.

grunt> student = UNION student1, student2;

Pokročilé príkazy na ošípané

Pozrime sa na niektoré z pokročilých príkazov ošípaných, ktoré sú uvedené nižšie:

1. Filter: Pomáha to pri odfiltrovaní tuplov mimo vzťahu na základe určitých podmienok.

filter_data = FILTER college_students BY city == 'Chennai';

2. Výrazné: Pomáha to pri odstraňovaní nadbytočných tŕňov zo vzťahu.

grunt> odlišné_data = DISTINCT college_students;

Toto filtrovanie vytvorí nový názov vzťahu „zreteľné_dáta“

3. Foreach: To pomáha pri generovaní transformácie údajov na základe údajov stĺpcov.

grunt> foreach_data = FOREACH student_details GENERATE id, age, city;

Takto sa získajú hodnoty id, vek a mesto každého študenta z vzťahu student_details, a preto sa uloží do iného vzťahu s názvom foreach_data.

4. Usporiadať podľa: Tento príkaz zobrazí výsledok v usporiadanom poradí na základe jedného alebo viacerých polí.

grunt> order_by_data = OBJEDNÁVKA college_students BY Age DESC;

Zoraďuje sa vzťah „college_students“ v zostupnom poradí podľa veku.

5. Limit: Tento príkaz dostane obmedzené číslo. n-tice zo vzťahu.

grunt> limit_data = LIMIT student_details 4;

Tipy a triky

Nižšie sú uvedené rôzne tipy a triky príkazov ošípaných: -

1. Povoľte kompresiu na vstupe a výstupe:

set input.compression.enabled true;

set output.compression.enabled true;

Vyššie uvedené riadky kódu musia byť na začiatku skriptu, aby umožňovali prikázaným príkazom čítať komprimované súbory alebo generovať komprimované súbory ako výstup.

2. Pripojte sa k viacerým vzťahom:

Na vykonanie ľavého spojenia povedzme tri vzťahy (vstup1, vstup2, vstup3), musíte si zvoliť SQL. Je to preto, že Pig na viac ako dvoch tabuľkách nepodporuje vonkajšie spojenie.

Skôr sa budete chcieť spojiť dvoma krokmi, napríklad:

data1 = vstup JOIN1 pomocou tlačidla LEFT, vstup2 BY ;

data2 = JOIN data1 BY input1 :: key LEFT, input3 BY key;

To znamená dve úlohy na zníženie mapy.

Na efektívnejšie vykonanie vyššie uvedenej úlohy je možné zvoliť „Cogroup“. Cogroup sa môže pripojiť k viacerým vzťahom. Skupinová skupina sa predvolene pripojí k vonkajšej strane.

záver

Prasa je procedurálny jazyk, ktorý vedci bežne používajú na vykonávanie ad hoc spracovania a rýchle prototypovanie. Je to skvelý ETL a veľký nástroj na spracovanie dát. Skripty ošípaných je možné vyvolať v iných jazykoch a naopak. Príkazy z ošípaných sa preto dajú použiť na vytváranie väčších a komplexnejších aplikácií.

Odporúčané články

Toto bol sprievodca príkazmi ošípaných. Tu sme diskutovali základné aj pokročilé príkazy ošípaných a niektoré okamžité príkazy ošípaných. Viac informácií nájdete aj v nasledujúcom článku -

  1. Príkazy Adobe Photoshop
  2. Tableauove príkazy
  3. Cheat sheet SQL (Príkazy, Tipy a triky)
  4. Príkazy VBA - dotyková úprava
  5. Rôzne operácie súvisiace s n-ticami

Kategórie: