Úvod do otázok a odpovedí na rozhovor spoločnosti Apache PIG

Takže ste konečne našli svoju vysnívanú prácu v Apache PIG, ale premýšľame, ako rozlúštiť rozhovor Apache PIG z roku 2019 a aké by mohli byť pravdepodobné otázky týkajúce sa rozhovoru s Apache PIG. Každý pohovor Apache PIG je iný a rozsah práce je tiež odlišný. S ohľadom na to sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovoru s Apache PIG, ktoré vám pomôžu dosiahnuť úspech v rozhovore s Apache PIG.

Nasleduje zoznam 2019 otázok Apache PIG Interview, ktoré sú kladené najčastejšie

1. Aké sú kľúčové rozdiely medzi MapReduce a Apache Pig?

odpoveď:
Nasledujú kľúčové rozdiely medzi Apache Pig a MapReduce, vďaka ktorým Apache Pig prišiel na obrázok:
• MapReduce je nízkoúrovňový model spracovania dát, zatiaľ čo Apache Pig je platforma na vysokej úrovni prenosu údajov
• Bez toho, aby sme v MapReduce napísali zložité Java implementácie, môžu programátori dosiahnuť rovnaké implementácie ľahko pomocou technológie Pig Latin.
• Apache Pig poskytuje vnorené typy údajov, ako sú vrecká, nôžky a mapy, pretože v MapReduce chýbajú.
• Ošípané podporujú dátové operácie, ako sú filtre, spojenia, usporiadanie, triedenie atď., S mnohými vstavanými operátormi. Vzhľadom k tomu, vykonávať rovnakú funkciu v MapReduce je obrovská úloha.

2. Vysvetlite použitie MapReduce v Pig.

odpoveď:
Programy Apache Pig sú napísané v jazyku dopytov známym ako Pig Latin, ktorý je podobný jazyku dotazov SQL. Na vykonanie dotazu je potrebný vykonávací motor. A modul Pig prevádza dotazy na úlohy MapReduce, a preto MapReduce funguje ako spúšťací motor a je potrebný na spustenie programov.

3. Vysvetlite použitie ošípaných.

odpoveď:
Ošípané môžeme používať v troch kategóriách:
• Dátový kanál ETL: Pomáha naplniť náš dátový sklad. Ošípané môžu dáta potrubím presunúť do externej aplikácie, bude čakať, až bude hotová, aby prijala spracované údaje a pokračovala odtiaľ. Je to najbežnejší prípad použitia ošípaných.
• Výskum prvotných údajov.
• Iteračné spracovanie.

4. Porovnajte Apache Pig a SQL.

odpoveď:
• Apache Pig sa líši od SQL, pokiaľ ide o jeho používanie pre ETL, lenivé vyhodnotenie, ukladanie údajov v ktoromkoľvek danom časovom okamihu v potrubí, podporu rozdelenia potrubí a výslovné vyhlásenie plánov vykonávania. SQL (štrukturálny dotazovací jazyk) je orientovaný okolo dotazov, ktoré vedú k jedinému výsledku. SQL nemá zabudovaný mechanizmus na rozdelenie toku spracovania údajov a použitie rôznych operátorov na každý podtok.
• Apache Pig umožňuje zahrnúť užívateľský kód v ktoromkoľvek bode potrubia, zatiaľ čo ak SQL, kde sa majú použiť údaje, je potrebné najskôr importovať do databázy a potom začne proces čistenia a transformácie.

5. Vysvetlite rôzne zložité typy údajov v ošípaných.

odpoveď:
Apache Pig podporuje tri komplexné dátové typy -
• Mapy - Ide o kľúčové, hodnotové obchody spojené pomocou #.
Príklad: ('city' # 'pune', 'pin' # 411045) • Tuples- Podobne ako riadok v tabuľke, kde sú rôzne položky oddelené čiarkou. Zvyšky môžu mať viac atribútov.
• Tašky - Neusporiadaná zbierka tíčkov. Taška umožňuje viacnásobné duplikáty.
Príklad: ((„Bombaj“, 022), („Nové Dillí“, 011), („Kalkata“, 44))

6. Vysvetlite rôzne realizačné modely, ktoré sú k dispozícii v Pig.

odpoveď:
V Pig sú k dispozícii tri rôzne režimy vykonávania,
• Interaktívny režim alebo Grunt režim.
Interaktívny režim alebo režim grunt: Interaktívny obal ošípaných je známy ako grunt shell. Ak nie je určený žiadny súbor na spustenie v Pig, spustí sa.
• Dávkový režim alebo skriptový režim.
Prasa vykoná zadané príkazy v skriptovom súbore.
• Zabudovaný režim
Môžeme vložiť Pig programy do Java a môžeme ich spúšťať z Java.

7. Vysvetlite plány vykonávania (logický a fyzický plán) Pig skriptu

odpoveď:
Logické a fyzické plány sa vytvárajú počas vykonávania scenára ošípaných. Skripty ošípaných sú založené na kontrole tlmočníka. Logický plán sa vytvára sémantickou kontrolou a základným rozborom a pri vytváraní logického plánu nedochádza k spracovaniu údajov. Pre každý riadok v Pig skripte sa vykoná kontrola syntaxe pre operátorov a vytvorí sa logický plán. Vždy, keď sa v skripte vyskytne chyba, vyvolá sa výnimka a ukončí sa vykonávanie programu, inak má každý príkaz v skripte svoj vlastný logický plán.
Logický plán obsahuje súbor operátorov v skripte, ale neobsahuje hrany medzi operátormi.
Po vygenerovaní logického plánu sa vykonanie skriptu presunie do fyzického plánu, kde je opis fyzických operátorov, ktoré Apache Pig použije na vykonanie skriptu Pig. Fyzický plán je viac-menej ako séria úloh MapReduce, ale potom plán nemá žiadny odkaz na to, ako bude vykonaný v MapReduce. Počas vytvárania fyzického plánu sa logický operátor v rámci spoločnej skupiny prevádza na 3 fyzické operátory, a to - miestne usporiadanie, globálne usporiadanie a balík. Funkcie načítania a ukladania sa zvyčajne vyriešia vo fyzickom pláne.

8. Aké ladiace nástroje sa používajú pre skripty Apache Pig?

odpoveď:
Popíšte a vysvetlite dôležité ladiace nástroje v Apache Pig.
• Vysvetľovací program je užitočný pre vývojárov Hadoop pri pokusoch o ladenie chýb alebo optimalizáciu skriptov PigLatin. vysvetliť možno použiť na konkrétny alias v skripte alebo ho možno použiť na celý skript v interaktívnom prostredí grunt. utilita vysvetlite vytvorí niekoľko grafov v textovom formáte, ktoré je možné vytlačiť do súboru.
• Pomôcka na popis ladenia je pre vývojárov užitočná pri písaní skriptov ošípaných, pretože ukazuje schému vzťahu v skripte. Pre začiatočníkov, ktorí sa snažia naučiť Apache Pig, môžu použiť utilitu description na pochopenie toho, ako každý operátor mení údaje. Skript ošípaných môže mať viacero opisov.

9. Na aké prípady použitia Apache Pig môžete myslieť?

odpoveď:
• Nástroj veľkých dát Apache Pig sa používa najmä na opakované spracovanie, výskum nespracovaných údajov a na tradičné dátové potrubia ETL. Keďže ošípané môžu fungovať v situáciách, keď schéma nie je známa, nejednotná alebo neúplná - výskumníci, ktorí chcú údaje využívať, pred ich vyčistením a uložením do dátového skladu, ich často používajú.
• Napríklad na vytváranie modelov predpovedania správania sa môže webová stránka použiť na sledovanie reakcie návštevníkov na rôzne typy reklám, obrázkov, článkov atď.

10. Zvýraznite rozdiel medzi operátormi skupín a Cogroup v Pig.

odpoveď:
Obaja operátori môžu pracovať s jedným alebo viacerými vzťahmi. Prevádzkovatelia skupín a skupín sú identickí. Operátor skupiny zhromažďuje všetky záznamy pomocou rovnakého kľúča. Cogroup je kombináciou skupiny a spojenia, je to generalizácia skupiny namiesto zhromažďovania záznamov jedného vstupu, závisí od kľúča, zhromažďuje záznamy n vstupov na základe kľúča. Naraz môžeme spojiť až 127 vzťahov.

Odporúčané články

Toto bol sprievodca zoznamom otázok a odpovedí na zoznam otázok týkajúcich sa rozhovoru Apache PIG Interview, aby uchádzač mohol tieto otázky týkajúce sa rozhovoru Apache PIG Interview ľahko nájsť. Tento článok pozostáva zo všetkých užitočných otázok a odpovedí na rozhovor Apache PIG Interview, ktoré vám pomôžu pri pohovore. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Apache Pig vs Apache Hive
  2. 10 najdôležitejších otázok týkajúcich sa rozhovorov
  3. 8 účinných krokov na prípravu na interný rozhovor
  4. Dôležité tipy na prežitie rozhovoru s panelom (užitočné)

Kategórie: