Úvod do otázok a odpovedí na otázky súvisiace s rozhovormi o iskre
Apache Spark je open-source framework. Spark, keďže ide o platformu s otvoreným zdrojovým kódom, môžeme použiť viacero programovacích jazykov, ako sú java, python, Scala, R. V porovnaní s procesom Map-Reduce Process iskra iskra pomáha pri zlepšovaní výkonu vykonávania. Poskytuje tiež 100-krát rýchlejšie vykonanie v pamäti ako Map-Reduce. Kvôli spracovateľskej sile iskry dnes priemyselné odvetvia preferujú iskru.
Takže ste si konečne našli vysnívanú prácu v programe Spark, ale premýšľate, ako máte prelomiť program Spark Interview a aké by mohli byť pravdepodobné otázky týkajúce sa rozhovoru s programom Spark na rok 2018. Každý rozhovor je iný a rozsah zamestnania je tiež iný. S ohľadom na to sme pre rok 2018 navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovorov o iskrách, ktoré vám pomôžu dosiahnuť úspech v pohovore.
Tieto otázky sú rozdelené do dvoch častí
1. časť - Otázky týkajúce sa rozhovorov o iskrách (základné)
Táto prvá časť sa venuje základným otázkam a odpovediam na otázky týkajúce sa rozhovoru so službou Spark
1. Čo je to Spark?
odpoveď:
Apache Spark je open-source framework. Zlepšuje výkon vykonávania ako proces Map-Reduce. Je to otvorená platforma, kde môžeme používať viacero programovacích jazykov ako Java, Python, Scala, R. Spark poskytuje vykonanie v pamäti, ktoré je 100-krát rýchlejšie ako Map-Reduce. Používa koncepciu RDD. RDD je odolná distribuovaná množina údajov, ktorá jej umožňuje transparentne ukladať údaje do pamäte a vytrvať ich, aby na disk iba potrebovali. Tu skráti čas prístupu k údajom z pamäte namiesto disku. Dnes priemysel dáva prednosť Sparkovi kvôli jeho spracovateľskej sile.
2. Rozdiel medzi Hadoopom a Sparkom?
odpoveď:
Kritériá funkcie | Apache Spark | Hadoop |
rýchlosť | 10 až 100 krát rýchlejšie ako Hadoop | Normálna rýchlosť |
spracovanie | Spracovanie v reálnom čase a šarže, In-memory, Caching | Len dávkové spracovanie, závisí od disku |
Obtiažnosť | Jednoduché vďaka modulom vysokej úrovne | Ťažko sa učiť |
zotavenie | Umožňuje obnovenie oddielov pomocou RDD | Odolné proti chybám |
interaktivita | Má interaktívne, interaktívne režimy | Žiadny interaktívny režim okrem Pig & Hive, No iteračný režim |
Normálna architektúra Hadoop sa riadi základnou mapovou redukciou, pre ten istý proces iskra poskytuje vykonávanie v pamäti. Namiesto čítania a zápisu z pevného disku pre Map-Reduce, iskra poskytuje čítanie a zápis z virtuálnej pamäte.
Prejdime k ďalším otázkam týkajúcim sa rozhovorov o iskrách
3. Aké sú vlastnosti programu Spark?
odpoveď:
- Poskytnite integračné zariadenie s Hadoop a Files na HDFS. Spark môže bežať na vrchu Hadoop pomocou zoskupovania zdrojov YARN. Spark má kapacitu nahradiť motor Hadoop's Map-Reduce.
- Polyglot: Spark Poskytujte API na vysokej úrovni pre Java, Python, Scala a R. Spark Code, ktorý je možné písať v ktoromkoľvek z týchto štyroch jazykov. IT poskytuje nezávislý shell pre mierku (jazyk, v ktorom je Spark napísaný) a pythonový tlmočník. Ktoré pomôžu komunikovať so zážihovým motorom? Shell Scala je prístupný cez ./bin/spark-shell a Python shell cez ./bin/pyspark z nainštalovaného adresára.
- Rýchlosť: Spark engine je 100-krát rýchlejší ako Hadoop Map-Reduce pre rozsiahle spracovanie dát. Rýchlosť sa dosiahne rozdelením na paralelné spracovanie distribuovaných údajov s minimálnou sieťovou prevádzkou. Spark Poskytuje RDD (Resilient Distributed Datasets), ktoré môžu byť uložené v medzipamäte medzi výpočtovými uzlami v klastri
- Viacnásobné formáty: Spark má API na zdroje údajov. Poskytne mechanizmus na prístup k štruktúrovaným údajom prostredníctvom iskry SQL. Zdroje údajov môžu byť čokoľvek, Spark iba vytvorí mechanizmus na konverziu údajov a ich vytiahnutie do iskry. Spark podporuje viac zdrojov údajov ako Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark poskytuje niektoré vstavané knižnice na vykonávanie viacerých úloh z toho istého jadra, ako je dávkové spracovanie, naparovanie, strojové učenie, interaktívne dotazy SQL. Hadoop však podporuje iba dávkové spracovanie. Spark Poskytnite MLIb (Strojové vzdelávacie knižnice), ktoré budú užitočné pre vývojárov softvéru Big-Data pri spracovaní údajov. Pomáha to odstrániť závislosti na viacerých nástrojoch na rôzne účely. Spark poskytuje spoločnú výkonnú platformu pre dátových inžinierov a vedcov údajov s rýchlym výkonom a ľahkým použitím.
- Apache Spark oneskoruje vykonávanie procesu, kým nie je potrebná akcia. Toto je jedna z kľúčových vlastností iskry. Spark pridá každú transformáciu do DAG (Direct Acyclic Graph) na vykonanie a ak akcia chce vykonať, v skutočnosti spustí DAG na spracovanie.
- Streamovanie v reálnom čase : Apache Spark Poskytuje výpočty v reálnom čase a nízku latenciu z dôvodu vykonávania v pamäti. Spark je určený pre veľké škálovateľnosti, ako je napríklad tisíc uzlov klastra a niekoľko modelov pre výpočty.
4. Čo je YARN?
odpoveď:
Toto sú základné otázky týkajúce sa rozhovorov o iskrách, ktoré boli položené počas rozhovoru. YARN (ešte iný vyjednávač zdrojov) je správca zdrojov. Spark je platforma, ktorá poskytuje rýchle vykonanie. Spark použije YARN na vykonanie úlohy do klastra namiesto vlastného vstavaného manažéra. Existuje niekoľko konfigurácií na spustenie priadze. Zahŕňajú master, režim nasadenia, pamäť vodiča, pamäť exekútora, jadrá exekútorov a fronty. Toto sú bežné otázky týkajúce sa rozhovoru s iskrami, ktoré sa kladú v nižšie uvedenom rozhovore, sú výhody iskry:
Výhody Spark nad Map-Reduce
Spark má výhody oproti Map-Reduce nasledovne: -
Vďaka schopnosti procesu v pamäti dokáže Spark vykonať 10 až 100-krát rýchlejšie ako Map-Reduce. Kde je možné Map-Reduce použiť na pretrvávanie údajov vo fáze Map and Reduce.
Apache Spark poskytuje vysokú úroveň zabudovaných knižníc na spracovanie viacerých úloh v rovnakom čase ako dávkové spracovanie, streamovanie v reálnom čase, Spark-SQL, štruktúrované streamovanie, MLib atď. Hadoop súčasne poskytuje iba dávkové spracovanie.
Proces Hadoop Map-Reduce bude závisieť od disku, kde Spark poskytuje vyrovnávaciu pamäť a pamäť v pamäti.
Spark má iteratívne, vykonávať viacnásobné výpočty na rovnakom súbore údajov a interaktívne, vykonávať výpočty medzi rôznymi množinami údajov, v ktorých Hadoop nepodporuje iteratívne výpočty.
5. Aký jazyk podporuje program Spark?
odpoveď:
Podpora iskier Scala, Python, R a Java. Na trhu uprednostňuje vývojár veľkých dát väčšinou scala a python. Na to, aby mierka skompilovala kód, potrebujeme nastaviť cestu k adresáru mierky / bin alebo vytvoriť súbor jar.
6. Čo je RDD?
odpoveď:
RDD je abstrakcia Resilient Distributed Dataset, ktorá poskytuje kolekciu prvkov rozdelených na všetky uzly klastra, čo pomôže paralelne vykonávať viac procesov. Pomocou nástroja RDD môže vývojár ukladať údaje do pamäte alebo ukladania do vyrovnávacej pamäte, aby ich bolo možné opakovane efektívne použiť na paralelné vykonávanie operácií. RDD sa dá ľahko získať po zlyhaní uzla.
2. časť - Otázky týkajúce sa rozhovorov o iskrách (rozšírené)
Pozrime sa teraz na pokročilé otázky týkajúce sa rozhovorov o iskrách.
7. Aké sú faktory zodpovedné za vykonanie programu Spark?
odpoveď:
1. Spark poskytuje vykonávanie v pamäti namiesto disku, ako je napríklad Hadoop Map-Reduce.
2.RDD Resilient Distributed Dataset, ktorý je zodpovedným paralelným vykonaním viacerých operácií na všetkých uzloch klastra.
3. Spark poskytuje funkciu zdieľanej premennej na paralelné vykonávanie. Tieto premenné pomáhajú obmedziť prenos dát medzi uzlami a zdieľajú kópiu všetkých uzlov. Existujú dve premenné.
4.Broadcast premenná: Táto premenná sa môže použiť na uloženie hodnoty do pamäte cache na všetkých uzloch
5. Premenná akumulátory: Táto premenná sa „len“ pripočítava k počítadlám a sumám.
8. Čo je pamäť vykonávateľa?
odpoveď:
Toto sú najčastejšie otázky týkajúce sa rozhovoru so Spark Interview v rozhovore. Je to veľkosť haldy vyhradená pre vykonávateľa iskier. Táto vlastnosť môže byť riadená vlastnosťou spark.executor.memory príznaku –executor-memory. Každá aplikácia Spark má jedného vykonávateľa pre každý pracovný uzol. Táto vlastnosť sa týka toho, koľko pamäte pracovných uzlov bude pridelených pre aplikáciu.
9. Ako používate Spark Stream? Vysvetlite jeden prípad použitia?
odpoveď:
Spark Stream je jednou z funkcií, ktoré sú užitočné v prípade použitia v reálnom čase. Na tento účel môžeme použiť žuvačku Kafka so iskrou. Flume spustí údaje zo zdroja. Kafka údaje prenesie do témy. Z Kafka Spark vytiahne dáta pomocou prúdu a D-stream údaje a vykoná transformáciu.
Tento proces môžeme použiť na podozrivé transakcie v reálnom čase, ponuky v reálnom čase atď.
Prejdime k ďalším otázkam týkajúcim sa rozhovorov o iskrách
10. Môžeme použiť Spark pre proces ETL?
odpoveď:
Áno, pre proces ETL môžeme použiť iskrovú platformu.
11. Čo je to Spark SQL?
odpoveď:
Je to jedna špeciálna súčasť iskry, ktorá bude podporovať dotazy SQL.
12. Aké nízke hodnotenie?
odpoveď:
Keď pracujeme s iskrou, transformácie sa nevyhodnocujú, kým nevykonáte akciu. To pomáha optimalizovať celkový pracovný postup spracovania údajov. Pri definovaní transformácie sa pridá k DAG (Direct Acyclic Graph). A v čase akcie začne vykonávať postupné transformácie. Toto je užitočná otázka na pohovor Spark položená počas rozhovoru.
Odporúčaný článok
Toto bol sprievodca zoznamom otázok a odpovedí na otázky súvisiace s rozhovormi o iskrách, aby mohol kandidát tieto otázky týkajúce sa rozhovoru o iskrách ľahko zakročiť. Viac informácií nájdete aj v nasledujúcich článkoch
- Java vs Node JS zjednodušujú rozdiely
- Otázky na rozhovor s mongolskou databázou Užitočné a najčastejšie otázky
- 15 najúspešnejších otázok a odpovedí na rozhovor
- Perl Rozhovor Otázky a odpovede
- Otázky týkajúce sa rozhovorov o systéme SAS - 10 najdôležitejších otázok