Úvod k MapReduce Interview Otázky a odpovede

MapReduce je jednoduchý model paralelného programovania dát navrhnutý pre škálovateľnosť a odolnosť proti chybám. Môžeme povedať, že MapReduce je framework, ktorý používa koncept uzlov na paralelizáciu problémov, ktoré sa vyskytujú vo veľkých množinách údajov, ak ide o lokálnu sieť, používa rovnaký hardvér a ak je MapReduce geograficky distribuovaný, používa iný hardvér, resp. MapReduce sa v podstate skladá z funkcie Map () a funkcie Reduce (). Bol populárny projektom open-source Hadoop.

Nižšie je uvedených 9 dôležitých otázok a odpovedí na rozhovor MapReduce 2019:

Ak hľadáte prácu, ktorá súvisí s MapReduce, musíte sa pripraviť na 2019 MapReduce Interview Questions. Aj keď každý rozhovor s MapReduce je iný a rozsah zamestnania je tiež odlišný, môžeme vám pomôcť s najlepšími otázkami Interview s MapReduce s odpoveďami, ktoré vám pomôžu rýchlo skočiť a dosiahnuť úspech v pohovore.

Tieto otázky sú rozdelené na dve časti:

1. časť - Interview s MapReduce (základné)

Táto prvá časť sa venuje základným otázkam a odpovediam MapReduce Interview.

1. Čo je to MapReduce?

odpoveď:
MapReduce je jednoduchý model paralelného programovania dát navrhnutý pre škálovateľnosť a odolnosť proti chybám. Inými slovami, je to rámec, ktorý spracováva paralelné problémy vo veľkých množinách údajov pomocou konceptu uzlov (počet počítačov), ktoré sú zase klasifikované ako klastre, ak ide o miestnu sieť, a ak sa používajú rovnaké hardvér alebo siete, ak sú geograficky distribuované a používajú iný hardvér. MapReduce v podstate pozostáva z funkcie Map () a funkcie Reduce (). Bol priekopníkom spoločnosti Google a každý deň spracúva mnoho petabajtov údajov. Bol populárny projektom open-source Hadoop a používa sa napríklad v Yahoo, Facebooku a Amazone.

2. Na čo sa spoločnosť MapReduce používa v minulosti?

odpoveď:
Google
• Konštrukcia indexu pre vyhľadávanie Google
Proces vytvárania pozičného alebo netypického indexu sa nazýva vytváranie indexov alebo indexovanie. Úlohou MapReduce je Index Index a je určený pre veľké počítačové klastre. Účelom klastra je vyriešiť výpočtové problémy pre uzly alebo počítače, ktoré sú postavené skôr na štandardných častiach než na superpočítači.
• Zoskupovanie článkov v službe Google News
Pri zoskupovaní článkov sa stránky najprv klasifikujú podľa toho, či sú potrebné na zoskupovanie. Stránky obsahujú veľa informácií, ktoré nie sú potrebné pre zoskupovanie. Potom je článok prevedený do vektorovej podoby na základe kľúčových slov a váhy. Potom sú zoskupené pomocou algoritmov.
• Štatistický strojový preklad
Preklad dvojjazyčných textových korpusov analýzou vytvára štatistické modely, ktoré pomocou váh prenášajú jeden jazyk do druhého a znižujú sa na najpravdepodobnejší preklad.
yahoo
• „Webová mapa“ poháňajúca Yahoo! Vyhľadávanie
Podobne ako v prípade zoskupovania článkov v službe Google News sa MapReduce používa na zoskupovanie výstupov vyhľadávania na serveri Yahoo! Plošina.
• Detekcia spamu pre Yahoo! pošta
Facebook
• Ťažba dát
Nedávny trend explózie údajov vyústil do potreby sofistikovaných metód na rozdelenie údajov na kúsky, ktoré sa dajú ľahko použiť v ďalšom kroku analýzy.
• d Optimalizácia
• Detekcia spamu

Prejdime k ďalším otázkam Interview s MapReduce.

3. Aké sú ciele dizajnu MapReduce

odpoveď:
Škálovateľnosť na veľké objemy dát
Pretože MapReduce je rámec, ktorý je zameraný na prácu s paralelizovateľnými údajmi pomocou konceptu uzlov, ktoré sú počtom počítačov buď ako zhluky alebo mriežky, je možné škálovať počet počítačov. Jedným z prominentných cieľov projektu MapReduce je, že je škálovateľný na 1000 strojov a na 10 000 diskov.
Nákladová efektívnosť
Pretože MapReduce pracuje s paralelizáciou údajov v uzloch alebo počte počítačov, sú dôvody, prečo sú nákladovo efektívne, nasledujúce:
-Všetky komoditné stroje namiesto superpočítača. Hoci sú lacné, nespoľahlivé.
- Sieť pre modernitu
-Automatická odolnosť voči chybám, tj vyžaduje sa menej správcov.
-Je ľahko použiteľný, tj vyžaduje menej programátorov.

4. Aké sú výzvy MapReduce?

odpoveď:
Toto sú bežné otázky MapReduce Interview položené počas rozhovoru. Hlavné výzvy MapReduce sú tieto:
-Cheap uzly zlyhajú, najmä ak ich máte veľa
Priemerná doba medzi poruchami pre 1 uzol sa rovná 3 rokom. Priemerný čas medzi poruchami pre 1 000 uzlov je 1 deň. Riešením je zabudovanie odolnosti voči chybám do samotného systému.
- Sieť pre modernizáciu je rovnaká alebo znamená nízku šírku pásma
Riešením pre malú šírku pásma je posunutie výpočtu do údajov.
- Programovanie distribuovaných systémov je ťažké
Riešením je to, že podľa dátovo paralelného programovacieho modelu užívatelia píšu funkcie „map“ a „redukovat“. Systém rozdeľuje prácu a rieši poruchy.

5. Aký je programovací model MapReduce?

odpoveď:
Programovací model MapReduce je založený na koncepte nazývanom záznamy kľúč - hodnota. Poskytuje tiež vzory pre paralelné spracovanie údajov. Na spracovanie údajov v MapReduce je potrebné mapovať vstupné aj výstupné dáta do formátu viacerých párov kľúč - hodnota. Jeden pár kľúč - hodnota sa označuje aj ako záznam. Programovací model MapReduce pozostáva z funkcie Map () a funkcie Reduce. Vzor pre ne je nasledujúci.
Funkcia Map (): (K in, V in) list (K inter, V inter)
Funkcia Reduce (): (K inter, list (V inter)) list (K out, V out)

2. časť - Rozhovory s MapReduce Interview (rozšírené)

Pozrime sa teraz na rozšírené otázky týkajúce sa rozhovorov s MapReduce.

6. Aké sú podrobnosti vykonávania MapReduce?

odpoveď:
V prípade vykonávania MapReduce riadi jeden master vykonávanie úlohy na viacerých otrokoch. Mapovače sú prednostne umiestnené na rovnakom uzle alebo rovnakom stojane ako ich vstupný blok, takže minimalizujú využitie siete. Mapovače tiež ukladajú výstupy na lokálny disk a potom ich slúžia reduktorom. Toto umožňuje zotavenie v prípade zlyhania reduktora a umožňuje viac reduktorov ako uzlov.

7. Čo je kombinátor?

odpoveď:
Kombinátor, ktorý je známy aj ako polo-reduktor, pracuje tak, že prijíma vstupy z triedy Map a odovzdáva páry výstupov kľúč - hodnota do triedy Reducer. Hlavnou funkciou kombinátora je zhrnúť záznamy výstupov z mapy s rovnakým kľúčom. Inými slovami, kombinátor je funkcia lokálnej agregácie pre opakované kľúče vytvárané rovnakou mapou. Funguje pre asociatívne funkcie ako SUM, COUNT a MAX. Znižuje veľkosť medziľahlých údajov, pretože predstavuje súhrn agregácie hodnôt pre všetky opakujúce sa kľúče.

Prejdime k ďalším otázkam Interview s MapReduce.

8.Prečo ošípané? Prečo MapReduce?

odpoveď:
• MapReduce umožňuje programátorovi vykonávať funkciu mapy nasledovanú funkciou redukcie, ale práca na tom, ako prispôsobiť spracovanie vašich údajov tomuto vzoru, ktorý často vyžaduje viac fáz MapReduce, môže byť výzvou.
• S Pig sú dátové štruktúry omnoho bohatšie, pretože sú viachodnotové a vnorené a sada transformácií, ktoré môžete použiť na údaje, je oveľa silnejšia. Zahŕňajú napríklad spojenia, ktoré nie sú možné v MapReduce.
• Pig je tiež jeden program, ktorý premení transformáciu na sériu úloh MapReduce Jobs.

9.MapReduce Criticism

odpoveď:
Jednou z významných kritík spoločnosti MapReduce je skutočnosť, že vývojový cyklus je veľmi dlhý. Písanie mapovačov a reduktorov, zostavovanie a balenie kódu, predkladanie úloh a získavanie výsledkov je časovo náročné. Aj pri streamingu, ktorý odstraňuje krok kompilácie a balíka, zážitok ešte trvá dlho.

Odporúčaný článok

Toto bol sprievodca zoznamom otázok a odpovedí na otázky týkajúce sa rozhovoru s MapReduce, aby uchádzač mohol tieto otázky MapReduce Interview ľahko nájsť. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Dôležité otázky týkajúce sa rozhovoru s analýzou údajov
  2. 10 najlepších otázok pre rozhovor s návrhovým vzorom
  3. Elasticsearch Rozhovor Otázky
  4. Najužitočnejšie otázky týkajúce sa rozhovorov s Ruby
  5. Ako funguje MapReduce

Kategórie: