Čo je MapReduce v Hadoope? - Ako to funguje Zručnosti a kariérny rast

Obsah:

Anonim

Čo je MapReduce v Hadoope

MapReduce je rámec spoločnosti Hadoop, ktorý sa používa na spoľahlivé spracovanie paralelných množstiev údajov o veľkých klastroch komoditného hardvéru. Hadoop je open-source projekt poskytovaný softvérovou nadáciou Apache. Hadoop používal na rýchle a spoľahlivé analýzy štruktúrovaných aj neštruktúrovaných údajov. Hadoop dokáže spracovať veľmi veľké množiny údajov, ktoré môžu byť štruktúrované aj neštruktúrované, čo je vlastne veľké množstvo údajov. Hadoop framework, ktorý umožňuje aplikácii ukladať dáta v distribuovanej forme a spracovávať veľké množiny údajov v klastroch počítačov pomocou jednoduchého programovacieho modelu, to je to, čo Map Reduce, inými slovami môžeme nazvať Map Reduce ako programovací model používaný na spracovanie obrovské množstvo údajov distribuovaných do počtu klastrov. Hadoop môže zväčšiť veľkosť od jedného servera po tisíce výpočtových uzlov alebo strojov, ktoré každý používa na výpočet a ukladanie.

Projekt Apache Hadoop obsahuje niekoľko podprojektov:

  • Hadoop Common: Hadoop Common s pomocnými programami, ktoré podporujú ostatné podprojekty Hadoop.
  • Distribuovaný systém súborov Hadoop (HDFS): Distribuovaný systém súborov Hadoop poskytuje prístup k distribuovanému súboru k aplikačným údajom.
  • Hadoop MapReduce: Hadoop MapReduce je softvérový rámec pre spracovanie veľkých distribuovaných súborov údajov na počítačových klastroch.
  • Hadoop YARN: Hadoop YARN je rámec pre správu zdrojov a plánovanie úloh.

Ako robí MapReduce v Hadoope prácu tak jednoduchú?

MapReduce zjednodušuje rozširovanie spracovania údajov na stovkách alebo tisícoch klastrových strojov. Model MapReduce v skutočnosti funguje v dvoch krokoch, ktoré sa nazývajú mapa a redukcia a spracovanie sa nazýva mapovač a redukcia. Akonáhle napíšeme MapReduce pre aplikáciu, aplikácia na škálovanie, aby mohla bežať cez násobky alebo dokonca niekoľko tisíc klastrov, je iba zmena konfigurácie. Táto vlastnosť modelu MapReduce prilákala veľa programátorov, aby ju mohli používať.

Ako funguje MapReduce v Hadoope?

Program MapReduce sa vykonáva hlavne v štyroch krokoch:

  1. Vstupné rozdelenia
  2. mapa
  3. miešanie
  4. redukovať

Teraz uvidíme každý krok, ako fungujú.

1. Mapa -

Tento krok je kombináciou kroku vstupného rozdelenia a kroku mapy. V kroku Mapa sa zdrojový súbor odovzdáva ako riadok po riadku. Pred vstupom do úlohy funkcie Mapa sa vstup rozdelí na malú pevnú veľkosť nazývanú Vstupné rozdelenia. Rozdelenie vstupu je kus vstupu, ktorý by mohla byť spotrebovaná jednou mapou. V kroku Mapa sa každé rozdelené dáta odovzdajú do funkcie mapovača, potom funkcia mapovania spracuje údaje a potom výstupné hodnoty. Všeobecne sú vstupné dáta mapy alebo mapovača vo forme súboru alebo adresára, ktorý je uložený v súborovom systéme Hadoop (HDFS).

2. Znížte krok-

Tento krok je kombináciou kroku Shuffle a redukcie. Funkcia redukcie alebo úloha reduktora vezme údaje, ktoré sú výsledkom funkcie mapy. Po spracovaní znížením funkcie vznikne nová sada výsledkov, ktorá sa opäť uloží späť do HDFS.

V rámci Hadoop nie je isté, či každý klaster vykonáva ktorú úlohu buď Map alebo Reduce, alebo Map i Reduce. Žiadosť o úlohy Map a Znížiť by sa preto mala poslať na príslušné servery v klastri. Rámec Hadoop sám riadi všetky úlohy vydávania, overovania dokončenia práce, získavania údajov z HDFS, kopírovania údajov do klastra uzlov a podobne. V Hadoop sa väčšinou výpočty uskutočňujú na uzloch spolu s údajmi v samotných uzloch, čo znižuje sieťovú prevádzku.

Takže rámec MapReduce je v rámci Hadoop veľmi užitočný.

Výhody MapReduce

  1. Škálovateľnosť - MapReduce robí Hadoop vysoko škálovateľným, pretože umožňuje ukladať veľké množiny údajov v distribučnej podobe na viacerých serveroch. Keďže je distribuovaný na viacerých miestach, môže pracovať paralelne.
  2. Nákladovo efektívne riešenie - MapReduce poskytuje nákladovo efektívne riešenie pre podniky, ktoré potrebujú ukladať rastúce údaje a spracovávať údaje veľmi nákladovo efektívnym spôsobom, čo je dnešná obchodná potreba.
  3. Flexibilita - MapReduce robí Hadoop veľmi flexibilným pre rôzne zdroje údajov a dokonca aj pre rôzne typy údajov, ako sú štruktúrované alebo neštruktúrované údaje. Preto je veľmi flexibilný prístup k štruktúrovaným alebo neštruktúrovaným údajom a ich spracovanie.
  4. Rýchly - Ako ukladacie údaje Hadoop v distribuovanom súborovom systéme, pomocou ktorých sa ukladajú údaje na lokálny disk klastra a programy MapReduce, sa tiež vo všeobecnosti nachádzajú na rovnakých serveroch, čo umožňuje rýchlejšie spracovanie údajov bez potreby prístupu údaje z iných serverov.
  5. Paralelné spracovanie - Keďže údaje o úložisku Hadoop v distribuovanom súborovom systéme a fungovanie programu MapReduce sú také, že rozdeľujú mapu úloh a znižujú ju, čo by sa mohlo vykonávať paralelne. A opäť, vďaka paralelnému vykonávaniu, sa znižuje celý čas chodu.

zručností

Požadované zručnosti pre MapReduce v Hadoopu majú dobré programovacie znalosti Java (povinné), operačného systému Linux a znalosti SQL dotazov.

Rozsah pôsobnosti MapReduce v Hadoope

MapReduce v Hadoope je rýchlo rastúce pole, pretože veľké dátové pole rastie, takže rozsah MapReduce v Hadoope je v budúcnosti veľmi sľubný, pretože množstvo štruktúrovaných a neštruktúrovaných údajov exponenciálne rastie každý deň. Platformy sociálnych médií generujú veľa neštruktúrovaných údajov, ktoré možno ťažiť, aby získali skutočný prehľad o rôznych doménach.

záver

  • MapReduce je rámec spoločnosti Hadoop, ktorý sa používa na spoľahlivé spracovanie paralelných množstiev údajov o veľkých klastroch komoditného hardvéru.
  • Projekt Apache Hadoop obsahuje množstvo podprojektov ako Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • V kroku mapy sa každé rozdelené dáta odovzdajú do funkcie mapovača, potom funkcia mapovania spracuje údaje a potom výstupné hodnoty.
  • Funkcia redukcie alebo úloha reduktora vezme údaje, ktoré sú výsledkom funkcie mapy.
  • MapReduce výhody sú uvedené ako škálovateľnosť, nákladovo efektívne riešenie, flexibilita, rýchle, paralelné spracovanie.

Odporúčané články

Toto bol sprievodca, čo je MapReduce v Hadoope. Tu sme diskutovali o komponentoch, prácach, zručnostiach, kariérnom raste a výhodách MapReduce v Hadoope. Viac informácií nájdete aj v ďalších navrhovaných článkoch

  1. Čo je to algoritmus?
  2. Rozdiely medzi Hadoop a MapReduce
  3. Čo je liek Azure?
  4. Čo je technológia Big Data Technology?
  5. Ako funguje MapReduce