Čo je to MapReduce? - Naučte sa príklad a výhody MapReduce

Obsah:

Anonim

Čo je to MapReduce?

Programovací rámec MapReduce sa používa na vykonávanie distribuovaného a paralelného spracovania s veľkými množinami údajov v distribuovanom prostredí. Map a Reduce sú dve odlišné úlohy programu na zníženie mapy. Najprv vo fáze mapy sa dáta načítajú a z nej sa vygenerujú páry kľúč - hodnota. Potom sa tieto páry kľúč - hodnota privedú do redukčnej úlohy, ktorá agreguje údaje páru kľúč - hodnota do menšej sady hodnôt produkujúcich konečný výstup. Úloha redukcie je teda vždy implementovaná po dokončení úlohy mapy. Je veľmi ľahké škálovať spracovanie dát na viacerých výpočtových uzloch.

V programe sú konkrétne tri fázy:

  1. Mapa Stage
  2. Náhodné prehrávanie
  3. Znížte fázu

Príklad :

Wordcount problem-

Predpokladajme, že nižšie sú vstupné údaje:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

1. Vyššie uvedené údaje sú rozdelené na tri vstupné časti, ako je uvedené nižšie:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

2. Potom sa tieto údaje prenesú do ďalšej fázy nazývanej mapovacia fáza.

Takže pre prvý riadok (Mike Jon Jake) máme 3 páry kľúč - hodnota - Mike, 1; Jon, 1; Jake, 1.

Nižšie je uvedený výsledok vo fáze mapovania:

  • Mike, 1
    Jon, 1
    Jake, 1
  • Paul, 1
    Paul, 1
    Jake, 1
  • Mike, 1
    Paul, 1
    Jon, 1

3. Vyššie uvedené údaje sa potom zavedú do ďalšej fázy nazývanej fáza triedenia a miešania.

V tejto fáze sú údaje zoskupené do jedinečných kľúčov a sú usporiadané. Výsledkom je fáza triedenia a miešania:

  • Jake, (1, 1)
  • Jone, (1, 1)
  • Mike, (1, 1)
  • Paul, (1, 1, 1)

4. Vyššie uvedené údaje sa potom zavedú do ďalšej fázy nazývanej redukčná fáza.

Tu sa spočítajú všetky kľúčové hodnoty a spočíta sa počet 1 s. Nižšie je uvedený výsledok v redukčnej fáze:

  • Jake, 2
  • Jon, 2
  • Mike, 2
  • Paul, 3

Výhody MapReduce:

Tu sa dozvieme niekoľko dôležitých výhod programovacieho rámca MapReduce,

1. Škálovateľnosť

Hadoop ako platforma, ktorá je vysoko škálovateľná a je do značnej miery spôsobená jej schopnosťou ukladať a distribuovať veľké množiny údajov na veľa serverov. Tu použité servery sú pomerne lacné a môžu fungovať paralelne. Výkonnosť systému sa dá vylepšiť pridaním viacerých serverov. Tradičné systémy správy relačných databáz alebo RDBMS nedokázali škálovať spracovanie obrovských množín údajov.

2. Flexibilita

Programovací model Hadoop MapReduce ponúka flexibilitu pri spracovaní štruktúry alebo neštruktúrovaných údajov rôznymi obchodnými organizáciami, ktoré môžu tieto údaje využívať a môžu pracovať s rôznymi typmi údajov. Môžu teda generovať obchodnú hodnotu z tých údajov, ktoré sú pre obchodné organizácie užitočné na analýzu. Bez ohľadu na zdroj údajov, či ide o sociálne médiá, kliknutie, e-mail atď., Spoločnosť Hadoop ponúka podporu pre mnoho jazykov používaných na spracovanie údajov. Spolu s tým všetkým umožňuje programovanie Hadoop MapReduce mnoho aplikácií, ako sú marketingová analýza, systém odporúčaní, sklad údajov a zisťovanie podvodov.

3. Bezpečnosť a autentifikácia

Ak ktorákoľvek osoba zvonka získa prístup ku všetkým údajom organizácie a môže manipulovať s viacerými údajmi v údajoch, môže to značne poškodiť, pokiaľ ide o obchodné rokovania v prevádzke s obchodnou organizáciou. Toto riziko je riešené programovacím modelom MapReduce prostredníctvom práce s hdfs a HBase, čo umožňuje vysokú bezpečnosť umožňujúcu prácu s uloženými údajmi v systéme iba schválenému používateľovi.

4. Nákladovo efektívne riešenie

Takýto systém je vysoko škálovateľný a predstavuje nákladovo efektívne riešenie pre obchodný model, ktorý potrebuje ukladať údaje, ktoré exponenciálne rastú v súlade s aktuálnymi požiadavkami. V prípade starých tradičných systémov správy relačných databáz nebolo spracovanie údajov tak jednoduché ako v systéme Hadoop z hľadiska škálovateľnosti také ľahké. V takýchto prípadoch bol podnik nútený zmenšiť údaje a ďalej implementovať klasifikáciu na základe predpokladov, ako by niektoré údaje mohli byť pre organizáciu cenné, a teda aby sa odstránili prvotné údaje. Na záchranu prichádza architektúra škály Hadoop Scaout s programovaním MapReduce.

5. Rýchly

Distribuovaný súborový systém Hadoop HDFS je kľúčovou vlastnosťou používanou v Hadoop, ktorá v podstate implementuje mapovací systém na lokalizáciu údajov v klastri. Programovanie MapReduce je nástroj používaný na spracovanie údajov a je umiestnený aj na rovnakom serveri, ktorý umožňuje rýchlejšie spracovanie údajov. Hadoop MapReduce spracováva veľké objemy dát, ktoré sú nestrukturované alebo čiastočne štruktúrované v kratšom čase.

6. Jednoduchý model programovania

Programovanie MapReduce je založené na veľmi jednoduchom modeli programovania, ktorý v podstate umožňuje programátorom vyvinúť program MapReduce, ktorý zvládne oveľa viac úloh ľahšie a efektívnejšie. Programovací model MapReduce je písaný pomocou jazyka Java, ktorý je veľmi populárny a veľmi ľahko sa učí. Ľudia sa ľahko naučia programovať a navrhovať model spracovania údajov Java, ktorý vyhovuje ich obchodným potrebám.

7. Paralelné spracovanie

Programovací model delí úlohy spôsobom, ktorý umožňuje paralelne vykonávať nezávislú úlohu. Toto paralelné spracovanie preto uľahčuje procesom vykonávať každú z úloh, čo pomáha spustiť program v oveľa kratšom čase.

8. Dostupnosť a odolnosť

Programovací model Hadoop MapReduce spracúva údaje tak, že ich posiela do jednotlivého uzla, ako aj postupuje rovnakú množinu údajov do ostatných uzlov nachádzajúcich sa v sieti. Výsledkom je, že v prípade zlyhania v konkrétnom uzle je rovnaká kópia údajov stále k dispozícii na ostatných uzloch, ktoré sa môžu použiť vždy, keď je to potrebné na zabezpečenie dostupnosti údajov.
Týmto spôsobom je Hadoop odolný voči poruchám. Toto je jedinečná funkcia ponúkaná v aplikácii Hadoop MapReduce, ktorá je schopná rýchlo rozpoznať chybu a použiť rýchlu opravu pre riešenie automatického obnovenia.

Existuje mnoho spoločností po celom svete, ktoré používajú redukciu máp ako facebook, yahoo atď.

Záver - Čo je MapReduce

Mapa zmenšiť má veľkú schopnosť, pokiaľ ide o spracovanie veľkých dát v porovnaní s tradičnými systémami RDBMS. Mnoho organizácií už využilo svoj potenciál a prechádza k tejto novej technológii. Je zrejmé, že zníženie mapy má veľmi dlhú cestu vo veľkej platforme na spracovanie údajov.

Odporúčané články

Toto bol sprievodca, čo je MapReduce. Tu sme diskutovali o Základnom koncepte, príkladoch a výhodách MapReduce. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Čo je to JavaScript?
  2. MapReduce Interview Otázky
  3. Čo je Python
  4. Ako funguje MapReduce
  5. Čo je Big data and Hadoop