Rozdiel medzi Hadoop a MapReduce

Korene Hadoopu siahajú až do roku 2002, keď Dough Cutting pracoval na projekte s otvoreným zdrojovým kódom s názvom Nutch (ktorý sa používal na indexovanie webových stránok a na indexovanie webových stránok na vyhľadávanie, to isté, čo robí Google). Stál pred problémami škálovateľnosti z hľadiska ukladania a výpočtovej techniky. V roku 2003 spoločnosť Google zverejnila systém súborov GFS (google file system) a v roku 2004 spoločnosť Nutch vytvorila systém NDFS (distribuovaný systém súborov Nutch). Po tom, ako spoločnosť Google oznámila MapReduce ako svoj výpočtový mozog za svojimi triediacimi algoritmami, Dough bol schopný spustiť Nutch na NDFS a používať MapReduce v roku 2005 av roku 2006 sa narodil Hadoop.

Hadoop a MapReduce! Hadoop je ekosystém projektov s otvoreným zdrojovým kódom ako Hadoop Common, distribuovaný súborový systém Hadoop (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop ako taký je otvorený zdrojový rámec pre ukladanie a spracovanie obrovských množín údajov. Ukladanie sa vykonáva pomocou HDFS a spracovanie zabezpečuje MapReduce. MapReduce, na druhej strane, je programovací model, ktorý vám umožní spracovať obrovské dáta uložené v Hadoop.let nám umožňuje porozumieť Hadoop a MapReduce podrobne v tomto príspevku.

Porovnanie „Head to Head“ medzi Hadoop Vs MapReduce (Infographics)

Nižšie je päť najlepších porovnaní medzi Hadoop a MapReduce

Kľúčové rozdiely medzi Hadoop a MapReduce

Nasleduje rozdiel medzi Hadoop a MapReduce

  • Ak chceme rozlíšiť Hadoop a MapReduce z hľadiska laikov, môžeme povedať, že Hadoop je ako auto, kde máte všetko, čo je potrebné na prekonanie vzdialenosti, ale MapReduce je ako motor automobilu, takže bez automobilu môže motor t existuje, ale exteriér vozidla sa môže meniť (iné DFS (distribuované súborové systémy)).
  • Základná myšlienka spoločnosti Hadoop spočíva v tom, že údaje musia byť spoľahlivé a škálovateľné, spoľahlivé, pretože v prípade katastrofy alebo zlyhania siete musia byť údaje stále k dispozícii, čo sa dá dosiahnuť pomocou rámca Hadoop pomocou názvových uzlov a dátových uzlov.
  • Niektoré základné myšlienky dátových uzlov a názvových uzlov

  • Základnou myšlienkou architektúry dátového uzla a názvu uzla je architektúra master / slave, kde jeden ukladá umiestnenie údajov (názov uzla) a druhý ukladá samotné údaje (dátový uzol). Dáta sa rozdelia na kúsky s hmotnosťou 64 MB a uložia sa do dátových blokov a ich register sa udržiava v uzle Name. Dáta sú v predvolenom nastavení replikované trikrát kvôli spoľahlivosti. Keď už hovoríme o škálovateľnosti, hardvér možno na cestách zvýšiť, čo pomáha zväčšiť úložný priestor a zvýšiť škálovateľnosť systému.
  • Teraz prichádzajú na MapReduce tri fázy
    1. Fáza mapy
    2. Fáza náhodného výberu
    3. Znížte fázu

Ukážme si príklad, aby sme to lepšie pochopili. Program MapReduce, ktorý je programovacím rámcom, má aj program hello world, ale v programe MapReduce je známy ako program na počítanie slov.

Program počtu slov nám poskytuje páry kľúč - hodnota slova a jeho frekvenciu v odseku / článku alebo v akomkoľvek zdroji údajov. Aby sme to mohli ľahko pochopiť, vezmeme nižšie uvedené príklady.

Ako vidíme, v súbore údajov máme tri slová autobus, auto a vlak. Stĺpec s názvom Input obsahuje údaje, aké máme v množine údajov, stĺpec Output obsahuje údaje v prechodnom štádiu, v ktorom dôjde k premiešaniu.

Tu berieme rozdeľovač ako čiarku (, ) na rozdelenie slov. Rozdeľovač môže byť čiarka alebo medzera alebo nový riadok atď.

vstupMnožina údajovcaR, CAR, auto, BUS, VLAK, autobus, vlak, autobus, VLAK, BUS, buS, Auto, autobus, auto, vlak, auto, autobus, auto
VýkonKonvertovať na inú skupinu údajov

(Key, hodnota)

(Autobus, 1), (Automobil, 1), (Autobus, 1), (Automobil, 1), (vlak, 1),

(auto, 1), (autobus, 1), (auto, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (VLAK, 1)

A výstup z vyššie uvedeného stredného stupňa je daný reduktoru a pod ním je konečný výstup programu.

vstup

(výstup funkcie Map)

Sada nôh(Autobus, 1), (Automobil, 1), (Autobus, 1), (Automobil, 1), (vlak, 1),

(auto, 1), (autobus, 1), (auto, 1), (vlak, 1), (autobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(auto, 1), (BUS, 1), (VLAK, 1)

VýkonKonvertuje na menšiu množinu tuplov(BUS, 7),

(CAR, 7),

(Vlak, 4)

  • Jedným z kľúčových rozdielov Hadoopu v porovnaní s inými veľkými rámcami na spracovanie údajov je to, že Hadoop posiela kód (MapReduce code) do klastrov, kde sa dáta ukladajú, a nie posielajú údaje do kódu, pretože súbory údajov budú v TB alebo niekedy v PB bude to zdĺhavá úloha.

Porovnávacia tabuľka Hadoop vs MapReduce

Základ pre porovnanieHadoopMapReduce

zmysel

Meno „Hadoop“ bolo meno slona hračiek syna Douga Cuttinga. Tento projekt nazval „Hadoop“, pretože bolo ľahké ho vysloviť.Názov „MapReduce“ vznikol podľa samotnej funkčnosti mapovania a znižovania párov kľúč - hodnota.

pojem

Apache Hadoop je ekosystém, ktorý poskytuje prostredie, ktoré je spoľahlivé, škálovateľné a pripravené na distribuované výpočty.MapReduce je submodul tohto projektu, ktorý je programovacím modelom a používa sa na spracovanie obrovských množín údajov, ktoré sú umiestnené na HDFS (distribuovaný systém súborov Hadoop).

predpoklady

Hadoop beží na implementovaných HDFS (Hadoop Distributed File System)MapReduce môže bežať na HDFS / GFS / NDFS alebo na akomkoľvek inom distribuovanom súborovom systéme, napríklad MapR-FS

Jazyk

Hadoop je zbierka všetkých modulov, a preto môže obsahovať aj iné programovacie / skriptovacie jazykyMapReduce je v podstate písaný v programovacom jazyku Java

rámec

Hadoop má nielen úložný rámec, ktorý ukladá údaje, ale vytvára aj uzly názvov a dátové uzly, ale má aj iné rámce, ktoré zahŕňajú samotnú MapReduce.MapReduce je programovací rámec, ktorý na triedenie / spracovanie údajov používa kľúčové mapovanie hodnôt

Nižšie uvedený údaj pomôže pri odlíšení MapReduce od spoločnosti Hadoop.

MapReduce Framework

  • Ako vidno z vyššie uvedeného obrázku, MapReduce je distribuovaný rámec spracovania, zatiaľ čo Hadoop je zbierka všetkých rámcov.

Záver - Hadoop vs MapReduce

Hadoop je open source získal popularitu, pretože sa mohol používať zadarmo a programátori môžu zmeniť kód podľa svojich potrieb. Eko-systém Hadoop bol v posledných rokoch vyvíjaný nepretržite, aby sa eko-systém čo najviac zbavil chýb.

S neustále sa meniacimi sa potrebami sveta sa technológia rýchlo mení a je ťažké sledovať zmeny. Údaje, ktoré sa generujú za mesiac, sa pri čítaní tohto článku zdvojnásobujú / strojnásobia a potreba rýchlejšieho spracovania súborov údajov viedla k mnohým iným programovacím rámcom, ako sú MapReduce 2, Spark atď.

Odporúčané články

Toto bol návod pre Hadoop vs MapReduce, ich význam, porovnanie medzi dvoma hlavami, kľúčové rozdiely, porovnávacie tabuľky a závery. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Rozdiel medzi Hadoop a Redshift
  2. Zistite 6 najlepších rozdielov medzi Apache Hadoop a Apache Storm
  3. Porovnanie medzi Hadoop Vs SQL
  4. Poznajte MapReduce vs Spark
  5. Hadoop vs Spark: Funkcie
  6. Laravel vs Codeigniter: Funkcie

Kategórie: