Úvod do komponentov Hadoop

Hadoop Components sú hlavne HDFS, Map Reduce, Yarn. Dnes žijeme v digitálnom veku, v ktorom je miera produkcie údajov veľmi vysoká, približne denne vyrábame 2, 5 litrov údajov. Aj keď úložná kapacita diskov sa zvyšuje, ale miera vyhľadávania sa pri tomto objeme údajov nezvýšila. Aby sme to prekonali, musíme si prečítať dáta paralelne, aby sme to dosiahli v Hadoope, máme HDFS (Hadoop Distributed File System), kde sú súbory údajov uložené ako bloky v HDFS (viac informácií nájdete v časti HDFS), aby sme mohli dáta paralelne čítať a dosiahnuť vyššia rýchlosť spracovania. Spracovanie údajov sa vykonáva za účelom získania alebo predpovedania niektorých zmysluplných informácií alebo získania niektorých trendov alebo vzorov. Proces MapReduce sa používa na dosiahnutie požadovaných informácií. Map a Reduce sú dve rôzne fázy spracovania údajov.

Hlavné komponenty Hadoopu

Hlavné komponenty Hadoopu sú opísané nižšie:

1. Distribuovaný systém súborov Hadoop (HDFS)

HDFS je úložná vrstva pre veľké dáta, je to klaster mnohých počítačov, uložené dáta môžu byť použité na spracovanie pomocou Hadoop. Akonáhle sú dáta presunuté do HDFS, môžeme ich kedykoľvek spracovať, až kým nespracujeme dáta, zostanú v HDFS, dokým súbory neodstránime manuálne. HDFS ukladá dáta ako blok, minimálna veľkosť bloku je 128 MB v Hadoop 2.xa pre 1.x to bolo 64 MB. HDFS replikuje bloky pre dostupné údaje, ak sú dáta uložené v jednom počítači a ak stroj zlyhá, údaje sa nestratia, ale aby sa im zabránilo, údaje sa replikujú na rôznych strojoch. Replikačný faktor je predvolene 3 a môžeme zmeniť v HDFS-site.xml alebo pomocou príkazu Hadoop fs -strep -w 3 / dir replikáciou máme bloky na rôznych strojoch pre vysokú dostupnosť.
HDFS je architektúra master-slave, je to NameNode ako master a dátový uzol ako slave. NameNode je stroj, v ktorom sú uložené všetky metaúdaje všetkých blokov uložených v DataNode.

2. YARN

YARN bol predstavený v Hadoop 2.x, predtým mal Hadoop JobTracker pre správu zdrojov. Job Tracker bol majstrom a ako otrok mal Tracker úloh. Job Tracker bol tím, ktorý sa staral o plánovanie úloh a pridelenie zdrojov. Aplikácia Task Tracker sa starala o Mapy a Redukovala úlohy a stav sa pravidelne aktualizoval na Job Tracker. S typom správcu prostriedkov mal limit škálovateľnosti a súčasné vykonávanie úloh malo aj obmedzenia. Tieto problémy boli riešené v YARN a staral sa o prideľovanie zdrojov a plánovanie úloh v klastri. Vykonanie úlohy Map Reduce vyžaduje prostriedky v klastri, aby sa získali prostriedky pridelené na úlohu, ktorú YARN pomáha. YARN určuje, ktorá úloha sa vykonáva a ktorý stroj sa vykonáva. Má všetky informácie o dostupných jadrách a pamäti v klastri, sleduje spotrebu pamäte v klastri. Interaguje s NameNode o údajoch, na ktorých sa nachádza, aby rozhodol o pridelení prostriedkov.

3. MapReduce

Ekosystém Hadoop je nákladovo efektívny, škálovateľný a flexibilný spôsob práce s takými rozsiahlymi súbormi údajov. Hadoop je rámec, ktorý používa konkrétny programovací model, nazývaný MapReduce, na rozdelenie výpočtových úloh na bloky, ktoré je možné distribuovať okolo klastra komoditných strojov pomocou Hadoop Distributed Filesystem (HDFS).

MapReduce sú dve rôzne úlohy Map a Reduce, Map predchádza fáze Reducer. Ako už názov napovedá, Mapová fáza mapuje dáta do párov kľúč - hodnota, ako všetci vieme, Hadoop využíva kľúčové hodnoty na spracovanie. Fáza reduktora je fáza, v ktorej máme implementovanú skutočnú logiku. Okrem týchto dvoch fáz implementuje aj fázu miešania a triedenia.

1. Mapovač

Mapper je trieda, kde sa vstupný súbor prevádza na dvojicu kľúčov a hodnôt na ďalšie spracovanie. Pri čítaní údajov sa načítava v hodnotách kľúča iba v prípade, že kľúčom je bitové posunutie a hodnota predstavuje celý záznam.

Napríklad máme súbor Diary.txt, v ktorom máme napísané dva riadky, tj dva záznamy.

Je to úžasný deň, ktorý by sme si tu mali užiť, odchýlky pre „t“ je 0 a pre „w“ je to 33 (biele znaky sa tiež považujú za znak), takže mapovač načíta údaje ako pár kľúč - hodnota, ako (kľúč, hodnota), (0, je to nádherný deň), (33, mali by sme si ho užiť)

2. Redukčné zariadenie

Reduktor je trieda, ktorá prijíma kľúče a hodnoty z výstupu fázy mapovača. Klávesy a hodnoty generované z mapovača sa akceptujú ako vstup do reduktora na ďalšie spracovanie. Reduktor prijíma údaje od viacerých mapovačov. Reduktor agreguje tieto prechodné údaje na znížený počet kľúčov a hodnôt, čo je konečný výstup, toto uvidíme v príklade.

3. Vodič

Okrem triedy mapovačov a reduktorov potrebujeme ešte jednu triedu, a to triedu Driver. Tento kód je potrebný pre MapReduce, pretože je mostom medzi implementovaným rámcom a logikou. Špecifikuje konfiguráciu, cestu vstupných údajov, cestu výstupného úložiska a čo je najdôležitejšie, ktoré triedy mapovača a redukcie je potrebné implementovať, tiež sa v tejto triede nastaví mnoho ďalších konfigurácií. napr. v triede ovládačov, môžeme určiť oddeľovač pre výstupný súbor, ako je to znázornené v triede ovládačov z nižšie uvedeného príkladu.

príklad

Zoberme si, že máme súbor údajov o cestovnej kancelárii, a teraz musíme z údajov vypočítať, koľko ľudí sa rozhodne cestovať do konkrétneho cieľa. Aby sme to dosiahli, budeme potrebovať cieľ ako kľúč a pre počet, vezmeme hodnotu ako 1. Takže vo fáze mapovania budeme mapovať cieľ na hodnotu 1. Teraz v namiešanej a triediacej fáze za mapovačom, zmapuje všetky hodnoty na konkrétny kľúč. Napríklad, ak máme cieľ ako MAA, namapovali sme 1 a tiež máme 2 výskyty po premiešaní a triedení dostaneme MAA, (1, 1) kde (1, 1) je hodnota. Teraz vo fáze reduktora už máme implementovanú logiku vo fáze reduktora na pridávanie hodnôt na získanie celkového počtu rezervovaných vstupeniek do cieľa. Toto je tok MapReduce.

Nižšie je snímka obrazovky implementovaného programu z vyššie uvedeného príkladu.

1. Trieda vodiča

2. Mapovacia trieda

3. Redukčná trieda

Vykonanie Hadoopu

Aby sme vykonali Hadoop, musíme najprv zostaviť jar a potom ho spustiť pomocou príkazu Hadoop jar eample.jar /input.txt /output.txt.

záver

Tu sme diskutovali o základných komponentoch Hadoopu ako HDFS, Map Reduce a YARN. Je to distribuovaná platforma pre výpočet klastrov, ktorá pomáha ukladať a spracovávať údaje a vykonávať požadovanú analýzu zachytených údajov. Hadoop je flexibilný, spoľahlivý z hľadiska dát, pretože dáta sú replikované a škálovateľné, tj môžeme do klastra pridať ďalšie stroje na ukladanie a spracovanie údajov.

Odporúčané články

Toto bol návod pre komponenty Hadoop Components. Tu sme diskutovali základné komponenty Hadoopu s príkladmi. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Úvod do architektúry JDBC
  2. Čo je Hadoop Cluster?
  3. Čo je MapReduce v Hadoope?
  4. Čo je Big data and Hadoop
  5. Hadoop fs Príkazy

Kategórie: