Hadoop YARN Architektúra Rôzne komponenty YARN

Obsah:

Anonim

Úvod do architektúry Hadoop YARN

MapReduce bol použitý na vykonávanie riadenia zdrojov a spracovania v staršej verzii Hadoop 1.0. Tu Job Jober vykonal úlohy prideľovania zdrojov, plánovania a monitorovania úloh priradením máp a obmedzením úloh programu Tracker. To viedlo k problémom, ako je škálovateľnosť, neefektívne využívanie zdrojov. Keďže rámec Hadoop prešiel v priebehu rokov niekoľkými zmenami; vidíme, že sa dá použiť na výkon oveľa viac, než len na vykonávanie úloh MapReduce. YARN znamená ešte ďalší prostriedok na vyjednávanie zdrojov, ktorý sa nazýva systém riadenia klastrov spoločnosti Hadoop, ktorý bol predstavený s produktom Hadoop 2.0 na podporu distribuovaného výpočtového systému, čo tiež zlepšuje implementáciu MapReduce. V YARN sú manažér prostriedkov a plánovače mimo rámca. Takže v roku YARN, aj keď máme dátové uzly, už neexistujú sledovače úloh ani sledovače úloh. S programom YARN môžeme mať aj správu zdrojov a všeobecné plánovanie. V tejto téme sa dozvieme o rôznych architektúrach YARN

Vysvetlite architektúru Hadoop YARN pomocou schémy

(Architektúra Hadoop YARN)

Spoločnosť YARN predstavuje v Hadoop 2.0 koncept manažéra zdrojov a aplikačného majstra. Správca prostriedkov vidí použitie prostriedkov v klastri Hadoop, zatiaľ čo životný cyklus aplikácií, ktoré sú spustené v konkrétnom klastri, dohliada na aplikačný kmeň. V zásade môžeme povedať, že v prípade klastrových prostriedkov rokuje aplikačný majster so správcom prostriedkov. Túto úlohu vykonávajú kontajnery, ktoré majú určité obmedzenia pamäte. Potom sa tieto kontajnery použijú na spustenie procesov špecifických pre aplikáciu a tiež na tieto kontajnery dohliadajú manažéri uzlov, ktorí bežia na uzloch v klastri. Potvrdí sa tým, že aplikácia nevyužíva viac ako pridelené prostriedky.

Rôzne komponenty YARN

Nižšie sú uvedené rôzne zložky YARN.

1) Správca zdrojov

YARN pracuje prostredníctvom Správcu zdrojov, ktorý je jeden na uzol a Správcu uzlov, ktorý beží na všetkých uzloch. Správca prostriedkov riadi zdroje používané v klastri a Správca uzlov obedy a monitoruje kontajnery. Plánovač a Správca aplikácií sú dve súčasti Správcu prostriedkov.

  • Plánovač : Plánovanie sa vykonáva na základe požiadavky zdrojov na aplikácie. YARN poskytuje niekoľko plánovačov na výber a sú spravodlivé a kapacitné. V prípade zlyhania hardvéru alebo aplikácie plánovač nezabezpečuje reštartovanie zlyhaných úloh. Plánovač tiež prideľuje prostriedky spusteným aplikáciám na základe kapacity a poradia.
  • Správca aplikácií : Riadi chod aplikácie Master v klastri a pri zlyhaní kontajnera aplikácie Master Master pomáha pri jeho reštartovaní. Rovnako nesie zodpovednosť za prijímanie ponúk.

2) Správca uzlov

Správca uzlov je zodpovedný za vykonanie úlohy v každom dátovom uzle. Správca uzlov v YARN predvolene odosiela správcu zdrojov správcovi prostriedkov, ktorý nesie informácie o spustených kontajneroch ao dostupnosti zdrojov pre nové kontajnery. Je zodpovedný za individuálne prezeranie uzlov v klastri a za riadenie pracovného toku a úloh používateľa v konkrétnom uzle. Spravuje hlavne kontajnery aplikácií, ktoré sú pridelené správcom prostriedkov. Správca uzlov spúšťa kontajnery vytvorením požadovaných procesov kontajnerov a tiež zabije kontajnery podľa požiadaviek Správcu prostriedkov.

3) Kontajnery

Kontajnery sú sada prostriedkov ako RAM, CPU a pamäť atď. Na jednom uzle a sú naplánované správcom prostriedkov a monitorované správcom uzlov. Životný cyklus kontajnera riadi kontajnery YARN pomocou kontextu spúšťania kontajnerov a poskytuje prístup k aplikácii na konkrétne použitie zdrojov v konkrétnom hostiteľovi.

4) Aplikácia Master

Monitoruje vykonávanie úloh a riadi aj životný cyklus aplikácií bežiacich na klastri. Po odovzdaní do rámca sa k úlohe priradí individuálny kmeň aplikácií. Jeho hlavnou zodpovednosťou je vyjednávať zdroje od správcu prostriedkov. Monitorovanie a vykonávanie úloh spolupracuje s Správcom uzlov.

Na spustenie aplikácie prostredníctvom YARN sa vykonávajú nasledujúce kroky.

  • Klient kontaktuje manažéra zdrojov, ktorý žiada o spustenie procesu aplikácie, tj odošle aplikáciu YARN.
  • Ďalším krokom je, že Správca prostriedkov vyhľadá Správcu uzlov, ktorý následne spustí Hlavný program aplikácií v kontajneri.
  • Aplikácia Master môže spustiť vykonanie v kontajneri, v ktorom práve beží, a poskytnúť výsledok klientovi, alebo môže od manažéra prostriedkov požadovať viac kontajnerov, ktoré sa môžu nazývať distribuované výpočty.
  • Klient potom kontaktuje správcu prostriedkov, aby monitoroval stav aplikácie.

S MapReduce v Hadoop verzie 1.0 (MRV1) bol definovaný počet máp a redukovaných slotov na uzol. Aj v klastri Hadoop, keďže sa hardvérové ​​možnosti menili a počet úloh na konkrétnom uzle sa musel ručne obmedziť. S YARN je tento nedostatok prekonaný, pretože tu Správca zdrojov vie o kapacite každého uzla, keď komunikuje s Správcom uzlov, ktorý beží na každom uzle.

Záver - architektúra Hadoop YARN

YARN pomáha pri prekonávaní problému škálovateľnosti MapReduce v Hadoop 1.0, pretože rozdeľuje prácu nástroja Job Tracker, a to tak pri plánovaní úloh, ako aj pri monitorovaní postupu úloh. Problém dostupnosti je tiež prekonaný, pretože v Hadoop 1.0 zlyhanie sledovača úloh viedlo k reštartovaniu úloh. Spoločnosť YARN prišla s mnohými pridanými bonusmi, napríklad lepším využívaním zdrojov, pretože pre úlohy neexistuje pevný slot, pretože poskytuje centrálnu správu zdrojov. S YARN je teda veľa problémov, ktoré sa vyskytli v predchádzajúcej verzii Hadoop, prekonané, pretože pomáha pri oddelení spracovania údajov od plánovania a správy zdrojov. S YARN je možné spúšťať interaktívne dotazy nezávisle a poskytovať lepšiu analýzu v reálnom čase.

Odporúčané články

Toto bol sprievodca architektúry Hadoop YARN. Tu diskutujeme o rôznych komponentoch YARN, medzi ktoré patria Resource Manager, Node Manager a Containers spolu s architektúrou. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Ekosystém Apache Hadoop
  2. Komponenty ekosystému Hadoop
  3. Hadoop Components
  4. Hadoop ekosystém