Úvod do ekosystému Hadoop

Apache Hadoop je systém s otvoreným zdrojovým kódom, ktorý spoľahlivo ukladá a spracúva veľa informácií na mnohých komoditných počítačoch. Hadoop bol prvýkrát napísaný v novinách a publikovaný v októbri 2013 ako „Systém súborov Google“. Doug Cutting, ktorý v tom čase pracoval v Yahoo, predstavil meno ako ekosystém Hadoop na základe mena synovej hračky. Ak vezmeme do úvahy hlavné jadro Apache Hadoop, potom môže najprv zvážiť časť úložného priestoru, ktorá je známa ako Distribuovaný súborový systém Hadoop (HDFS), a druhú časť spracovania, ktorá je známa ako modul Map Reduce Programming. Hadoop v skutočnosti rozdelí jeden obrovský súbor a uloží ho do viacerých uzlov v klastri.

Koncept ekosystému Hadoop

Framework Apache Hadoop drží hlavne pod modulmi:

  1. Hadoop Common: obsahuje všetky knižnice a pomocné programy potrebné na používanie modulu Hadoop.
  2. Distribuovaný súborový systém Hadoop (HDFS): Je to jeden z distribuovaných súborových systémov, ktorý pomáha ukladať obrovské dáta do viacerých alebo komoditných počítačov. Poskytujú tiež veľkú utilitu v prípade šírky pásma, zvyčajne poskytujú veľmi veľkú šírku pásma v type agregátu na klastri.
  3. Hadoop Yarn: Zaviedla sa v roku 2012. Je určená predovšetkým na správu zdrojov vo všetkých komoditných systémoch aj v klastroch. Na základe možností zdrojov distribuovala alebo naplánovala aplikáciu používateľa podľa požiadavky.
  4. Hadoop MapReduce: Pomáha hlavne spracovať rozsiahle údaje pomocou metodiky programovania zmenšenia máp.

Apache Hadoop vždy pomáha pri znižovaní nákladov na IT, pokiaľ ide o inteligentné spracovanie a ukladanie obrovských údajov. Keďže Apache Hadoop je otvorený zdroj a hardvér je bežne k dispozícii, vždy nám pomáha pri správnom znižovaní nákladov na IT.

Open Source Software + Commodity Hardware = Zníženie nákladov na IT

Napríklad, ak uvažujeme o dennom prijímaní 942787 súborov a adresárov, ktoré vyžadujú 4077936 blokov, celkom 5020723 blokov. Takže ak sme nakonfigurovali najmenej 1, 46 PB kapacity, potom pri spracovaní nad záťažou bude distribuovaný súborový systém používať 1, 09 PB, čo znamená takmer 74, 85% z celkovej nakonfigurovanej kapacity, pričom zvažujeme 178 živých a 24 mŕtvych uzlov.

Ekosystém Hadoop je určený predovšetkým na ukladanie a spracovanie veľkých údajov, ktoré majú zvyčajne niektoré kľúčové vlastnosti, ako sú uvedené nižšie:

  • objem

Zväzok predstavuje veľkosť údajov, ktoré sa skutočne uložili a vygenerovali. V závislosti od veľkosti údajov, ktoré boli stanovené, je súbor údajov veľký alebo nie.

  • odroda

Odroda znamená druh, štruktúru a typ použitých údajov.

  • rýchlosť

Rýchlosť predstavuje rýchlosť údajov, ktoré boli uložené a vygenerované v konkrétnom vývojovom procese.

  • pravdovravnosť

Pravdivosť znamená kvalitu zozbieraných údajov a tiež pomáha analýze údajov dosiahnuť zamýšľaný cieľ.

HDFS je určený predovšetkým na ukladanie veľmi veľkého množstva informácií (terabajtov alebo petabytov) cez veľké množstvo počítačov v klastri. Vždy zachováva niektoré bežné vlastnosti, ako je spoľahlivosť údajov, beží na komoditnom hardvéri, používa bloky na uloženie súboru alebo jeho časti, využíva model „písať raz prečítať veľa“.

HDFS nasledujúca pod architektúrou s konceptom Name Node a Data Node.

Zodpovednosť Name Node (Master):

- riadi menný priestor súborového systému

- udržuje konfiguráciu klastra

- Zodpovedný za správu replikácie

Zodpovednosť dátového uzla (slave):

- Ukladajte údaje do lokálneho systému súborov

- Pravidelne podávajte správy späť do menovacieho uzla prostredníctvom srdcového rytmu

Operácia zápisu HDFS:

Hadoop pri písaní veľkých súborov postupuje podľa nasledujúcich krokov:

  1. Vytvorte súbor a aktualizujte obraz FS po získaní jednej žiadosti o zápis súboru od ktoréhokoľvek klienta HDFS.
  2. Získajte informácie o umiestnení bloku alebo o podrobnostiach o dátovom uzle z uzla s menom.
  3. Paket zapisujte jednotlivým dátovým uzlom paralelne.
  4. Potvrdiť dokončenie alebo prijatie zápisu paketu a poslať späť informácie klientovi Hadoop.

Potrubie replikácie HDFS blokov:

  1. Klient načíta zoznam Datanodes z Namenode, ktorý bude hosťovať repliku tohto bloku
  2. Klient potom prepláchne dátový blok do prvého Datanode
  3. Prvý Datanode prijme blok, zapíše ho a prenesie ho do ďalšieho dátového uzla v potrubí
  4. Po zapísaní všetkých replík sa klient presunie na ďalší blok v súbore

Tolerancia porúch HDFS:

Jeden dátový uzol sa náhle vypol, v tom prípade má systém HDFS schopnosť automaticky riadiť tento scenár. Po prvé, všetky uzly mien sa vždy dostanú z každého dátového uzla, jeden srdcový rytmus, ak akokoľvek stratil jeden srdcový rytmus z jedného dátového uzla, vzhľadom na rovnaký dátový uzol ako nadol, okamžite podniknite kroky na automatickú replikáciu všetkých blokov na zostávajúcich uzloch, aby sa uspokojila replikácia. faktorom.

Ak menný uzol zistí jeden nový dátový uzol, ktorý je k dispozícii v klastri, okamžite sa znova vyvážia všetky bloky vrátane pridaného dátového uzla.

Teraz nejako stratí alebo zlyhalo meno uzla, v tomto prípade aj záložný uzol, ktorý drží jeden obraz FS uzla, okamžite prehrá všetky operácie FS a podľa potreby uzol uzla. V takom prípade je však potrebný manuálny zásah a celý rámec ekosystému Hadoop bude niekoľkokrát zrušený, aby sa znova vytvoril nový uzol názvu. Takže v tomto prípade môže byť menný uzol zlyhaním jedného bodu, aby sa predišlo tomuto scenáru. HDFS Federation zavedením viacerých klastrov nastavených na menný uzol a ZooKeeper môže podľa požiadavky okamžite spravovať jeden alternatívny menný uzol.

Príklady ekosystému Hadoop

Úplný príklad ekosystému Hadoop je možné správne vysvetliť na nasledujúcom obrázku:

Dáta môžu pochádzať z ľubovoľného zdroja, napríklad z dátového skladu, z úložiska spravovaných dokumentov, z zdieľaných súborov, z databáz normálneho RDMS alebo z cloudu alebo z externých zdrojov. Všetky tieto údaje prišli do systému HDFS štruktúrovanou alebo neštruktúrovanou alebo pološtrukturovanou cestou. HDFS ukladá všetky tieto údaje distribuovaným spôsobom, čo znamená inteligentné ukladanie v distribuovanom komoditnom systéme.

záver

Ekosystém Hadoop bol navrhnutý hlavne na ukladanie a spracovanie obrovských údajov, ktoré mali predstavovať ktorýkoľvek z dvoch faktorov medzi objemom, rýchlosťou a rozmanitosťou. Ukladá údaje v distribuovanom systéme spracovania, ktorý beží na komoditnom hardvéri. Vzhľadom na celý proces ekosystému Hadoop distribuuje HDFS dátové bloky a program Map Reduce poskytuje programovací rámec na čítanie údajov zo súboru uloženého v HDFS.

Odporúčané články:

Toto bol sprievodca ekosystémom Hadoop. Tu sme diskutovali o základnej koncepcii ekosystému Hadoop, jeho architektúre, operáciách HDFS, príkladoch, odolnosti voči poruchám HDFS atď. Ďalšie informácie nájdete v nasledujúcich článkoch -

  1. Použitie Hadoopu v reálnom svete
  2. Hadoop vs Splunk
  3. Kariéra v Hadoope
  4. Hadoop verzus SQL Performance

Kategórie: