Ekosystém Hadoop Sprievodca po koncepcii a príklade ekosystému Hadoop

Úvod do ekosystému Hadoop

Apache Hadoop je systém s otvoreným zdrojovým kódom, ktorý spoľahlivo ukladá a spracúva veľa informácií na mnohých komoditných počítačoch. Hadoop bol prvýkrát napísaný v novinách a publikovaný v októbri 2013 ako „Systém súborov Google“. Doug Cutting, ktorý v tom čase pracoval v Yahoo, predstavil meno ako ekosystém Hadoop na základe mena synovej hračky. Ak vezmeme do úvahy hlavné jadro Apache Hadoop, potom môže najprv zvážiť časť úložného priestoru, ktorá je známa ako Distribuovaný súborový systém Hadoop (HDFS), a druhú časť spracovania, ktorá je známa ako modul Map Reduce Programming. Hadoop v skutočnosti rozdelí jeden obrovský súbor a uloží ho do viacerých uzlov v klastri.

Koncept ekosystému Hadoop

Framework Apache Hadoop drží hlavne pod modulmi:

Hadoop Common: obsahuje všetky knižnice a pomocné programy potrebné na používanie modulu Hadoop.
Distribuovaný súborový systém Hadoop (HDFS): Je to jeden z distribuovaných súborových systémov, ktorý pomáha ukladať obrovské dáta do viacerých alebo komoditných počítačov. Poskytujú tiež veľkú utilitu v prípade šírky pásma, zvyčajne poskytujú veľmi veľkú šírku pásma v type agregátu na klastri.
Hadoop Yarn: Zaviedla sa v roku 2012. Je určená predovšetkým na správu zdrojov vo všetkých komoditných systémoch aj v klastroch. Na základe možností zdrojov distribuovala alebo naplánovala aplikáciu používateľa podľa požiadavky.
Hadoop MapReduce: Pomáha hlavne spracovať rozsiahle údaje pomocou metodiky programovania zmenšenia máp.

Apache Hadoop vždy pomáha pri znižovaní nákladov na IT, pokiaľ ide o inteligentné spracovanie a ukladanie obrovských údajov. Keďže Apache Hadoop je otvorený zdroj a hardvér je bežne k dispozícii, vždy nám pomáha pri správnom znižovaní nákladov na IT.

Open Source Software + Commodity Hardware = Zníženie nákladov na IT

Napríklad, ak uvažujeme o dennom prijímaní 942787 súborov a adresárov, ktoré vyžadujú 4077936 blokov, celkom 5020723 blokov. Takže ak sme nakonfigurovali najmenej 1, 46 PB kapacity, potom pri spracovaní nad záťažou bude distribuovaný súborový systém používať 1, 09 PB, čo znamená takmer 74, 85% z celkovej nakonfigurovanej kapacity, pričom zvažujeme 178 živých a 24 mŕtvych uzlov.

Ekosystém Hadoop je určený predovšetkým na ukladanie a spracovanie veľkých údajov, ktoré majú zvyčajne niektoré kľúčové vlastnosti, ako sú uvedené nižšie:

objem

Zväzok predstavuje veľkosť údajov, ktoré sa skutočne uložili a vygenerovali. V závislosti od veľkosti údajov, ktoré boli stanovené, je súbor údajov veľký alebo nie.

odroda

Odroda znamená druh, štruktúru a typ použitých údajov.

rýchlosť

Rýchlosť predstavuje rýchlosť údajov, ktoré boli uložené a vygenerované v konkrétnom vývojovom procese.

pravdovravnosť

Pravdivosť znamená kvalitu zozbieraných údajov a tiež pomáha analýze údajov dosiahnuť zamýšľaný cieľ.

HDFS je určený predovšetkým na ukladanie veľmi veľkého množstva informácií (terabajtov alebo petabytov) cez veľké množstvo počítačov v klastri. Vždy zachováva niektoré bežné vlastnosti, ako je spoľahlivosť údajov, beží na komoditnom hardvéri, používa bloky na uloženie súboru alebo jeho časti, využíva model „písať raz prečítať veľa“.

HDFS nasledujúca pod architektúrou s konceptom Name Node a Data Node.

Zodpovednosť Name Node (Master):

- riadi menný priestor súborového systému

- udržuje konfiguráciu klastra

- Zodpovedný za správu replikácie

Zodpovednosť dátového uzla (slave):

- Ukladajte údaje do lokálneho systému súborov

- Pravidelne podávajte správy späť do menovacieho uzla prostredníctvom srdcového rytmu

Operácia zápisu HDFS:

Hadoop pri písaní veľkých súborov postupuje podľa nasledujúcich krokov:

Vytvorte súbor a aktualizujte obraz FS po získaní jednej žiadosti o zápis súboru od ktoréhokoľvek klienta HDFS.
Získajte informácie o umiestnení bloku alebo o podrobnostiach o dátovom uzle z uzla s menom.
Paket zapisujte jednotlivým dátovým uzlom paralelne.
Potvrdiť dokončenie alebo prijatie zápisu paketu a poslať späť informácie klientovi Hadoop.

Potrubie replikácie HDFS blokov:

Klient načíta zoznam Datanodes z Namenode, ktorý bude hosťovať repliku tohto bloku
Klient potom prepláchne dátový blok do prvého Datanode
Prvý Datanode prijme blok, zapíše ho a prenesie ho do ďalšieho dátového uzla v potrubí
Po zapísaní všetkých replík sa klient presunie na ďalší blok v súbore

Tolerancia porúch HDFS:

Jeden dátový uzol sa náhle vypol, v tom prípade má systém HDFS schopnosť automaticky riadiť tento scenár. Po prvé, všetky uzly mien sa vždy dostanú z každého dátového uzla, jeden srdcový rytmus, ak akokoľvek stratil jeden srdcový rytmus z jedného dátového uzla, vzhľadom na rovnaký dátový uzol ako nadol, okamžite podniknite kroky na automatickú replikáciu všetkých blokov na zostávajúcich uzloch, aby sa uspokojila replikácia. faktorom.

Ak menný uzol zistí jeden nový dátový uzol, ktorý je k dispozícii v klastri, okamžite sa znova vyvážia všetky bloky vrátane pridaného dátového uzla.

Teraz nejako stratí alebo zlyhalo meno uzla, v tomto prípade aj záložný uzol, ktorý drží jeden obraz FS uzla, okamžite prehrá všetky operácie FS a podľa potreby uzol uzla. V takom prípade je však potrebný manuálny zásah a celý rámec ekosystému Hadoop bude niekoľkokrát zrušený, aby sa znova vytvoril nový uzol názvu. Takže v tomto prípade môže byť menný uzol zlyhaním jedného bodu, aby sa predišlo tomuto scenáru. HDFS Federation zavedením viacerých klastrov nastavených na menný uzol a ZooKeeper môže podľa požiadavky okamžite spravovať jeden alternatívny menný uzol.

Príklady ekosystému Hadoop

Úplný príklad ekosystému Hadoop je možné správne vysvetliť na nasledujúcom obrázku:

Dáta môžu pochádzať z ľubovoľného zdroja, napríklad z dátového skladu, z úložiska spravovaných dokumentov, z zdieľaných súborov, z databáz normálneho RDMS alebo z cloudu alebo z externých zdrojov. Všetky tieto údaje prišli do systému HDFS štruktúrovanou alebo neštruktúrovanou alebo pološtrukturovanou cestou. HDFS ukladá všetky tieto údaje distribuovaným spôsobom, čo znamená inteligentné ukladanie v distribuovanom komoditnom systéme.

záver

Ekosystém Hadoop bol navrhnutý hlavne na ukladanie a spracovanie obrovských údajov, ktoré mali predstavovať ktorýkoľvek z dvoch faktorov medzi objemom, rýchlosťou a rozmanitosťou. Ukladá údaje v distribuovanom systéme spracovania, ktorý beží na komoditnom hardvéri. Vzhľadom na celý proces ekosystému Hadoop distribuuje HDFS dátové bloky a program Map Reduce poskytuje programovací rámec na čítanie údajov zo súboru uloženého v HDFS.

Odporúčané články:

Toto bol sprievodca ekosystémom Hadoop. Tu sme diskutovali o základnej koncepcii ekosystému Hadoop, jeho architektúre, operáciách HDFS, príkladoch, odolnosti voči poruchám HDFS atď. Ďalšie informácie nájdete v nasledujúcich článkoch -

Použitie Hadoopu v reálnom svete
Hadoop vs Splunk
Kariéra v Hadoope
Hadoop verzus SQL Performance

Ekosystém Hadoop Sprievodca po koncepcii a príklade ekosystému Hadoop

Obsah:

Úvod do ekosystému Hadoop

Koncept ekosystému Hadoop

Zodpovednosť Name Node (Master):

Zodpovednosť dátového uzla (slave):

Operácia zápisu HDFS:

Potrubie replikácie HDFS blokov:

Tolerancia porúch HDFS:

Príklady ekosystému Hadoop

záver

Odporúčané články:

Techniky analýzy veľkých údajov Techniky používané v pohostinstve Indusrty

Top 8 rozhovorov a otázok týkajúcich sa veľkých dátových inžinierov (aktualizované pre rok 2019)

Architektúra veľkých dát Čo sú to veľké dáta? - Top 8 architektúry veľkých dát

Koncepty veľkých dát 16 Dôležité tipy pre koncepty veľkých dát

Big Data vs Data Science - Ako sa líšia?

5 školení a certifikácie o vývoji najlepších mobilných aplikácií eduCBA

10 najčastejších otázok o rozhovoroch týkajúcich sa testovania mobilných aplikácií (aktualizované pre rok 2019)

Mobilné aplikácie vs webové aplikácie Ktorý z nich je užitočnejší (s infografikou)

8 najlepších jazykov programovania mobilných aplikácií, ktoré by ste mali poznať eduCBA

7 kreatívnych spôsobov, ako spravovať svoje mobilné aplikácie edu CBA

Ako extrahovať 2 hodiny denne, aby ste viac pracovali? - edu CBA

Presúvanie práv - 3 typy a 5 súčastí práv pretiahnutia

Vykonajte slučku v Pythone Napodobniť medzičasom slučku v Pythone (príklad)

Vzorec DPMO Ako vypočítať DPMO (šablóna Excel)

Otázky na pohovor Drupal Najužitočnejšie a najžiadanejšie