Hadoop Cluster Interview Otázky a odpovede

Účelom tohto článku je pomôcť všetkým uchádzačom o veľké údaje odpovedať na všetky otázky týkajúce sa rozhovoru s Hadoop Cluster Interview týkajúce sa nastavenia prostredia veľkých dát v organizácii. Tento dotazník pomôže pri nastavovaní dátových uzlov, uzlov mien a definovaní kapacity hostovaného servera veľkých dátových démonov.

Takže ak ste konečne našli vysnívanú prácu v Hadoop Cluster, ale premýšľate, ako rozlúštiť rozhovor Hadoop Cluster a aké by mohli byť pravdepodobné otázky Hadoop Cluster Interview. Každý pohovor je iný a rozsah zamestnania je tiež odlišný. S ohľadom na to sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovoru s klastrom Hadoop, ktoré vám pomôžu dosiahnuť úspech v rozhovore.

Niektoré z najdôležitejších otázok Hadoop Cluster Interview, ktoré sa často kladú pri rozhovore, sú nasledujúce:

1.Aké sú hlavné komponenty Hadoop v klastri Hadoop?

Odpoveď:
Hadoop je rámec, v ktorom spracúvame veľké údaje, alebo Hadoop je platforma, na ktorej je možné spracovať obrovské množstvo údajov na komoditných serveroch. Hadoop je kombináciou mnohých komponentov. Nasledujú hlavné komponenty v prostredí Hadoop.
Uzol názvu : Je to hlavný uzol, ktorý sa stará o všetky informácie o údajových uzloch a umiestnenie údajov vo formáte metadát.
Uzol sekundárneho názvu : Funguje ako primárny uzol názvu, ak uzol primárneho názvu klesol.
HDFS (Distribuovaný systém súborov Hadoop) : Postará sa o všetko ukladanie klastra Hadoop.
Dátové uzly : Dátové uzly sú podriadené uzly. Aktuálne dáta sa ukladajú na spracovanie do slave uzlov.
YARN (ešte ďalší vyjednávač zdrojov) : Softvérový rámec na písanie aplikácií a spracovanie obrovského množstva údajov. Poskytuje rovnaké funkcie ako MapReduce, navyše by to umožnilo, aby každá dávková úloha prebiehala paralelne v klastri Hadoop.

2.Ako naplánovať ukladanie údajov v klastri Hadoop?

Odpoveď:
Úložisko je založené na vzorci (Ukladanie = Denné prijímanie údajov * Replikácia).
Ak klaster Hadoop získava údaje 120 TB denne a máme predvolený replikačný faktor, takže by bola denná požiadavka na ukladanie údajov
Požiadavka na ukladanie dát = 120 TB (denné prijímanie údajov) * 3 (predvolená replikácia) => 360 TB
V dôsledku toho musíme pre požiadavku denného príjmu údajov nastaviť najmenej 360 TB dátových klastrov.
Ukladanie závisí aj od požiadavky na uchovávanie údajov. V prípade, že chceme, aby sa údaje ukladali 2 roky v tom istom klastri, musíme si podľa požiadaviek na uchovávanie zaistiť dátové uzly.

3.Výpočet počtu dátových uzlov.

Odpoveď:
Potrebujeme vypočítať počet údajových uzlov požadovaných pre klaster Hadoop. Predpokladajme, že máme servery s JBOD s 10 diskami a každý disk má veľkosť 4 TB, takže každý server má kapacitu 40 TB. Klaster Hadoop získava údaje 120 TB za deň a 360 TB po použití predvoleného replikačného faktora.
Počet dátových uzlov = Denné prijímanie údajov / kapacita dátových uzlov
Počet dátových uzlov = 360/40 => 9 dátových uzlov
Preto pre klaster Hadoop, ktorý získava 120 TB dát s vyššie uvedenou konfiguráciou, je potrebné nastaviť iba 9 dátových uzlov.

4.Ako zmeniť replikačný faktor v klastri Hadoop?

Odpoveď:
Upravte súbor hdfs-site.xml. Predvolená cesta je v adresári conf / folder inštalačného adresára Hadoop. zmeniť / pridať nasledujúcu vlastnosť v hdfs-site.xml:
dfs.replication
3
Bloková replikácia
Nie je povinné mať replikačný faktor 3. Môže sa tiež nastaviť ako 1. Replikačný faktor 5 funguje aj v klastri Hadoop. Nastavenie predvolenej hodnoty zvyšuje efektivitu klastra a vyžaduje sa minimálny hardvér.
Zvýšenie replikačného faktora by zvýšilo hardvérové požiadavky, pretože ukladanie údajov sa vynásobí replikačným faktorom.

5.Ako je predvolená veľkosť bloku údajov v Hadoop a ako ju zmeniť?

Odpoveď:
Veľkosť bloku zníži / rozdelí údaje na bloky a uloží ich do rôznych dátových uzlov.
Štandardne je veľkosť bloku 128 MB (v Apache Hadoop) a môžeme zmeniť predvolenú veľkosť bloku.
Upravte súbor hdfs-site.xml. Predvolená cesta je v adresári conf / folder inštalačného adresára Hadoop. zmeniť / pridať nasledujúcu vlastnosť v hdfs-site.xml:
dfs.block.size
134217728
Veľkosť bloku
veľkosť bloku v bajtoch je 134 217 728 alebo 128 MB. Ak chcete nastaviť veľkosť bloku v KB, MB, TB atď …

6.Ako by mal dlhý klaster Hadoop uchovávať odstránený súbor HDFS v adresári Delete / Trash?

Odpoveď:
“Fs.trash.interval” je parameter, ktorý určuje, ako dlho môže systém HDFS udržať akýkoľvek odstránený súbor v prostredí Hadoop na získanie odstráneného súboru.
Interval môže byť definovaný iba v minútach. Pre dvojdňový interval vyhľadávania musíme špecifikovať vlastnosť v plynulom formáte.
Upravte súbor core-site.xml a pridajte / upravte ho pomocou nasledujúcej vlastnosti
fs.trash.interval
2880
V predvolenom nastavení je interval načítania 0, ale správca Hadoop môže podľa potreby pridať / upraviť vyššie uvedenú vlastnosť.

7.Aké sú základné príkazy na spustenie a zastavenie démonov Hadoop?

Odpoveď:
Všetky príkazy na spustenie a zastavenie démonov uložených v priečinku /bin.
./sbin/stop-all.sh - Zastavenie všetkých démonov naraz.
hadoop-daemon.sh počiatočný názov uzol
Hadoop-daemon.sh počiatočný dátový uzol
nite-daemon.sh, spustite správcu zdrojov
priadza-demon.sh, štart správcu uzlov
mr-jobhistory-daemon.sh spustiť server histórie

8.Čo je vlastnosť definovať pridelenie pamäte pre úlohy spravované pomocou YARN?

Odpoveď:
Vlastnosť „priadza.nodemanager.resource.memory-mb“ je potrebné zmeniť / pridať, aby sa zmenilo pridelenie pamäte pre všetky úlohy, ktoré spravuje YARN.
Určuje množstvo pamäte RAM v MB. Dátové uzly zaberajú 70% skutočnej pamäte RAM, ktorá sa má použiť pre YARN. Dátový uzol s 96 GB použije pre YARN 68 GB, zvyšok pamäte RAM používa démon Data Node pre „Non-YARN-Work“
Upravte súbor „súbor priadze.xml“ a pridajte alebo upravte nasledujúcu vlastnosť.
yarn.nodemanager.resource.memory-mb
68608
Predvolená hodnota priadze.nodemanager.resource.memory-mb je 8 192 MB (8 GB). Ak majú dátové uzly veľkú kapacitu pamäte RAM, musíme zmeniť hodnotu až na 70%, inak strácame našu pamäť.

9.Aké sú odporúčania na zmenu veľkosti uzla názvu?

Odpoveď:
Nasledujúce podrobnosti sa odporúčajú na nastavenie hlavného uzla vo veľmi počiatočnej fáze.
Procesory: Pre procesy postačuje jeden CPU so 6 až 8 jadrami.
Pamäť RAM: Pre server na spracovanie údajov a úloh by mala mať najmenej 24-96 GB RAM.
Ukladací priestor: Keďže v hlavnom uzle nie sú uložené žiadne údaje HDFS. Ako lokálny úložný priestor môžete vykonať 1 až 2 TB
Pretože je ťažké rozhodnúť o budúcich pracovných zaťaženiach, navrhnite svoj klaster výberom hardvéru, ako je procesor, RAM a pamäť, ktorú je možné časom ľahko upgradovať.

10.Aké sú predvolené porty v klastri Hadoop?

Odpoveď:

Meno démona	Predvolené číslo portu
Názov uzla.	50070
Dátové uzly.	50075
Uzol sekundárneho názvu.	50090
Uzol Backup / Checkpoint.	50105
Sledovanie úloh.	50030
Sledovače úloh.	50060

Odporúčané články

Toto bol sprievodca zoznamom otázok a odpovedí na otázky súvisiace s rozhovormi o skupine Hadoop Cluster, aby uchádzač mohol tieto otázky týkajúce sa rozhovoru v skupine Hadoop Cluster ľahko nájsť. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

Elasticsearch Rozhovor Otázky a odpovede-Top a najužitočnejšie
9 Úžasné MapReduce Interview Otázky a odpovede
8 Najužitočnejšia príručka k otázkam rozhovoru s veľkými dátami
ETL Interview Otázky a odpovede, ktoré by ste mali vedieť

Hadoop Cluster Interview Otázky a odpovede - Top 10 najužitočnejšie

Obsah: