Úvod do otázok a odpovedí na otázky týkajúce sa rozhovorov s Hadoop Admin

Takže ste konečne našli svoju vysnívanú prácu v Hadoop Admin, ale premýšľate, ako rozlúštiť Hadoop Admin Interview a aké by mohli byť pravdepodobné otázky Hadoop Admin Interview. Každý pohovor je iný a rozsah zamestnania je tiež odlišný. S ohľadom na to sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovorov s Hadoop Admin, ktoré vám pomôžu dosiahnuť úspech v pohovore.

Nasledujú otázky týkajúce sa rozhovorov so správcom spoločnosti Hadoop, ktoré vám pomôžu pri rozbíjaní rozhovoru so spoločnosťou Hadoop.

1. Čo je to povedomie o stojanoch? A prečo je to potrebné?

odpoveď:
Povedomie o racku je o distribúcii dátových uzlov do viacerých stojanov. Systém HDFS sleduje algoritmus zvyšovania povedomia o stojanoch, aby umiestnil dátové bloky. Stojan obsahuje viac serverov. A pre klaster by mohlo byť viac stojanov. Povedzme, že existuje klaster Hadoop s 12 uzlami. Na každom by mohli byť 3 stojany so 4 servermi. Všetky 3 stojany sú spojené tak, že je pripojených všetkých 12 uzlov a tvoria klaster. Pri rozhodovaní o počte stojanov je dôležité vziať do úvahy faktor replikácie. Ak existuje 100 GB údajov, ktoré sa budú každý deň tečúť s replikačným faktorom 3. Potom bude v klastri stáť 300 GB údajov. Lepšou možnosťou je replikovať údaje medzi stojanmi. Aj keď niektorý uzol klesne, replika bude v inom poli.

2. Aká je predvolená veľkosť bloku a ako je definovaná?

odpoveď:
128 MB a je definovaný v hdfs-site.xml a tiež je to prispôsobiteľné v závislosti od objemu údajov a úrovne prístupu. Povedzme, že 100 GB údajov, ktoré tečú za deň, sa údaje oddelia a uložia v klastri. Aký bude počet súborov? 800 súborov. (1024 * 100/128) (1024 à konvertovalo GB na MB.) Existujú dva spôsoby, ako nastaviť veľkosť bloku dát na prispôsobenie.

  1. hadoop fs -D fs.local.block.size = 134217728 (v bitoch)
  2. Do súboru hdfs-site.xml pridajte túto vlastnosť à block.size s veľkosťou bitov.

Ak zmeníte predvolenú veľkosť na 512 MB, pretože veľkosť údajov je obrovská, vygenerované súbory typu no.of budú 200. (1024 * 100/512)

3. Ako získate prehľad o systéme súborov hdfs? O dostupnosti disku a počte aktívnych uzlov?

odpoveď:
Príkaz: sudo -u hdfs dfsadmin - report

Toto je zoznam informácií, ktoré zobrazuje,

  1. Konfigurovaná kapacita - celková kapacita dostupná v hdf
  2. Súčasná kapacita - Toto je celkové množstvo priestoru vyčleneného na zdroje, ktoré sa nachádzajú vedľa metastorov a využívania vesmíru fsimage.
  3. Zostávajúce DFS - Je to množstvo úložného priestoru, ktoré je stále k dispozícii pre HDFS na ukladanie ďalších súborov
  4. Používa sa DFS - je to úložný priestor, ktorý využíva systém HDFS.
  5. Použité DFS% - v percentách
  6. V rámci replikovaných blokov - počet blokov
  7. Bloky s poškodenými replikami - ak sú nejaké poškodené bloky
  8. Chýbajúce bloky
  9. Chýbajúce bloky (s replikačným faktorom 1)

4. Čo je vyvažovač Hadoop a prečo je to potrebné?

odpoveď:
Dáta rozložené po uzloch nie sú rozdelené v správnom pomere, čo znamená, že využitie každého uzla nemusí byť vyvážené. Jeden uzol môže byť nadmerne využitý a druhý môže byť nedostatočne využitý. To vedie k vysokému nákladovému efektu pri spustení akéhokoľvek procesu a nakoniec by to bežalo pri intenzívnom používaní týchto uzlov. Na vyriešenie tohto problému sa používa vyvažovač Hadoop, ktorý vyváži využitie údajov v uzloch. Takže vždy, keď sa vykoná vyrovnávač, údaje sa presunú naprieč, kde sa zaplnia nedostatočne využívané uzly a nadmerne využívané uzly sa uvoľnia.

5. Rozdiel medzi spoločnosťami Cloudera a Ambari?

odpoveď:

Cloudera ManagerAmbar
Administračný nástroj pre ClouderuAdministračný nástroj pre prácu Hortona
Monitoruje a riadi celý klaster a hlási použitie a všetky problémyMonitoruje a riadi celý klaster a hlási použitie a všetky problémy
Dodáva sa s platenou službou ClouderaOpen source

6. Aké hlavné kroky vykonáva správca Hadoop?

odpoveď:
Monitorovať stav klastra - Existuje veľa stránok aplikácií, ktoré sa musia monitorovať, ak sa vyskytnú nejaké procesy. (Server histórie úloh, správca zdrojov YARN, správca cloudera / ambary v závislosti od distribúcie)

zapnite zabezpečenie - SSL alebo Kerberos

Vyladenie výkonu - vyvažovač Hadoop

Podľa potreby pridajte nové dátové uzly - zmeny a konfigurácie infraštruktúry

Voliteľné zapnutie servera MapReduce Tracking Server Tracking à Občasné reštartovanie služieb by pomohlo uvoľniť pamäť cache. To je, keď klaster s prázdnym procesom.

7. Čo je Kerberos?

odpoveď:
Je to autentifikácia vyžadovaná pre každú službu, ktorá sa má synchronizovať, aby sa mohol proces spustiť. Odporúča sa povoliť protokol Kerberos. Keďže sa zaoberáme distribuovaným počítačom, je vždy dobré mať pri prístupe k údajom a ich spracovaní šifrovanie. Keď sú všetky uzly spojené a akýkoľvek informačný tok prechádza sieťou. Pretože Hadoop používa protokol Kerberos, heslá sa neodosielajú cez siete. Namiesto toho sa heslá používajú na výpočet šifrovacích kľúčov. Správy sa vymieňajú medzi klientom a serverom. Jednoducho povedané, Kerberos si navzájom poskytuje identitu (uzly) bezpečným spôsobom so šifrovaním.

Konfigurácia v jadre site.xml
Hadoop.security.authentication: Kerberos

8. Aký je dôležitý zoznam príkazov hdfs?

odpoveď:

príkazyúčel
hdfs dfs –lsZoznam súborov zo súborového systému hdfs.
Hdfs dfs –putSkopírujte súbor z lokálneho systému do súborového systému hdfs
Hdfs dfs –chmod 777Dajte súboru oprávnenie na čítanie, zápis a vykonávanie
Hdfs dfs --getSkopírujte súbor zo súborového systému hdfs do miestneho súborového systému
Hdfs dfs –catZobrazte obsah súboru zo systému súborov hdfs
Hdfs dfs –rmOdstráňte súbor zo súborového systému hdfs. Bude však presunutá do koša súboru (je to ako kôš v systéme Windows)
Hdfs dfs –rm –skipTrashOdstráni súbor natrvalo z klastra.
Hdfs dfs –touchzVytvorte súbor v súborovom systéme hdfs

9. Ako skontrolovať protokoly úlohy Hadoop zadanej v klastri a ako ukončiť už bežiaci proces?

odpoveď:
protokoly priadze –applicationId - Aplikačný kmeň generuje protokoly na svojom kontajneri a bude pripojený k ID, ktoré generuje. Je to užitočné pri monitorovaní stavu priebehu procesu a informácií z denníka.

thread application –kill - Ak je potrebné ukončiť existujúci proces, ktorý bežal v klastri, použije sa príkaz kill, ak sa na ukončenie úlohy v klastri použije ID aplikácie.

Odporúčaný článok

Toto bol sprievodca zoznamom otázok a odpovedí na otázky týkajúce sa rozhovoru s Hadoop Admin, aby kandidát mohol ľahko vykonať tvrdé zásahy do týchto otázok. Viac informácií nájdete aj v nasledujúcich článkoch

  1. Hadoop Cluster Interview Otázky a odpovede - Top 10 najužitočnejšie
  2. Rozhovory s otázkami modelovania dát - 10 dôležitých otázok
  3. Otázky týkajúce sa rozhovorov o systéme SAS - 10 najdôležitejších otázok

Kategórie: