Úvod do otázok a odpovedí na otázky týkajúce sa rozhovorov s Hadoop Admin
Takže ste konečne našli svoju vysnívanú prácu v Hadoop Admin, ale premýšľate, ako rozlúštiť Hadoop Admin Interview a aké by mohli byť pravdepodobné otázky Hadoop Admin Interview. Každý pohovor je iný a rozsah zamestnania je tiež odlišný. S ohľadom na to sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovorov s Hadoop Admin, ktoré vám pomôžu dosiahnuť úspech v pohovore.
Nasledujú otázky týkajúce sa rozhovorov so správcom spoločnosti Hadoop, ktoré vám pomôžu pri rozbíjaní rozhovoru so spoločnosťou Hadoop.
1. Čo je to povedomie o stojanoch? A prečo je to potrebné?
odpoveď:
Povedomie o racku je o distribúcii dátových uzlov do viacerých stojanov. Systém HDFS sleduje algoritmus zvyšovania povedomia o stojanoch, aby umiestnil dátové bloky. Stojan obsahuje viac serverov. A pre klaster by mohlo byť viac stojanov. Povedzme, že existuje klaster Hadoop s 12 uzlami. Na každom by mohli byť 3 stojany so 4 servermi. Všetky 3 stojany sú spojené tak, že je pripojených všetkých 12 uzlov a tvoria klaster. Pri rozhodovaní o počte stojanov je dôležité vziať do úvahy faktor replikácie. Ak existuje 100 GB údajov, ktoré sa budú každý deň tečúť s replikačným faktorom 3. Potom bude v klastri stáť 300 GB údajov. Lepšou možnosťou je replikovať údaje medzi stojanmi. Aj keď niektorý uzol klesne, replika bude v inom poli.
2. Aká je predvolená veľkosť bloku a ako je definovaná?
odpoveď:
128 MB a je definovaný v hdfs-site.xml a tiež je to prispôsobiteľné v závislosti od objemu údajov a úrovne prístupu. Povedzme, že 100 GB údajov, ktoré tečú za deň, sa údaje oddelia a uložia v klastri. Aký bude počet súborov? 800 súborov. (1024 * 100/128) (1024 à konvertovalo GB na MB.) Existujú dva spôsoby, ako nastaviť veľkosť bloku dát na prispôsobenie.
- hadoop fs -D fs.local.block.size = 134217728 (v bitoch)
- Do súboru hdfs-site.xml pridajte túto vlastnosť à block.size s veľkosťou bitov.
Ak zmeníte predvolenú veľkosť na 512 MB, pretože veľkosť údajov je obrovská, vygenerované súbory typu no.of budú 200. (1024 * 100/512)
3. Ako získate prehľad o systéme súborov hdfs? O dostupnosti disku a počte aktívnych uzlov?
odpoveď:
Príkaz: sudo -u hdfs dfsadmin - report
Toto je zoznam informácií, ktoré zobrazuje,
- Konfigurovaná kapacita - celková kapacita dostupná v hdf
- Súčasná kapacita - Toto je celkové množstvo priestoru vyčleneného na zdroje, ktoré sa nachádzajú vedľa metastorov a využívania vesmíru fsimage.
- Zostávajúce DFS - Je to množstvo úložného priestoru, ktoré je stále k dispozícii pre HDFS na ukladanie ďalších súborov
- Používa sa DFS - je to úložný priestor, ktorý využíva systém HDFS.
- Použité DFS% - v percentách
- V rámci replikovaných blokov - počet blokov
- Bloky s poškodenými replikami - ak sú nejaké poškodené bloky
- Chýbajúce bloky
- Chýbajúce bloky (s replikačným faktorom 1)
4. Čo je vyvažovač Hadoop a prečo je to potrebné?
odpoveď:
Dáta rozložené po uzloch nie sú rozdelené v správnom pomere, čo znamená, že využitie každého uzla nemusí byť vyvážené. Jeden uzol môže byť nadmerne využitý a druhý môže byť nedostatočne využitý. To vedie k vysokému nákladovému efektu pri spustení akéhokoľvek procesu a nakoniec by to bežalo pri intenzívnom používaní týchto uzlov. Na vyriešenie tohto problému sa používa vyvažovač Hadoop, ktorý vyváži využitie údajov v uzloch. Takže vždy, keď sa vykoná vyrovnávač, údaje sa presunú naprieč, kde sa zaplnia nedostatočne využívané uzly a nadmerne využívané uzly sa uvoľnia.
5. Rozdiel medzi spoločnosťami Cloudera a Ambari?
odpoveď:
Cloudera Manager | Ambar |
Administračný nástroj pre Clouderu | Administračný nástroj pre prácu Hortona |
Monitoruje a riadi celý klaster a hlási použitie a všetky problémy | Monitoruje a riadi celý klaster a hlási použitie a všetky problémy |
Dodáva sa s platenou službou Cloudera | Open source |
6. Aké hlavné kroky vykonáva správca Hadoop?
odpoveď:
Monitorovať stav klastra - Existuje veľa stránok aplikácií, ktoré sa musia monitorovať, ak sa vyskytnú nejaké procesy. (Server histórie úloh, správca zdrojov YARN, správca cloudera / ambary v závislosti od distribúcie)
zapnite zabezpečenie - SSL alebo Kerberos
Vyladenie výkonu - vyvažovač Hadoop
Podľa potreby pridajte nové dátové uzly - zmeny a konfigurácie infraštruktúry
Voliteľné zapnutie servera MapReduce Tracking Server Tracking à Občasné reštartovanie služieb by pomohlo uvoľniť pamäť cache. To je, keď klaster s prázdnym procesom.
7. Čo je Kerberos?
odpoveď:
Je to autentifikácia vyžadovaná pre každú službu, ktorá sa má synchronizovať, aby sa mohol proces spustiť. Odporúča sa povoliť protokol Kerberos. Keďže sa zaoberáme distribuovaným počítačom, je vždy dobré mať pri prístupe k údajom a ich spracovaní šifrovanie. Keď sú všetky uzly spojené a akýkoľvek informačný tok prechádza sieťou. Pretože Hadoop používa protokol Kerberos, heslá sa neodosielajú cez siete. Namiesto toho sa heslá používajú na výpočet šifrovacích kľúčov. Správy sa vymieňajú medzi klientom a serverom. Jednoducho povedané, Kerberos si navzájom poskytuje identitu (uzly) bezpečným spôsobom so šifrovaním.
Konfigurácia v jadre site.xml
Hadoop.security.authentication: Kerberos
8. Aký je dôležitý zoznam príkazov hdfs?
odpoveď:
príkazy | účel |
hdfs dfs –ls | Zoznam súborov zo súborového systému hdfs. |
Hdfs dfs –put | Skopírujte súbor z lokálneho systému do súborového systému hdfs |
Hdfs dfs –chmod 777 | Dajte súboru oprávnenie na čítanie, zápis a vykonávanie |
Hdfs dfs --get | Skopírujte súbor zo súborového systému hdfs do miestneho súborového systému |
Hdfs dfs –cat | Zobrazte obsah súboru zo systému súborov hdfs |
Hdfs dfs –rm | Odstráňte súbor zo súborového systému hdfs. Bude však presunutá do koša súboru (je to ako kôš v systéme Windows) |
Hdfs dfs –rm –skipTrash | Odstráni súbor natrvalo z klastra. |
Hdfs dfs –touchz | Vytvorte súbor v súborovom systéme hdfs |
9. Ako skontrolovať protokoly úlohy Hadoop zadanej v klastri a ako ukončiť už bežiaci proces?
odpoveď:
protokoly priadze –applicationId - Aplikačný kmeň generuje protokoly na svojom kontajneri a bude pripojený k ID, ktoré generuje. Je to užitočné pri monitorovaní stavu priebehu procesu a informácií z denníka.
thread application –kill - Ak je potrebné ukončiť existujúci proces, ktorý bežal v klastri, použije sa príkaz kill, ak sa na ukončenie úlohy v klastri použije ID aplikácie.
Odporúčaný článok
Toto bol sprievodca zoznamom otázok a odpovedí na otázky týkajúce sa rozhovoru s Hadoop Admin, aby kandidát mohol ľahko vykonať tvrdé zásahy do týchto otázok. Viac informácií nájdete aj v nasledujúcich článkoch
- Hadoop Cluster Interview Otázky a odpovede - Top 10 najužitočnejšie
- Rozhovory s otázkami modelovania dát - 10 dôležitých otázok
- Otázky týkajúce sa rozhovorov o systéme SAS - 10 najdôležitejších otázok