Príkaz HDFS Základné až pokročilé velenie s tipmi a trikmi

Obsah:

Anonim

Úvod do príkazov HDFS

Veľké dáta sú slovo pre množiny údajov, ktoré sú také obrovské alebo zložité, že konvenčný aplikačný softvér na spracovanie údajov nestačí na to, aby s nimi boli uzavreté dohody. Hadoop je otvorený zdrojový programovací rámec založený na Java, ktorý spája priestor na spracovanie a ukladanie nesmierne objemných súborov údajov v rozšírenom výpočtovom prostredí. Softvérová nadácia Apache je kľúčom k inštalácii Hadoop

Vlastnosti HDFS:

  • HDFS beží na architektúre Master / Slave
  • HDFS používa súbory na ukladanie údajov súvisiacich s používateľom
  • obsahuje obrovskú skupinu adresárov a súborov, ktoré sú uložené v hierarchickom formáte.
  • Vo vnútri je súbor roztrhaný na menšie bloky a tieto bloky sú uložené v sade Datanodes.
  • Namenode a Datanode sú časťou softvéru určeného na spustenie na produktových strojoch, ktoré klasicky fungujú v operačných systémoch GNU / Linux.

Namenode:

  • Tu je súborový systém udržiavaný menom uzla
  • Namenode je tiež zodpovedný za protokolovanie všetkých zmien súborového systému, navyše udržuje obraz úplného menného priestoru súborového systému a súboru Blockmap v pamäti.
  • Kontrolné stanovovanie sa vykonáva pravidelne. preto je ľahké obnoviť sa na javisko skôr, ako je možné dosiahnuť bod nárazu.

Datanode:

  • Datanode poskytuje údaje v súboroch v miestnom systéme súborov
  • Aby sa intímne zistila jeho existencia, dátový uzol vyšle tlkot srdca do namenodu
  • Správa o blokovaní sa vygeneruje pre každý prijatý desiaty tep
  • Replikácia sa implikuje na dáta uložené v týchto dátových uzloch

Replikácia dát:

  • Sekvencia blokov tu vytvára súbor s predvolenou veľkosťou blokov 128 MB
  • Všetky bloky v súbore okrem finále majú podobnú veľkosť.
  • Z každého údajového uzla v klastri prvok namenode prijíma tep
  • BlockReport obsahuje všetky bloky v Datanode.
  • obsahuje obrovskú skupinu adresárov a súborov, ktoré sú uložené v hierarchickom formáte.
  • Vo vnútri je súbor roztrhaný na menšie bloky a tieto bloky sú uložené v sade Datanodes.
  • Namenode a Datanode sú časťou softvéru určeného na spustenie na produktových strojoch, ktoré klasicky fungujú v operačných systémoch GNU / Linux.

Sledovač úloh: JobTracker debatuje s NameNode, aby uzavrel pozíciu údajov. Vyhľadajte tiež najlepšie uzly TaskTracker na vykonávanie úloh na základe dátovej lokality

Sledovač úloh: TaskTracker je uzol v klastri, ktorý prijíma úlohy - operácie Map, Reduce and Shuffle - z JobTracker.

Uzol sekundárneho názvu (alebo) kontrolný bod: Získava EditLog z uzla názvu v pravidelných intervaloch a aplikuje sa na jeho obraz FS. A skopíruje späť hotový obrázok FS do menového uzla počas jeho reštartu. Celkovým účelom uzla sekundárneho názvu je mať kontrolný bod v HDFS.

ZARIADENIE:

  • YARN má komponent centrálneho manažéra zdrojov, ktorý riadi zdroje a prideľuje prostriedky každej aplikácii.
  • Tu je správca prostriedkov master, ktorý rozhoduje o zdrojoch spojených s klastrom, správca prostriedkov je stočený z dvoch komponentov, správcu aplikácií a plánovača, ktoré tieto dve zložky spoločne riadia úlohy v klastrových systémoch. ďalší komponent zavolajte manažéra uzlov (NM), ktorý je zodpovedný za správu úloh a pracovného toku používateľov v danom uzle.
  • Presnú replikáciu údajov v aktívnom namenode uchováva Standby NameNode. Funguje ako otrok, udržuje dostatočný stav na zabezpečenie rýchleho zlyhania, ak je to nevyhnutné.

Základné príkazy HDFS:

Základné príkazy HDFS

Sr.NoVlastnosť príkazu HDFSPríkaz HDFS
1Tlačte hadoop verziu$ hadoop verzia
2Zoznam obsahu koreňového adresára v HDFS$ hadoop fs -ls
3Reportujte množstvo využitého a dostupného miesta v aktuálne pripojenom súborovom systéme$ hadoop fs -df hdfs: /
4Vyrovnávač HDFS znova vyvažuje údaje naprieč dátovými uzlami a presúva bloky z nadmerne využívaných do nevyužitých uzlov.$ hadoop balancer
5Príkaz pomocníka$ hadoop fs -help

Príkazy stredného HDFS:

Priebežné príkazy HDFS

Sr.NoVlastnosť príkazu HDFSPríkaz HDFS
6vytvorí adresár na určenom mieste HDFS$ hadoop fs -mkdir / user / cloudera /
7Skopíruje údaje z jedného miesta na druhé$ hadoop fs -put data / sample.txt / user / training / hadoop
8Pozrite si miesto, ktoré zaberá konkrétny adresár v HDFS$ hadoop fs -du -s -h / užívateľ / cloudera /
9Odstráňte adresár v Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Odstráni všetky súbory v danom adresári$ hadoop fs -rm -skipTrash hadoop / maloobchod / *
11Vyprázdnenie koša$ hadoop fs -expunge
12skopíruje údaje z a na miestne do HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Pokročilé príkazy HDFS:

Priebežné príkazy HDFS

Sr.NoVlastnosť príkazu HDFSPríkaz HDFS
13zmeniť oprávnenia súboru$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14nastaviť faktor replikácie dát pre súbor$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Spočítajte počet adresárov, súborov a bajtov v hdf$ hadoop fs -count hdfs: /
16aby namenode existoval v bezpečnom režime$ sudo -u hdfs hdfs dfsadmin -safemode dovolenky
17Hadoop naformátuje namenode$ hadoop namenode -format

Tipy a triky pre systém HDFS:

1) Ak je počet uzlov klastra vyšší, môžeme dosiahnuť rýchlejšiu obnovu.

2) Zvýšenie množstva pamäte za jednotku času zvyšuje dobu obnovy.

3) Hardvér Namenode musí byť veľmi spoľahlivý.

4) Sofistikované monitorovanie možno dosiahnuť prostredníctvom ambari.

5) Hladovanie systému možno znížiť zvýšením počtu reduktorov.

Odporúčané články

Toto bol sprievodca príkazmi HDFS. Tu sme diskutovali o príkazoch, funkciách, ich základných, stredných a pokročilých príkazoch HDFS s obrázkami, tipmi a trikmi o príkazoch. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Príkazy uzla
  2. Príkazy Matlab
  3. Výhody DBMS
  4. Hadoop ekosystém
  5. Hadoop fs Príkazy