Úvod do príkazov HDFS
Veľké dáta sú slovo pre množiny údajov, ktoré sú také obrovské alebo zložité, že konvenčný aplikačný softvér na spracovanie údajov nestačí na to, aby s nimi boli uzavreté dohody. Hadoop je otvorený zdrojový programovací rámec založený na Java, ktorý spája priestor na spracovanie a ukladanie nesmierne objemných súborov údajov v rozšírenom výpočtovom prostredí. Softvérová nadácia Apache je kľúčom k inštalácii Hadoop
Vlastnosti HDFS:
- HDFS beží na architektúre Master / Slave
- HDFS používa súbory na ukladanie údajov súvisiacich s používateľom
- obsahuje obrovskú skupinu adresárov a súborov, ktoré sú uložené v hierarchickom formáte.
- Vo vnútri je súbor roztrhaný na menšie bloky a tieto bloky sú uložené v sade Datanodes.
- Namenode a Datanode sú časťou softvéru určeného na spustenie na produktových strojoch, ktoré klasicky fungujú v operačných systémoch GNU / Linux.
Namenode:
- Tu je súborový systém udržiavaný menom uzla
- Namenode je tiež zodpovedný za protokolovanie všetkých zmien súborového systému, navyše udržuje obraz úplného menného priestoru súborového systému a súboru Blockmap v pamäti.
- Kontrolné stanovovanie sa vykonáva pravidelne. preto je ľahké obnoviť sa na javisko skôr, ako je možné dosiahnuť bod nárazu.
Datanode:
- Datanode poskytuje údaje v súboroch v miestnom systéme súborov
- Aby sa intímne zistila jeho existencia, dátový uzol vyšle tlkot srdca do namenodu
- Správa o blokovaní sa vygeneruje pre každý prijatý desiaty tep
- Replikácia sa implikuje na dáta uložené v týchto dátových uzloch
Replikácia dát:
- Sekvencia blokov tu vytvára súbor s predvolenou veľkosťou blokov 128 MB
- Všetky bloky v súbore okrem finále majú podobnú veľkosť.
- Z každého údajového uzla v klastri prvok namenode prijíma tep
- BlockReport obsahuje všetky bloky v Datanode.
- obsahuje obrovskú skupinu adresárov a súborov, ktoré sú uložené v hierarchickom formáte.
- Vo vnútri je súbor roztrhaný na menšie bloky a tieto bloky sú uložené v sade Datanodes.
- Namenode a Datanode sú časťou softvéru určeného na spustenie na produktových strojoch, ktoré klasicky fungujú v operačných systémoch GNU / Linux.
Sledovač úloh: JobTracker debatuje s NameNode, aby uzavrel pozíciu údajov. Vyhľadajte tiež najlepšie uzly TaskTracker na vykonávanie úloh na základe dátovej lokality
Sledovač úloh: TaskTracker je uzol v klastri, ktorý prijíma úlohy - operácie Map, Reduce and Shuffle - z JobTracker.
Uzol sekundárneho názvu (alebo) kontrolný bod: Získava EditLog z uzla názvu v pravidelných intervaloch a aplikuje sa na jeho obraz FS. A skopíruje späť hotový obrázok FS do menového uzla počas jeho reštartu. Celkovým účelom uzla sekundárneho názvu je mať kontrolný bod v HDFS.
ZARIADENIE:
- YARN má komponent centrálneho manažéra zdrojov, ktorý riadi zdroje a prideľuje prostriedky každej aplikácii.
- Tu je správca prostriedkov master, ktorý rozhoduje o zdrojoch spojených s klastrom, správca prostriedkov je stočený z dvoch komponentov, správcu aplikácií a plánovača, ktoré tieto dve zložky spoločne riadia úlohy v klastrových systémoch. ďalší komponent zavolajte manažéra uzlov (NM), ktorý je zodpovedný za správu úloh a pracovného toku používateľov v danom uzle.
- Presnú replikáciu údajov v aktívnom namenode uchováva Standby NameNode. Funguje ako otrok, udržuje dostatočný stav na zabezpečenie rýchleho zlyhania, ak je to nevyhnutné.
Základné príkazy HDFS:
Základné príkazy HDFS |
||
Sr.No | Vlastnosť príkazu HDFS | Príkaz HDFS |
1 | Tlačte hadoop verziu | $ hadoop verzia |
2 | Zoznam obsahu koreňového adresára v HDFS | $ hadoop fs -ls |
3 | Reportujte množstvo využitého a dostupného miesta v aktuálne pripojenom súborovom systéme | $ hadoop fs -df hdfs: / |
4 | Vyrovnávač HDFS znova vyvažuje údaje naprieč dátovými uzlami a presúva bloky z nadmerne využívaných do nevyužitých uzlov. | $ hadoop balancer |
5 | Príkaz pomocníka | $ hadoop fs -help |
Príkazy stredného HDFS:
Priebežné príkazy HDFS |
||
Sr.No | Vlastnosť príkazu HDFS | Príkaz HDFS |
6 | vytvorí adresár na určenom mieste HDFS | $ hadoop fs -mkdir / user / cloudera / |
7 | Skopíruje údaje z jedného miesta na druhé | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Pozrite si miesto, ktoré zaberá konkrétny adresár v HDFS | $ hadoop fs -du -s -h / užívateľ / cloudera / |
9 | Odstráňte adresár v Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Odstráni všetky súbory v danom adresári | $ hadoop fs -rm -skipTrash hadoop / maloobchod / * |
11 | Vyprázdnenie koša | $ hadoop fs -expunge |
12 | skopíruje údaje z a na miestne do HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Pokročilé príkazy HDFS:
Priebežné príkazy HDFS |
||
Sr.No | Vlastnosť príkazu HDFS | Príkaz HDFS |
13 | zmeniť oprávnenia súboru | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | nastaviť faktor replikácie dát pre súbor | $ hadoop fs -setrep -w 5 / user / cloudera / pigjobs / |
15 | Spočítajte počet adresárov, súborov a bajtov v hdf | $ hadoop fs -count hdfs: / |
16 | aby namenode existoval v bezpečnom režime | $ sudo -u hdfs hdfs dfsadmin -safemode dovolenky |
17 | Hadoop naformátuje namenode | $ hadoop namenode -format |
Tipy a triky pre systém HDFS:
1) Ak je počet uzlov klastra vyšší, môžeme dosiahnuť rýchlejšiu obnovu.
2) Zvýšenie množstva pamäte za jednotku času zvyšuje dobu obnovy.
3) Hardvér Namenode musí byť veľmi spoľahlivý.
4) Sofistikované monitorovanie možno dosiahnuť prostredníctvom ambari.
5) Hladovanie systému možno znížiť zvýšením počtu reduktorov.
Odporúčané články
Toto bol sprievodca príkazmi HDFS. Tu sme diskutovali o príkazoch, funkciách, ich základných, stredných a pokročilých príkazoch HDFS s obrázkami, tipmi a trikmi o príkazoch. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Príkazy uzla
- Príkazy Matlab
- Výhody DBMS
- Hadoop ekosystém
- Hadoop fs Príkazy