Prehľad inštalácie Hadoop

Nasledujúci článok, Inštalácia softvéru Hadoop, obsahuje prehľad najbežnejších modulov kľúčov rámca Hadoop a postupnú inštaláciu systému Hadoop. Apache Hadoop je zbierka softvéru, ktorá umožňuje spracovanie veľkých množín údajov a distribuovaného úložiska v klastri rôznych typov počítačového systému. Hadoop v súčasnosti zostáva najpoužívanejšou analytickou platformou pre veľké dáta („Sanchita Lobo, autor na blogu Analytics Training“, nd).

Hadoop Framework

Rámec Apache Hadoop pozostáva z nasledujúcich kľúčových modulov.

  • Apache Hadoop Bežné.
  • Distribuovaný systém súborov Apache Hadoop (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (ďalší manažér zdrojov).

Apache Hadoop Bežné

Modul Apache Hadoop Common pozostáva zo zdieľaných knižníc, ktoré sa spotrebúvajú vo všetkých ostatných moduloch vrátane správy kľúčov, generických vstupno-výstupných balíkov, knižníc na zhromažďovanie metrík a pomocných programov pre register, zabezpečenie a streamovanie.

HDFS

HDFS je založený na súborovom systéme Google a je štruktúrovaný tak, aby fungoval na lacnom hardvéri. HDFS toleruje chyby a je určený pre aplikácie, ktoré majú veľké súbory údajov.

MapReduce

MapReduce je inherentný model paralelného programovania na spracovanie údajov a spoločnosť Hadoop môže spúšťať programy MapReduce napísané v rôznych jazykoch, ako je napríklad Java. MapReduce pracuje rozdelením spracovania do fázy mapy a redukuje fázu.

Apache Hadoop YARN

Apache Hadoop YARN je základnou súčasťou a je technológiou správy zdrojov a plánovania úloh v distribuovanom spracovateľskom rámci Hadoop.

V tomto článku budeme diskutovať o inštalácii a konfigurácii Hadoop 2.7.4 na jednom klastri uzlov a otestujeme konfiguráciu spustením programu MapReduce s názvom wordcount, aby sa spočítal počet slov v súbore. Ďalej sa pozrieme na niekoľko dôležitých príkazov systému súborov Hadoop.

Kroky na inštaláciu Hadoop

Nasleduje prehľad úloh zahrnutých v konfigurácii Apache Hadoop.

Úloha 1: Prvá úloha v inštalácii Hadoop zahŕňala nastavenie šablóny virtuálneho stroja, ktorý bol nakonfigurovaný s Cent OS7. Balíky ako Java SDK 1.8 a Runtime Systems požadované na spustenie Hadoop boli stiahnuté a premenná prostredia Java pre Hadoop bola nakonfigurovaná úpravou bash_rc.

Úloha 2: Balík Hadoop Release 2.7.4 bol stiahnutý z webovej stránky apache a bol extrahovaný do priečinka opt. Pre ľahký prístup bol potom premenovaný na Hadoop.

Úloha 3: Keď boli balíčky Hadoop extrahované, ďalším krokom bolo nakonfigurovanie premennej prostredia pre používateľa Hadoop nasledované konfiguráciou súborov XML uzla Hadoop. V tomto kroku bol NameNode nakonfigurovaný v rámci core-site.xml a DataNode bol nakonfigurovaný v hdfs-site.xml. Správca zdrojov a správca uzlov boli nakonfigurované v priadzi-site.xml.

Úloha 4: Firewall bol vypnutý, aby sa spustili YARN a DFS. Príkaz JPS sa použil na overenie, či sú na pozadí spustené príslušné démony. Číslo portu pre prístup k Hadoop bolo nakonfigurované na http: // localhost: 50070 /

Úloha 5: Na overenie a testovanie systému Hadoop sa použilo niekoľko nasledujúcich krokov. Za týmto účelom sme vytvorili dočasný testovací súbor vo vstupnom adresári pre program WordCount. Na výpočet počtu slov v súbore sa použil program na zníženie mapy Hadoop-MapReduce-example2.7.4.jar. Výsledky boli vyhodnotené na localhost a boli analyzované protokoly predloženej žiadosti. Všetky predložené aplikácie MapReduce si môžete prezrieť v online rozhraní, predvolené číslo portu je 8088.

Úloha 6: V záverečnej úlohe predstavíme niekoľko základných príkazov systému súborov Hadoop a skontrolujeme ich použitie. Uvidíme, ako je možné vytvoriť adresár v systéme súborov Hadoop, aby sme vymenovali obsah adresára, jeho veľkosť v bajtoch. Ďalej uvidíme, ako odstrániť konkrétny adresár a súbor.

Výsledky v inštalácii Hadoop

Nasledujúci text zobrazuje výsledky každej z vyššie uvedených úloh:

Výsledok úlohy 1

Nový virtuálny stroj s obrazom cenOS7 bol nakonfigurovaný na spustenie Apache Hadoop. Obrázok 1 ukazuje, ako bol obraz CenOS 7 nakonfigurovaný vo virtuálnom stroji. Obrázok 1.2 zobrazuje konfiguráciu premennej prostredia JAVA v rámci .bash_rc.

Obrázok 1: Konfigurácia virtuálneho počítača

Obrázok 1.2: Konfigurácia premennej prostredia Java

Výsledok úlohy 2

Obrázok 2 zobrazuje úlohu vykonanú za účelom extrahovania balíka Hadoop 2.7.4 do priečinka opt.

Obrázok 2: Extrakcia balíka Hadoop 2.7.4

Výsledok úlohy 3

Obrázok 3 zobrazuje konfiguráciu premennej prostredia pre používateľa Hadoop, obrázky 3.1 až 3.4 zobrazujú konfiguráciu súborov XML vyžadovaných pre konfiguráciu Hadoop.

Obrázok 3: Konfigurácia premennej prostredia pre používateľa Hadoop

Obrázok 3.1: Konfigurácia core-site.xml

Obrázok 3.2: Konfigurácia hdfs-site.xml

Obrázok 3.3: Konfigurácia súboru mapred-site.xml

Obrázok 3.4: Konfigurácia súboru priadza-site.xml

Výsledok úlohy 4

Obrázok 4 ukazuje použitie príkazu jps na kontrolu príslušných démonov bežiacich na pozadí a nasledujúci obrázok zobrazuje online používateľské rozhranie Hadoop.

Obrázok 4: Príkaz jps na overenie spustených démonov.

Obrázok 4.1: Prístup k online rozhraniu Hadoop na porte http://hadoop1.example.com:50070/

Výsledok úlohy 5

Obrázok 5 zobrazuje výsledok programu MapReduce nazvaný wordcount, ktorý počíta počet slov v súbore. Nasledujúcich pár obrázkov zobrazuje online užívateľské rozhranie správcu prostriedkov YARN pre zadanú úlohu.

Obrázok 5: Výsledky programu MapReduce

Obrázok 5.1: Odoslaná aplikácia na zníženie mapy.

Obrázok 5.2: Denníky pre predloženú aplikáciu MapReduce.

Výsledok úlohy 6

Obrázok 6 ukazuje, ako vytvoriť adresár v systéme súborov Hadoop a vykonať zoznam adresárov hdfs.

Obrázok 6: Vytvorenie adresára v systéme súborov Hadoop

Obrázok 6.1 ukazuje, ako umiestniť súbor do distribuovaného systému súborov Hadoop a obrázok 6.2 zobrazuje vytvorený súbor v adresári dirB.

Obrázok 6.1: Vytvorenie súboru v HDFS.

Obrázok 6.2: Vytvoril sa nový súbor.

Niekoľko nasledujúcich obrázkov ukazuje, ako uviesť obsah jednotlivých adresárov:

Obrázok 6.3: Obsah dirA

Obrázok 6.4: Obsah dirB

Nasledujúci obrázok zobrazuje spôsob zobrazenia veľkosti súborov a adresárov:

Obrázok 6.5: Zobrazenie veľkosti súboru a adresára.

Odstránenie adresára alebo súboru je možné ľahko vykonať príkazom -rm.

Obrázok 6.6: Vymazanie súboru.

záver

Spoločnosť Big Data zohrala veľmi dôležitú úlohu pri formovaní dnešného svetového trhu. Hadoop framework zjednodušuje život analytikov údajov pri práci na veľkých množinách údajov. Konfigurácia Apache Hadoop bola pomerne jednoduchá a používateľské rozhranie online poskytovalo používateľovi viac možností na vyladenie a správu aplikácie. Hadoop sa v organizáciách masívne používa na ukladanie údajov, analytiku strojového učenia a zálohovanie údajov. Spravovanie veľkého množstva údajov bolo veľmi užitočné vďaka distribuovanému prostrediu Hadoop a MapReduce. Vývoj Hadoop bol v porovnaní s relačnými databázami celkom úžasný, pretože im chýbali možnosti ladenia a výkonu. Apache Hadoop je užívateľsky prívetivé a lacné riešenie pre efektívnu správu a ukladanie veľkých dát. HDFS tiež pomáha pri ukladaní údajov.

Odporúčané články

Toto je príručka na inštaláciu aplikácie Hadoop. Tu diskutujeme úvod k inštalácii Hadoopu, krok za krokom inštalácia Hadoopu spolu s výsledkami inštalácie Hadoop. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Úvod do streamovania Hadoop
  2. Čo je klaster Hadoop a ako to funguje?
  3. Ekosystém Apache Hadoop a jeho komponenty
  4. Čo sú alternatívy spoločnosti Hadoop?

Kategórie: