Úvod do Hadoop Tools

Nástroje Hadoop sú rámec, ktorý sa používa na spracovanie veľkého množstva údajov. Tieto dáta sú distribuované v klastri a distribuované výpočty sú hotové. Dáta sú uložené v blokoch s veľkosťou 128 MB a na spracovanie a dosiahnutie výsledného výkonu sa používa mapová redukcia. Mapy a Reduce boli tradične napísané v Jave, ale bolo ťažké preveriť zdroje, ktoré pracujú v dátovom sklade, pretože s tým nemali skúsenosti. SQL je dobre známy a ľahko sa používa, takže nájdením spôsobu, ako napísať SQL, ako je napríklad dopyt, ktorý sa skonvertuje na Map and Reduce, bol založený Facebookom a neskôr darovaný Apache, tento nástroj je známy ako Hive. Yahoo tiež prišiel s nástrojom s názvom Pig, ktorý je prevedený na Map Reduce pri spustení, podobne máme Sqoop a Flume pre nástroje na presun a vstrekovanie dát. HBase je systémový nástroj na správu databáz.

Funkcie Hadoop Tools

  1. Úľ
  2. prasa
  3. Sqoop
  4. HBase
  5. Ošetrovateľ v zoo
  6. žľab

Teraz uvidíme funkcie so stručným vysvetlením.

1. Úľ

Apache Hive bol založený Facebookom a neskôr venovaný nadácii Apache, ktorá je infraštruktúrou dátového skladu, uľahčuje písanie SQL ako Query s názvom HQL alebo HiveQL. Tieto dotazy sa interne prevádzajú na úlohy Map Reduce a spracovanie sa vykonáva pomocou distribuovanej výpočtovej techniky Hadoop. Dokáže spracovať údaje uložené v HDFS, S3 a všetky úložiská kompatibilné s Hadoop. Využitím zariadení, ktoré poskytuje Map Reduce, môžeme kedykoľvek nájsť niečo ťažké implementovať v Úli implementáciou do funkcií definovaných používateľom. Umožňuje užívateľovi zaregistrovať UDF a použiť ich v úlohách.

Vlastnosti úľa

  • Podregister dokáže spracovať mnoho typov formátov súborov, ako napríklad Sequence File, ORC File, TextFile atď.
  • Rozdelenie na oddiely, segmentovanie a indexovanie sú k dispozícii na rýchlejšie vykonávanie.
  • Komprimované údaje možno tiež načítať do tabuľky úľov.
  • Spravované alebo interné tabuľky a externé tabuľky sú hlavnými črtami Úľa.

2. Prasa

Spoločnosť Yahoo vyvinula prasa Apache, aby mala ďalší nástroj na posilnenie Hadoop tým, že má ad-hoc spôsob implementácie Map Reduce. Prasa má motor nazývaný Pig Engine, ktorý prevádza skripty na funkciu Map Reduce. Pig je skriptovací jazyk, skripty napísané pre Pig sú v PigLatin, rovnako ako tu existuje aj Úľ, aby sme mohli vylepšiť funkčnosť UDF. Úlohy v ošípaných sú automaticky optimalizované, takže si programátori nemusia robiť starosti. Ošípané Spracováva štruktúrované aj neštruktúrované údaje.

Vlastnosti zariadenia Pig

  • Používatelia môžu mať vlastné funkcie na vykonávanie špeciálneho typu spracovania údajov.
  • Je ľahké písať kódy do Pig pomerne, aj dĺžka kódu je menšia.
  • Systém môže automaticky optimalizovať vykonávanie.

3. Sqoop

Sqoop sa používa na prenos údajov z HDFS do RDBMS a naopak. Môžeme údaje preniesť na HDFS z RDBMS, Hive, atď. A môžeme ich spracovať a exportovať späť do RDBMS. Údaje môžeme v tabuľke pridať viackrát, tiež môžeme vytvoriť úlohu Sqoop a vykonať ju viackrát.

Funkcie Sqoop

  • Sqoop dokáže importovať všetky tabuľky naraz do HDFS.
  • Môžeme vkladať dotazy SQL, ako aj podmienky na import údajov.
  • Ak existuje tabuľka z HDFS, môžeme importovať údaje do úľa.
  • Počet mapovačov sa dá riadiť, tj paralelné vykonávanie sa dá riadiť zadaním počtu mapovačov.

4. HBase

Systém správy databáz na vrchu HDFS sa nazýva HBase. HBase je databáza NoSQL, ktorá je vyvinutá na vrchole HDFS. HBase nie je relačná databáza, nepodporuje štruktúrované dopytovacie jazyky. HBase využíva distribuované spracovanie HDFS. Môže mať veľké tabuľky s miliónmi a miliónmi záznamov.

Charakteristiky HBase

  • HBase poskytuje škálovateľnosť ako v lineárnom, tak aj v modulárnom prevedení.
  • Rozhrania API v JAVA sa môžu použiť na prístup klientov.
  • HBase poskytuje shell na vykonávanie dotazov.

5. Zookeeper

Apache Zookeeper je centralizovaná služba na udržiavanie konfigurácie, uchováva záznamy informácií, pomenuje, poskytuje tiež distribuovanú synchronizáciu a skupinové služby. Zookeeper je centralizované úložisko, ktoré distribuované aplikácie využívajú na ukladanie a získavanie údajov o ňom. Pomáha tiež pri správe uzlov, tj pri pripájaní alebo ponechaní uzla v klastri. Poskytuje vysoko spoľahlivý dátový register, keď je niekoľko uzlov mimo prevádzky.

Funkcie Zookeeper

  • Výkon možno zvýšiť rozdelením úloh, ktoré sa dosiahnu pridaním ďalších počítačov.
  • Skryje zložitosť distribúcie a zobrazuje sa ako jediný stroj.
  • Porucha niekoľkých systémov nemá vplyv na celý systém, ale nevýhodou je, že to môže viesť k čiastočnej strate údajov.
  • Poskytuje atomicitu, tj transakcia je buď úspešná alebo neúspešná, ale nie v nedokonalom stave.

6. Flume

Apache Flume je nástroj, ktorý poskytuje príjem dát, ktorý môže zhromažďovať, agregovať a prenášať veľké množstvo údajov z rôznych zdrojov na HDFS, HBase atď. Flume je veľmi spoľahlivý a dá sa nakonfigurovať. Bol navrhnutý tak, aby prijímal streamingové dáta z webového servera alebo údaje o udalostiach na HDFS, napr. Môže prijímať twitterové dáta do HDFS. Aplikácia Flume môže ukladať údaje do ktoréhokoľvek z centralizovaných úložísk údajov, ako napríklad HBase / HDFS. Ak nastane situácia, keď je produkcia údajov vyššia v porovnaní s rýchlosťou údajov, ktorú je možné zapísať, potom flume pôsobí ako mediátor a zabezpečuje plynulé toky údajov.

Funkcie Flume

  • Môže prijímať údaje z webových serverov spolu s údajmi o udalostiach, ako sú napríklad údaje zo sociálnych médií.
  • Transakcie typu Flume sú založené na kanáloch, tj udržiavajú sa dve správy, jedna je určená na odoslanie a druhá je určená na príjem.
  • Horizontálne škálovanie je možné v záblesku.
  • Je vysoko porušený, pretože kontextové smerovanie je prítomné v záblesku.

Záver - Hadoop Tools

V tomto článku sme sa dozvedeli o niekoľkých nástrojoch Hadoop a o tom, ako sú užitočné vo svete údajov. Videli sme Hive and Pig, ktoré sa používajú na zisťovanie a analýzu údajov, presunutie údajov a presunutie údajov na príjem dátových prúdov do HDFS.

Odporúčané články

Toto bol sprievodca Hadoop Tools. Tu diskutujeme rôzne nástroje Hadoopu s ich vlastnosťami. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Hadoop Alternatívy
  2. Databáza Hadoop
  3. Funkcie reťazca SQL
  4. Čo sú to veľké dáta

Kategórie: