Úvod do alternatív spoločnosti Hadoop

Apache Hadoop je monštruózny rámec, ktorý používa niekoľko ďalších komponentov, ako sú HDFS, Hive, Spark, YARN a Zookeeper. Používa sa na spracovanie a analýzu údajov získaných z interných alebo externých zdrojov. Môže sa škálovať od niekoľkých počítačov alebo serverov po tisíce. Existuje veľa zabudovaných funkcií knižnice, ktoré dokážu zistiť a riešiť poruchy.

Komponenty Hadoop

1) Distribuovaný systém súborov Hadoop (HDFS):

Toto je sklad údajov v Hadoope. Funguje na princípe distribuovaných údajov, kde sú obrovské súbory údajov rozdelené na malé časti a uložené v niekoľkých strojoch v klastri.

2) MapReduce:

Je to programovací model, ktorý vykonáva paralelné analýzy údajov, ktoré sa nachádzajú v rôznych uzloch klastra.

3) Úľ:

Rámec Open-Source, ktorý sa používa na dotazovanie na štruktúrované údaje pomocou jazyka Hive-Query. Funkcia indexovania sa používa na urýchlenie procesu dotazovania.

4) Ambari:

Platforma na monitorovanie stavu klastra a automatizáciu operácií. Má jednoduché webové používateľské rozhranie a dá sa ľahko nainštalovať a nakonfigurovať.

Zoznam alternatív Hadoop

Nižšie sú uvedené rôzne alternatívy Hadoopu:

Dávkové spracovanie

Tu sa spracovanie vykonáva iba na archívnych údajoch. Napríklad finančné audity a sčítanie sú analýzou starých údajov, ktorá poskytuje lepšiu predpoveď budúcich výsledkov. Tieto údaje môžu obsahovať miliardy riadkov a stĺpcov. Dávkové spracovanie je najvhodnejšie pre spracovanie veľkých dát bez potreby analýzy v reálnom čase.

Spracovanie v reálnom čase

To je tiež známe ako Stream-Processing. Tu sa údaje z času na čas spracúvajú, pretože sa generujú, aby poskytli rýchly prehľad o pravdepodobných výsledkoch. Detekcia zemetrasenia a trhy s zásobami sú najlepšími príkladmi, keď je nevyhnutná analýza v reálnom čase.

Apache Spark

Spark je rámec, ktorý sa používa spolu s Hadoop na spracovanie údajov o dávkach alebo v reálnom čase na klastrových strojoch. Môže byť tiež použitý ako samostatný, získavanie a ukladanie údajov na serveroch tretích strán bez použitia HDFS. Je to produkt s otvoreným zdrojom. Poskytuje API napísané pomocou SCALA, R alebo Python, ktoré podporujú všeobecné spracovanie. Na spracovanie štruktúrovaných údajov je možné použiť program Spark-SQL. Spark Streaming vykonáva toľko potrebné analýzy v reálnom čase. Spark poskytuje podporu strojového učenia pomocou MLIB. Nakoniec je možné spracované údaje zobraziť pomocou Graphix.

Najvýznamnejšou vlastnosťou programu Spark je spracovanie v pamäti. Celé spracovanie údajov prebieha v pamäti a nie na disku. Táto metóda šetrí čas na čítanie a zápis vstupu na disk a výstup z neho späť. Iskra je blesková a je takmer stokrát rýchlejšia ako spracovanie Hadoop. Celá funkcia je definovaná a odoslaná do kontextu Spark. Až potom sa spracovanie začne od nuly. Táto metóda sa nazýva Lazy-prevedenie. Kafka, Flume sa používajú ako vstupy pre streamovanie údajov. Štruktúrované alebo neštruktúrované údaje môže Spark použiť na analýzu. Dátové toky sú zväzkom údajov pre daný časový interval v programe Spark Streaming. Sú prevedené na šarže a predložené Spark Engine na spracovanie. Štruktúrované údaje sa pred použitím Spark-SQL pre ďalšiu analýzu prevedú na dátové rámce.

Apache Storm

Apache Storm je tiež jednou z alternatív Hadoopu, ktorá je najvhodnejšia pre distribuovanú analýzu v reálnom čase. Je ľahko nastaviteľný, užívateľsky prívetivý a neposkytuje žiadnu stratu dát. Búrka má veľmi vysoký výpočtový výkon a poskytuje nízku latenciu (zvyčajne v sekundách) v porovnaní s Hadoopom.

Podrobnejšie sa pozrieme na pracovný postup spoločnosti Storm:

  • Topológia búrok (podobná DAG, ale plán fyzického vykonania) sa odovzdá Nimbusu (hlavný uzol).
  • Úlohy a poradie, v akom by sa mali vykonávať, sa predkladajú Nimbusu.
  • Nimbus rovnomerne rozdeľuje dostupné úlohy k supervízorom (Spouts) a proces je vykonávaný Worker Nodes (Bolts).
  • Zdravie výtokov a čapov sa nepretržite monitoruje prostredníctvom srdcových rytmov. Keď supervízor zomrie, Nimbus pridelí úlohu inému uzlu.
  • Ak Nimbus zomrie, monitorovacie nástroje ho automaticky reštartujú. Medzitým orgány dohľadu pokračujú vo vykonávaní svojich úloh, ktoré im boli pridelené skôr.
  • Akonáhle je Nimbus reštartovaný, pokračuje v práci od miesta, kde sa zastavil. Preto nedochádza k strate údajov a každé dáta prechádzajú topológiou najmenej raz.
  • Topológia bude pokračovať, pokiaľ sa Nimbus neskončí alebo násilne nevypne.
  • Storm využíva Zookeeper na monitorovanie Nimbus a ostatných uzlov supervízora.

Veľký dopyt

Databázy sa používajú na spracovanie transakcií. Manažéri vytvárajú správy a analyzujú údaje z rôznych databáz. Boli zavedené dátové sklady na získavanie údajov z viacerých databáz v celej organizácii. Google vyvinul veľký dopyt, ktorý je dátovým skladom spravovaným vlastným vlastníkom. Na zvládnutie veľmi zložitých dopytov je možné, že budete potrebovať veľmi výkonné servery a uzlové stroje, ktoré môžu stáť obrovské náklady. Zriadenie infraštruktúry môže trvať až niekoľko týždňov. Po dosiahnutí maximálnej prahovej hodnoty sa musí stupnica zväčšiť. Na vyriešenie týchto problémov poskytuje veľký dotaz úložisko vo forme cloudu Google. Pracovné uzly sa podľa potreby prispôsobia na veľkosť dátového centra, ak je to potrebné na vykonanie komplexného dotazu v priebehu niekoľkých sekúnd. Platíte za to, čo používate, tj dotazovanie. Spoločnosť Google sa stará o prostriedky, ich údržbu a zabezpečenie. Spúšťanie dopytov v bežných databázach môže trvať niekoľko minút až hodín. Veľký dopyt spracováva údaje oveľa rýchlejšie a je vhodný najmä na streamovanie údajov, ako sú online hry a internet vecí (IoT). Rýchlosť spracovania je vysoká ako miliardy riadkov za sekundu.

Presto

Dotaz Presto sa môže použiť na kombinovanie údajov z rôznych zdrojov v celej organizácii a ich analýzu. Dáta môžu byť uložené v Úli, RDBMS alebo Cassandra. Program Presto je najvhodnejší pre analytikov, ktorí očakávajú celú zadanú správu v priebehu niekoľkých minút. Architektúra je analogická klasickému systému správy databáz s použitím viacerých uzlov v klastri. Bol vyvinutý spoločnosťou Facebook na vykonávanie analýz a zisťovanie prehľadov o ich interných údajoch vrátane ich 300PB dátového skladu. Na ich dáta sa spracuje viac ako 30 000 dopytov, ktoré sa denne skenujú v petabajtoch. Presto využívajú aj ďalšie popredné spoločnosti ako Airbnb a Dropbox.

Odporúčaný článok

Toto bol sprievodca Hadoop Alternatívy. Tu diskutujeme o zložkách Hadoopu, dávkovom spracovaní a spracovaní alternatív Hadoopu v reálnom čase. Ďalšie informácie nájdete aj v nasledujúcich článkoch:

  1. Úlohy administrátora Hadoop
  2. Hadoop verzus SQL Performance
  3. Kariéra v Hadoope
  4. Hadoop vs Spark
  5. Administrátor Hadoopu Zručnosti a kariérna cesta

Kategórie: