Čo je liek Hadoop?
Pred pochopením výhod Hadoop najprv pochopiť Hadoop. Hadoop je veľké paradigma spracovania dát, ktoré poskytuje spoľahlivé a škálovateľné miesto na ukladanie a spracovanie údajov. Hadoop bol vytvorený Dougom Cuttingom a je považovaný za „otca Hadoopa“. Hadoop bol názov slona pre hračky jeho syna. Hadoop mal svoje korene v projekte Nutch Search Engine Project. Hadoop je spracovateľský rámec, ktorý priniesol obrovské zmeny v spôsobe spracovania údajov, spôsobe ich uchovávania. V porovnaní s tradičnými nástrojmi na spracovanie, ako je RDBMS, Hadoop preukázal, že dokážeme efektívne bojovať proti problémom veľkých dát, ako sú,
Variety dát: Hadoop dokáže ukladať a spracovávať štruktúrované, ako aj čiastočne štruktúrované a neštruktúrované formáty údajov.
Objem dát : Hadoop je špeciálne navrhnutý tak, aby zvládal obrovský objem údajov v rozsahu petabajtov.
Rýchlosť údajov : Hadoop dokáže spracovať petabajty údajov s vysokou rýchlosťou v porovnaní s inými nástrojmi na spracovanie, ako je RDBMS, tj doba spracovania v Hadoope je veľmi menšia.
Hlavné rysy Hadoopu
- Hadoop je v prírode open source.
- Funguje na zoskupení strojov. Veľkosť klastra závisí od požiadaviek.
- Môže bežať na bežnom komoditnom hardvéri.
Výhody Hadoop
V tejto časti sú diskutované výhody Hadoopu. Pozrime sa na ne jeden po druhom:
1. Open Source
Hadoop je vo svojej podstate open source, tj jeho zdrojový kód je voľne k dispozícii. Môžeme upraviť zdrojový kód podľa našich obchodných požiadaviek. K dispozícii sú dokonca aj proprietárne verzie diel Hadoop, ako sú diela Cloudera a Horton.
2. Prispôsobiteľné
Hadoop pracuje na klastri strojov. Hadoop je vysoko škálovateľný. Veľkosť nášho klastra môžeme zväčšiť pridaním nových uzlov podľa potreby bez akýchkoľvek prestojov. Tento spôsob pridávania nových počítačov do klastra sa nazýva horizontálne škálovanie, zatiaľ čo zvyšovanie komponentov, ako je zdvojnásobenie pevného disku a RAM, sa nazýva vertikálne škálovanie.
3. Odolnosť voči poruchám
Tolerancia porúch je hlavnou črtou Hadoopu. V predvolenom nastavení má každý blok v HDFS replikačný faktor 3. Pre každý dátový blok vytvára HDFS ďalšie dve kópie a ukladá ich na iné miesto v klastri. Ak niektorý blok zmizne z dôvodu zlyhania zariadenia, stále máme ďalšie dve kópie toho istého bloku a tieto sa používajú. Týmto spôsobom sa v Hadoope dosiahne tolerancia porúch.
4. Schéma nezávislá
Hadoop dokáže pracovať na rôznych druhoch údajov. Je dostatočne flexibilný na ukladanie rôznych formátov údajov a môže pracovať na údajoch so schémami (štruktúrované) aj bez schém (bez štruktúrovaných).
5. Vysoká priepustnosť a nízka latencia
Priepustnosť znamená množstvo vykonanej práce za jednotku času a Nízka latencia znamená spracovanie údajov bez oneskorenia alebo menšieho oneskorenia. Pretože Hadoop je poháňaný princípom distribuovaného ukladania a paralelného spracovania, spracovanie sa vykonáva súčasne na každom bloku údajov a nezávisle od seba. Namiesto presunutia údajov sa kód presunie aj na údaje v klastri. Tieto dva prispievajú k vysokej priepustnosti a nízkej latencii.
6. Miesto údajov
Hadoop pracuje na princípe „Presuňte kód, nie údaje“. V aplikácii Hadoop zostáva Data stacionárne a na spracovanie údajov sa kód presunie na údaje vo forme úloh, čo je známe ako Data Locationity. Pretože pracujeme s údajmi v rozsahu petabytov, je ťažké a nákladné presunúť údaje v sieti. Lokalita údajov zabezpečuje, že pohyb údajov v klastri je minimálny.
7. Výkon
V starších systémoch, ako je RDBMS, sa údaje spracúvajú postupne, ale v Hadoop sa spracovanie začína na všetkých blokoch naraz, čím sa poskytuje paralelné spracovanie. Vďaka technikám paralelného spracovania je výkon Hadoop oveľa vyšší ako v prípade starších systémov, ako je RDBMS. V roku 2008 Hadoop dokonca porazil najrýchlejší superpočítač v súčasnosti.
8. Zdieľajte nič architektúry
Každý uzol v klastri Hadoop je na sebe nezávislý. Nezdieľajú prostriedky ani úložisko, táto architektúra je známa ako Share Nothing Architecture (SN). Ak uzol v klastri zlyhá, nezníži celý klaster, pretože každý uzol koná nezávisle, čím sa eliminuje jediný bod zlyhania.
9. Podpora viacerých jazykov
Aj keď bol Hadoop väčšinou vyvíjaný v Jave, rozširuje podporu pre ďalšie jazyky, ako napríklad Python, Ruby, Perl a Groovy.
10. Nákladovo efektívne
Hadoop má veľmi ekonomický charakter. Hadoop Cluster môžeme vytvoriť pomocou bežného komoditného hardvéru, čím sa znížia náklady na hardvér. Podľa cloudovej éry sú náklady na správu údajov spoločnosti Hadoop, tj náklady na hardvér a softvér a ďalšie náklady, v porovnaní s tradičnými systémami ETL veľmi nízke.
11. Abstrakcia
Hadoop poskytuje abstrakciu na rôznych úrovniach. Uľahčuje prácu vývojárom. Veľký súbor je rozdelený do blokov rovnakej veľkosti a uložený na rôznych miestach klastra. Pri vytváraní úlohy znižovania mapy sa musíme obávať umiestnenia blokov. Ako vstup poskytujeme kompletný súbor a rámec Hadoop sa stará o spracovanie rôznych blokov údajov, ktoré sú na rôznych miestach. Úľ je súčasťou ekosystému Hadoop a je to abstrakcia na vrchu Hadoop. Pretože úlohy Map-Reduce sú napísané v jazyku Java, vývojári SQL z celého sveta nemohli využívať výhody programu Map Reduce. Zavádza sa preto Hive na vyriešenie tohto problému. Môžeme písať SQL ako dotazy na Úľ, čo následne spúšťa Mapové úlohy. Vďaka Hive je komunita SQL tiež schopná pracovať na mapových úlohách Znížiť.
12. Zlučiteľnosť
V Hadoop je HDFS úložná vrstva a Map Reduce je procesor na spracovanie. Neexistuje však prísne pravidlo, že by Map Reduce mala byť predvoleným procesorom spracovania. Nové rámce spracovania ako Apache Spark a Apache Flink používajú systém HDFS ako úložný systém. Dokonca aj v Úli tiež môžeme zmeniť náš spúšťací motor na Apache Tez alebo Apache Spark podľa našich požiadaviek. Apache HBase, čo je stĺpcová databáza NoSQL, používa pre ukladaciu vrstvu HDFS.
13. Podpora rôznych systémov súborov
Hadoop má veľmi flexibilný charakter. Môže prijímať rôzne formáty údajov, ako sú obrázky, videá, súbory atď. Môže spracovávať aj štruktúrované a neštruktúrované údaje. Hadoop podporuje rôzne súborové systémy ako JSON, XML, Avro, Parquet atď.
Spracovanie Hadoop
Nižšie sú uvedené body, ktoré ukazujú, ako Hadoop účinkuje:
1. Distribuované skladovanie a paralelné spracovanie
Toto je hnací princíp všetkých rámcov ekosystému Hadoop vrátane Apache Spark. Aby sme pochopili fungovanie Hadoop a Spark, mali by sme najprv pochopiť, čo je „Distribuované úložisko a paralelné spracovanie“.
2. Distribuované úložisko
Hadoop neukladá dáta do jedného počítača, ale rozdeľuje obrovské dáta do blokov rovnakej veľkosti, ktoré sú predvolene 256 MB, a ukladá tieto bloky do rôznych uzlov klastra (pracovné uzly). Uloží metadáta týchto blokov v hlavnom uzle. Tento spôsob ukladania súboru do distribuovaných umiestnení v klastri sa nazýva distribuovaný súborový systém Hadoop - HDFS.
3. Paralelné spracovanie
Je to paradigma spracovania, kde sa spracovanie vykonáva súčasne na blokoch údajov uložených v HDFS. Paralelné spracovanie pracuje na pojme „presun kódu, nie dát“. Údaje zostávajú v HDFS nehybné, ale kód sa presunie do údajov na spracovanie. Jednoducho povedané, ak je náš súbor rozdelený na 100 blokov, potom sa vytvorí 100 kópií úlohy a cestujú cez klaster na miesto, kde sa blok nachádza, a spracovanie na 100 blokoch sa začína súčasne (fáza mapy). Výstupné údaje zo všetkých blokov sa zhromažďujú a redukujú na konečný výstup (redukcia fázy). Mapa Reduce sa považuje za „Srdce Hadoopu“.
Záver - Výhody Hadoopu
V tomto dátovom veku spoločnosť Hadoop vydláždila cestu pre iný prístup k výzvam, ktoré predstavujú veľké dáta. Keď povieme, Hadoop, nemyslíme samotný Hadoop, zahŕňa nástroje Hadoop Ecosystem ako Apache Hive, ktoré poskytujú operácie podobné SQL na vrchole Hadoop, Apache Pig, Apache HBase pre databázu úložných stĺpcov, Apache Spark pre spracovanie v pamäti a mnoho viac. Aj keď má Hadoop svoje nevýhody, je vysoko prispôsobivý a pri každom vydaní sa neustále vyvíja.
Odporúčané články
Toto je sprievodca po výhodách Hadoopu. Tu diskutujeme o tom, čo je Hadoop a hlavné výhody Hadoop. Viac informácií nájdete aj v ďalších súvisiacich článkoch.
- HADOOP Framework
- Čo je Hadoop Cluster?
- Čo je MapReduce v Hadoope?
- Databáza Hadoop
- Čo je liek Hadoop? | Aplikácie a funkcie