Úvod do Hadoop Open Source?
Hadoop formálne nazývaný Apache Hadoop. Apache Hadoop je projekt najvyššej úrovne komunity Apache. Apache Hadoop je projekt nadácie Apache Software Foundation a softvérová platforma s otvoreným zdrojom. Apache Hadoop je navrhnutý pre škálovateľné, odolné voči chybám a distribuované výpočty. Hadoop môže poskytnúť rýchlu a spoľahlivú analýzu štruktúrovaných aj neštruktúrovaných údajov. Softvér s otvoreným zdrojom je softvér so zdrojovým kódom, ktorý môže ktokoľvek skontrolovať, upraviť a vylepšiť. Open Source je certifikačný štandard vydaný Open Source Initiative (OSI), ktorý označuje, že zdrojový kód počítačového programu je bezplatne sprístupnený širokej verejnosti. Softvér s otvoreným zdrojom sa obvykle dodáva so zdrojovým kódom na základe licencie s otvoreným zdrojom. Kód s otvoreným zdrojovým kódom je zvyčajne vytvorený ako spoločné úsilie, pri ktorom programátori vylepšujú tento kód a zdieľajú zmeny v rámci komunity. Softvér sa aktualizuje veľmi rýchlo pod komunitou Apache. Každý programátor alebo spoločnosť môže upraviť zdrojový kód podľa svojich požiadaviek a môže uvoľniť novú verziu softvéru na platformu Apache Community.
Funkcie Hadoop
Ako sme študovali vyššie o úvode do Is Hadoop open source, teraz sa učíme rysy Hadoopu:
-
Open Source -
Najatraktívnejšou črtou Apache Hadoop je, že je to open source. To znamená, že open source Hadoop je zadarmo. Ktokoľvek si ho môže stiahnuť a používať osobne alebo profesionálne. Ak by vôbec vznikli nejaké náklady, pravdepodobne by to bol komoditný hardvér na ukladanie obrovského množstva údajov. Ale to stále robí Hadoop lacným.
-
Komoditný hardvér -
Apache Hadoop beží na komoditnom hardvéri. Komoditný hardvér znamená, že sa pre svoju infraštruktúru nebudete držať žiadneho jedného dodávateľa. Akákoľvek spoločnosť poskytujúca hardvérové zdroje, ako je jednotka úložiska, procesor za nižšie náklady. Určite sa môžete presunúť do týchto spoločností.
-
Nízke náklady -
Hadoop Framework je založený na komoditnom hardvéri a open source softvérovom rámci. Znižuje náklady a zároveň ich prijíma v organizácii alebo nových investíciách do vášho projektu.
-
Škálovateľnosť -
Je to vlastnosť systému alebo aplikácie, ktorá zvláda väčšie množstvo práce alebo sa ľahko rozširuje v reakcii na zvýšený dopyt po sieťových, spracovateľských, databázových alebo systémových súborových zdrojoch. Hadoop je vysoko škálovateľná úložná platforma. Škálovateľnosť je schopnosť niečoho sa v priebehu času prispôsobiť zmenám. Úpravy zvyčajne zahŕňajú rast, takže veľká konotácia je, že adaptáciou bude nejaký druh rozšírenia alebo vylepšenia. Hadoop je horizontálne škálovateľný. To znamená, že do svojej existujúcej infraštruktúry môžete pridať ľubovoľný počet uzlov alebo strojov. Povedzme, že pracujete na 15 TB údajov a 8 počítačoch vo vašom klastri. Očakávate budúci mesiac 6 TB údajov. Váš klaster však dokáže zvládnuť iba 3 TB viac. Hadoop vám ponúka funkciu horizontálneho škálovania - to znamená, že môžete pridať ľubovoľné číslo systému podľa vašej požiadavky na klaster.
-
Vysoko robustný-
Vďaka funkcii tolerancie voči poruchám je Hadoop skutočne populárny. Hadoop vám ponúka funkciu ako replikačný faktor. Znamená to, že vaše údaje sa replikujú do iných uzlov, ako je definované v replikačnom faktore. Vaše údaje sú bezpečné a zabezpečené do iných uzlov. Ak dôjde k zlyhaniu klastra, údaje sa automaticky prenesú na iné miesto. Tým sa zabezpečí, že spracovanie údajov bude pokračovať bez akýchkoľvek problémov.
-
Diverzita dát -
Rámec Apache Hadoop vám umožní zvládnuť akúkoľvek veľkosť údajov a akýkoľvek druh údajov. Framework Apache Hadoop vám pomôže pracovať na veľkých dátach. Budete mať možnosť ukladať a spracovávať štruktúrované údaje, čiastočne štruktúrované a neštruktúrované údaje. Nie ste obmedzení na žiadne formáty údajov. Nie ste obmedzení na žiadny objem údajov.
-
Viacnásobné rámce pre veľké dáta -
Existujú rôzne nástroje na rôzne účely. Hadoop framework má širokú škálu nástrojov. Hadoop framework je rozdelený do dvoch vrstiev. Skladovacia vrstva a vrstva spracovania. Vrstva úložného priestoru sa nazýva Distribuovaný systém súborov Hadoop a vrstva spracovania sa nazýva Zmenšenie mapy. Na vrchole HDFS sa môžete integrovať do všetkých druhov nástrojov podporovaných Hadoop Cluster. Hadoop môže byť integrovaný s viacerými analytickými nástrojmi, aby z toho vyťažil to najlepšie, napríklad Mahout pre strojové vzdelávanie, R a Python pre analýzu a vizualizáciu, Python, Spark pre spracovanie v reálnom čase, MongoDB a HBase pre databázu NoSQL, Pentaho pre BI atď. Môže byť integrovaný do nástrojov na spracovanie údajov, ako sú Apache Hive a Apache Pig. Môže byť integrovaný s nástrojmi na extrakciu dát, ako sú Apache Sqoop a Apache Flume.
-
Rýchle spracovanie -
Zatiaľ čo tradičné ETL a dávkové procesy môžu trvať hodiny, dni alebo dokonca týždne, kým sa načíta veľké množstvo údajov, potreba analyzovať tieto údaje v reálnom čase sa stáva každým dňom kritická. Hadoop je mimoriadne dobrý pri veľkoobjemovom dávkovom spracovaní, pretože je schopný paralelného spracovania. Hadoop dokáže vykonávať dávkové procesy 10-krát rýchlejšie ako na serveri s jedným vláknom alebo na mainframe. Nástroje na spracovanie údajov sa často nachádzajú na rovnakých serveroch, na ktorých sa údaje nachádzajú, čo vedie k oveľa rýchlejšiemu spracovaniu údajov. Ak pracujete s veľkým objemom neštruktúrovaných údajov, spoločnosť Hadoop dokáže efektívne spracovať terabajty údajov behom niekoľkých minút a petabajty za hodiny.
-
Jednoduché použitie -
Hadoop framework je založený na Java API. Pri prijímaní softvéru Hadoop neexistuje veľa technologických medzier ako vývojár. Rámec Map Reduce je založený na Java API. Potrebujete kód a napíšte algoritmus na samotnú JAVA. Ak pracujete na nástrojoch ako Apache Hive. Je založená na SQL. Každý vývojár, ktorý má zázemie databázy, môže Hadoop ľahko prijať a môže pracovať na Hive ako nástroj.
Záver: Je Hadoop Open source?
2.7 Zeta bajtov údajov dnes existuje v digitálnom vesmíre. Big Data bude dominovať v nasledujúcom desaťročí v prostredí na ukladanie a spracovanie údajov. Dáta budú centrom modelu pre rast podnikania. Existuje požiadavka nástroja, ktorý sa im hodí. Hadoop sa dobre hodí na ukladanie a spracovanie veľkých dát. Všetky vyššie uvedené vlastnosti softvéru Big Data Hadoop ho robia silným pre široko akceptovaný model Hadoop. Big Data bude stredobodom všetkých nástrojov. Hadoop je jedným z riešení pre prácu na Big Data.
Odporúčaný článok
Toto bol návod na otvorený zdroj Is Hadoop. Tu tiež diskutujeme základné pojmy a vlastnosti Hadoopu. Môžete sa tiež pozrieť na nasledujúce články, kde sa dozviete viac -
- Použitie Hadoopu
- Hadoop vs Spark
- Kariéra v iskre
- Úlohy administrátora Hadoop
- Administrátor Hadoopu Zručnosti a kariérna cesta