Úvod do AWS EMR

AWS EMR poskytuje veľa funkcií, ktoré nám uľahčujú prácu. Niektoré z týchto technológií sú:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazon Auto Scaling
  6. Amazon Lambda
  7. Amazon Redshift
  8. Amazon Elastic MapReduce (EMR)

Jednou z hlavných služieb poskytovaných spoločnosťou AWS EMR, ktorú budeme riešiť, je spoločnosť Amazon EMR.

EMR, bežne nazývaná Elastic Map Reduce, prichádza s ľahkým a prístupným spôsobom, ako sa vysporiadať so spracovaním väčších častí údajov. Predstavte si veľký dátový scenár, v ktorom máme obrovské množstvo údajov a vykonávame nad nimi súbor operácií, povedzme, že je spustená úloha Map-Reduce. Jedným z hlavných problémov, ktorým aplikácie Bigdata čelia, je vyladenie programu, často je ťažké doladiť náš program takým spôsobom, aby sa všetok pridelený zdroj spotreboval správne. V dôsledku tohto vyššie uvedeného ladiaceho faktora sa čas potrebný na spracovanie postupne zvyšuje. Elastic Map Znížte služby spoločnosti Amazon, je webová služba, ktorá poskytuje rámec, ktorý spravuje všetky tieto potrebné funkcie potrebné na spracovanie veľkých údajov nákladovo efektívnym, rýchlym a bezpečným spôsobom. Od vytvárania klastrov po distribúciu údajov v rôznych prípadoch sa všetky tieto veci dajú ľahko spravovať v rámci Amazon EMR. Tieto služby sú na požiadanie, čo znamená, že dokážeme kontrolovať čísla na základe údajov, ktoré máme, ak sú nákladovo efektívne a škálovateľné.

Dôvody použitia AWS EMR

Prečo používať AMR, čo ho robí lepším od ostatných. Často sa stretávame s veľmi základným problémom, keď nedokážeme prideliť všetky prostriedky dostupné v klastri žiadnej aplikácii. AMAZON EMR sa o tieto problémy stará a na základe veľkosti údajov a dopytu po aplikácii pridelí potrebný zdroj. Tiež, pretože je elastickej povahy, môžeme ju zodpovedajúcim spôsobom zmeniť. EMR má obrovskú podporu aplikácií, či už ide o Hadoop, Spark, HBase, ktorá uľahčuje spracovanie údajov. Podporuje rôzne operácie ETL rýchlo a lacno. Môže sa použiť aj na MLIB v programe Spark. Môžeme v ňom vykonávať rôzne algoritmy strojového učenia. Či už ide o šarže dát alebo o streamovanie údajov v reálnom čase, EMR dokáže usporiadať a spracovať oba typy údajov.

Fungovanie AWS EMR

Teraz sa pozrime na tento diagram klastra Amazon EMR a pokúsime sa pochopiť, ako to v skutočnosti funguje:

Nasledujúci diagram zobrazuje distribúciu klastrov vo vnútri EMR. Pozrime sa na to podrobne:

1. Klastre sú ústrednou súčasťou architektúry EMR spoločnosti Amazon. Sú to zbierky inštancií EC2 s názvom Uzly. Každý uzol má svoje špecifické úlohy v klastri nazývané typ uzla a na základe ich rolí ich môžeme klasifikovať do 3 typov:

  • Hlavný uzol
  • Základný uzol
  • Uzol úlohy

2. Hlavný uzol, ako už názov napovedá, je hlavný server, ktorý je zodpovedný za správu klastra, spúšťanie komponentov a distribúciu údajov cez uzly na spracovanie. Sleduje len to, či je všetko správne spravované a správne a či funguje v prípade zlyhania.

3. Hlavný uzol je zodpovedný za spustenie úlohy a za uloženie údajov do HDFS v klastri. Všetky spracovateľské časti sú spracované jadrovým uzlom a dáta po tomto spracovaní sú umiestnené na požadované miesto HDFS.

4. Voliteľný uzol úlohy má iba úlohu na vykonanie úlohy, ktorá neukladá údaje do systému HDFS.

5. Kedykoľvek po odoslaní úlohy máme niekoľko spôsobov, ako zvoliť, ako budú práce dokončené. Či už ide o ukončenie klastra po dokončení úlohy, až po dlhodobý klaster, ktorý používa konzolu EMR a CLI, aby sme mohli odoslať kroky, máme na to všetky oprávnenia.

6. Úlohu môžeme na EMR spustiť priamo tak, že ju prepojíme s hlavným uzlom prostredníctvom dostupných rozhraní a nástrojov, ktoré spúšťajú úlohy priamo v klastri.

7. S pomocou EMR tiež môžeme spúšťať naše dáta v rôznych krokoch, všetko, čo musíme urobiť, je odoslať jeden alebo viac usporiadaných krokov v klastri EMR. Dáta sa ukladajú ako súbor a spracúvajú postupne. Po jeho spustení z stavu „Čaká na dokončenie“ môžeme sledovať kroky spracovania a nájsť chyby, ktoré sú z „Nepodarilo sa zrušiť“. Všetky tieto kroky možno ľahko vysledovať až k tomuto.

8. Po ukončení celej inštancie sa dosiahne dokončený stav klastra.

Architektúra pre AWS EMR

Architektúra EMR sa zavádza od časti úložného priestoru po časť Aplikácia.

  • Prvá vrstva je dodávaná s úložnou vrstvou, ktorá obsahuje rôzne systémy súborov používané v našom klastri. Či už ide o HDFS až EMRFS až po lokálny súborový systém, všetky sa používajú na ukladanie údajov v celej aplikácii. Ukladanie medziskladov počas spracovania MapReduce sa dá dosiahnuť pomocou týchto technológií, ktoré sa dodávajú s EMR.
  • Druhá vrstva je dodávaná so správou prostriedkov pre klaster, táto vrstva je zodpovedná za správu prostriedkov pre klastre a uzly v aplikácii. To v podstate pomáha ako nástroje na správu, ktoré pomáhajú rovnomerne distribuovať údaje cez klaster a správne spravovať. Predvolený nástroj na správu zdrojov, ktorý používa EMR, je YARN, ktorý bol zavedený v Apache Hadoop 2.0. Centrálne riadi zdroje pre viacero rámcov na spracovanie údajov. Postará sa o všetky informácie, ktoré sú potrebné pre správne fungovanie klastra, a to od stavu uzla po distribúciu prostriedkov pomocou správy pamäte.
  • Tretia vrstva prichádza s rámcom na spracovanie údajov, táto vrstva je zodpovedná za analýzu a spracovanie údajov. Existuje mnoho rámcov podporovaných EMR, ktoré zohrávajú dôležitú úlohu pri paralelnom a účinnom spracovaní údajov. Niektorý rámec, ktorý podporuje, a my vieme, že je APACHE HADOOP, SPARK, SPARK STREAMING atď.
  • Štvrtá vrstva je spojená s aplikáciou a programami ako HIVE, PIG, streamingová knižnica, ML algoritmy, ktoré sú užitočné pri spracovaní a správe veľkých množín údajov.

Výhody AWS EMR

Pozrime sa teraz na niektoré z výhod používania EMR:

  1. Vysoká rýchlosť: Keďže všetky zdroje sú využívané správne, čas spracovania dotazu je pomerne rýchlejší ako ostatné nástroje na spracovanie údajov, ktoré majú oveľa jasnejší obraz.
  2. Hromadné spracovanie údajov: Zväčšite veľkosť údajov, aby EMR bola schopná spracovať obrovské množstvo údajov v dostatočnom čase.
  3. Minimálna strata dát: Pretože dáta sú distribuované v klastri a spracovávané paralelne v sieti, existuje minimálna šanca na stratu dát a dobre, miera presnosti spracovaných údajov je lepšia.
  4. Nákladovo efektívne: nákladovo efektívne je lacnejšie ako ktorákoľvek iná alternatíva, ktorá ho robí silnejším v porovnaní s priemyselným využitím. Keďže ceny sú nižšie, môžeme sa ubytovať s veľkým množstvom údajov a môžeme ich spracovať v rámci rozpočtu.
  5. Integrovaný AWS: Je integrovaný so všetkými službami AWS, ktoré umožňujú ľahkú dostupnosť pod strechou, takže bezpečnosť, ukladanie a sieťové pripojenie je všetko integrované na jednom mieste.
  6. Bezpečnosť: prichádza s úžasnou bezpečnostnou skupinou, ktorá riadi prichádzajúci a odchádzajúci prenos, vďaka použitiu rolí IAM je to bezpečnejšie, pretože prichádza s rôznymi povoleniami, ktoré zabezpečujú bezpečnosť údajov.
  7. Monitorovanie a nasadenie: Máme vhodné monitorovacie nástroje pre všetky aplikácie, ktoré bežia cez klastre EMR, vďaka ktorým je časť pre prehľadnosť a ľahkosť pre analýzu tiež dodávaná s funkciou automatického nasadenia, kde je aplikácia automaticky nakonfigurovaná a nasadená.

Existuje oveľa viac výhod, ktoré majú EMR ako lepšiu voľbu inej metódy výpočtu klastrov.

Ceny AWS EMR

EMR prichádza s úžasným zoznamom cien, ktorý priťahuje vývojárov alebo trh k nemu. Keďže prichádza s funkciou stanovovania cien na požiadanie, môžeme ju použiť len cez hodinovú základňu a počet uzlov v našom klastri. Za každú sekundu, ktorú používame, môžeme zaplatiť sadzbu za sekundu, minimálne jednu minútu. Môžeme si tiež zvoliť naše inštancie, ktoré sa majú použiť ako vyhradené inštancie alebo spotové inštancie, pričom na mieste sa výrazne šetria náklady.

Celkový účet môžeme vypočítať pomocou jednoduchej mesačnej kalkulačky z nasledujúceho odkazu: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Pre viac informácií o presných podrobnostiach o cenách si môžete pozrieť dokument uvedený nižšie spoločnosťou Amazon: -

https://aws.amazon.com/emr/pricing/

záver

Z vyššie uvedeného článku sme videli, ako možno EMR použiť na korektné spracovanie veľkých údajov, pričom všetky zdroje sa využívajú konvenčným spôsobom.

Mať EMR rieši náš základný problém so spracovaním údajov a značne skracuje čas spracovania o dobré číslo, pretože je nákladovo efektívny, jeho použitie je jednoduché a pohodlné.

Odporúčaný článok

Toto bol sprievodca AWS EMR. Tu diskutujeme o úvode do AWS EMR počas jeho práce a architektúry, ako aj o výhodách. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Alternatívy AWS
  2. Príkazy AWS
  3. Služby AWS
  4. Interview Otázky AWS
  5. AWS Storage Services
  6. Top 7 konkurentov AWS
  7. Zoznam funkcií webových služieb Amazon

Kategórie: