Čo je prasa?
Ošípané sú motorom s otvoreným zdrojovým kódom, ktorý je súčasťou ekosystémových technológií Hadoop. Prasa skvele pracuje s údajmi, ktoré presahujú tradičné databázy alebo dátové sklady. To môže dobre zvládnuť chýbajúce, neúplné alebo nekonzistentné údaje, ktoré nemajú schému. Prasa má svoj vlastný jazyk na vyjadrenie manipulácie s údajmi, ktorým je prasačia latina.
Pochopenie ošípaných
Prasa je technológia, ktorá vám umožňuje písať vysoké, ale veľmi zrnité skripty, ktoré vám umožňujú pracovať s údajmi, ktorých schéma je neznáma alebo nekonzistentná. Prasa je technológia s otvoreným zdrojom, ktorá beží na vrchole Hadoopu a je súčasťou mimoriadne živého a populárneho ekosystému Hadoop.
Ošípané dobre fungujú s neštruktúrovanými a neúplnými údajmi, takže na všetko nemusíte mať tradičné rozloženie pravidiel a stĺpcov.
Je dobre definovaný a môže priamo pracovať na súboroch v systéme HDFS (Hadoop Distributed File System).
Prasa bude vašou technológiou voľby, ak chcete získať údaje zo zdroja do dátového skladu.
Napríklad vizuálny tok informácií o tom, ako zvyčajne údaje plynú, než ich môžete použiť na vygenerovanie pekných grafov, ktoré používate na obchodné rozhodnutia.
Pôvodné údaje pochádzajú z rôznych zdrojov, ako sú senzory, mobilné telefóny atď. Potom pomocou Pig vykonáte operáciu ETL. ETL je skratka pre extrakt, transformáciu a načítanie, keď sú tieto operácie vykonané, vyčistené dáta sú uložené v inej databáze. Príkladom takejto databázy by mohol byť HDFS, ktorý je súčasťou Hadoopu. Úľ je dátový sklad, ktorý bude bežať nad takýmto súborovým systémom. Úľ je to, čo by ste použili na analýzu, na generovanie správ a na získanie prehľadov.
ETL je veľmi dôležitým krokom v spracovaní údajov, aby sa surové údaje vyčistili a aby sa v správnej forme uložili do databázy. Extrakt sa týka operácie sťahovania neštruktúrovaných nekonzistentných údajov s chýbajúcim poľom a hodnotami z pôvodného zdroja. Transformácia predstavuje sériu operácií, ktoré by ste na údaje použili, aby ste ich vyčistili alebo získali.
Predbežný výpočet užitočných súhrnných informácií, spracovanie polí podľa určitého formátu, to všetko je súčasťou vyčistenia údajov transformačných polí.
Nakoniec Pig vykoná operáciu načítania, kde sú tieto čisté dáta uložené v databáze, kde je možné ich ďalej analyzovať. Príkladom štandardnej operácie, ktorú Pig vykonáva, je vyčistenie protokolových súborov.
Vysvetlite architektúru ošípaných
V architektúre je veľa častí ošípaných, radšej:
- Parser : Parser sa zaoberá aj prasačími skriptmi a tiež kontroluje syntax skriptu, zadáva kontrolu typu a rôzne najrôznejšie kontroly. Ich výsledkom môže byť aj DAG (Directed Acyclic Graph), ktorý zvyčajne znamená nároky na prasačiu latinku spolu s logickými operátormi.
Logické operátory so skriptom sa tiež zobrazia ako uzly, ako aj toky údajov od okrajov cez DAG.
- Optimalizátor: Neskôr sa logický plán (DAG) zvyčajne prekročí smerom k logickému optimalizátoru. Vykonáva ďalšie logické optimalizácie vrátane projekcie a podporuje nízku úroveň
- Kompilátor: Kompilátor tiež kompiluje vylepšený logický plán v skupine diel MapReduce.
- Execution Engine: Nakoniec budú všetky práce MapReduce zaúčtované spoločnosti Hadoop v rámci zoradenej sekvencie. Nakoniec sa tým dosiahnu požadované výsledky, aj keď tieto práce MapReduce sa budú vykonávať so spoločnosťou Hadoop.
- MapReduce: MapReduce bol pôvodne navrhnutý v spoločnosti Google ako spôsob spracovania webových stránok s cieľom umožniť vyhľadávanie Google. MapReduce distribuuje výpočty do viacerých počítačov v klastri. MapReduce využíva výhody prirodzeného paralelizmu pri spracovaní údajov. Moderné systémy, ako sú senzory alebo dokonca aktualizácie stavu Facebooku, generujú milióny záznamov prvotných údajov.
Aktivitu s touto úrovňou možno pripraviť v dvoch fázach:
- mapa
- redukovať
Vy rozhodujete, akú logiku chcete implementovať v týchto fázach na spracovanie vašich údajov.
- HDFS (Distribuovaný systém súborov Hadoop): Hadoop umožňuje explóziu ukladania a analýzy údajov v mierke v neobmedzenej kapacite. Vývojári používajú aplikáciu ako Pig, Hive, HBase a Spark na načítanie dát z HDFS.
Vlastnosti
Apache Pig prichádza s rôznymi funkciami:
- Jednoduchosť programovania: Pig Latin je porovnateľná s SQL, a preto je pre vývojárov celkom jednoduché vytvoriť Pig skript. V prípade, že rozumiete jazyku SQL, je neuveriteľne jednoduché naučiť sa latinský jazyk ošípaných, pretože je to rovnako ako jazyk SQL.
- Bohatá sada operátorov: Prasa obsahuje celý rad bohatých operátorov, aby boli schopní vykonávať procedúry rovnako ako pripojiť sa, archivovať, triediť a oveľa viac.
- Možnosti optimalizácie: Výkon úlohy v Apache Pig môže byť okamžite zvýšený samotnou úlohou; Preto sa vývojári musia sústrediť iba na sémantiku tohto jazyka.
- Rozšíriteľnosť: Využívaním prístupných operátorov môžu používatelia jednoducho rozvíjať svoje funkcie na čítanie, spracovanie a zápis údajov.
- User Define Functions (UDF's): Použitím služby, ktorú poskytuje prasa na výrobu UDF, by sme mohli vytvárať užívateľsky definované funkcie na počte vývojových jazykov vrátane Java, ako aj ich vyvolať alebo vložiť do Pig skriptov.
Na čo je prasa užitočné?
Využíva sa na skúmanie, ako aj na vykonávanie zodpovedností vrátane spracovania ad hoc. Ošípané Apache môžu byť použité na:
Analýza s obrovským zberom prvotných údajov uprednostňuje spracovanie údajov, aby sa získali vyhľadávacie webové stránky. Ako napríklad Yahoo, spoločnosť Google využíva Apache Pig na vyhodnotenie údajov zhromaždených prostredníctvom služieb Google a vyhľadávacích nástrojov Yahoo. Spracovanie veľkých zbierok údajov, ako sú webové záznamy, streamovanie online informácií atď. Dokonca aj aktualizácie stavu Facebooku generujú milióny záznamov prvotných údajov.
Ako vám táto technológia pomôže rozšíriť svoju kariéru?
Mnoho organizácií implementuje Apache Pig neuveriteľne rýchlo. To znamená, že profesie v oblasti ošípaných a ošípaných sa neustále zvyšujú. Vo vývoji Apache Hadoop sa za posledných pár rokov dosiahol obrovský pokrok. Prvky Hadoop rovnako ako Hive, Pig, HDFS, HBase, MapReduce atď.
Aj keď ponuky spoločnosti Hadoop v tejto dobe vstúpili do druhej dekády, v posledných troch až štyroch rokoch ich ocenenie uznávalo. Veľa softvérových spoločností používa klastre Hadoop neuveriteľne bežne. Toto môže byť určite najlepšia časť veľkých dát. Cieľoví experti by sa mohli stať skúsenými v tejto vynikajúcej technológii.
záver
Odbornosť Apache Pig je na trhu veľkou požiadavkou a môže sa aj naďalej rozširovať. Jednoduchým porozumením pojmov a získaním skúseností s najlepšími zručnosťami Apache Pig v zručnostiach Hadoop sa odborníci môžu dokonale zapojiť do svojej profesie Apache Pig.
Odporúčaný článok
Toto bol sprievodca Čo je prasa? Tu sme diskutovali o konceptoch, definícii a architektúre so znakmi prasa. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Ako nainštalovať Apache
- Rozhovory s Apache PIG
- Čo sú webové služby ASP.Net?
- Čo je technológia Blockchain?