Čo je Úľ?

Apache Hive je systém údajového skladu navrhnutý na vrchole open source platformy Hadoop a používa sa na sumarizáciu údajov, dopytovanie veľkých dát, analýzu údajov atď.

Úľ bol vyvinutý spoločnosťou Facebook a neskôr ho prevzala spoločnosť Apache Software Foundation, ktorá ho ďalej rozvíjala ako otvorený zdroj pod názvom Apache Hive.

definícia:

Nejde o relačnú databázu, a preto nie je vhodná na spracovanie transakcií online a dotazy v reálnom čase s aktualizáciami na úrovni riadkov. Úľ je určený na online analytické spracovanie alebo OLAP. Poskytuje tiež dopytovací jazyk s názvom HiveQL. Je škálovateľná, rýchla a rozšíriteľná. Konvertuje dotazy, ktoré vyzerajú takmer ako SQL, na úlohy MapReduce pre ľahké vykonávanie a spracovanie veľkého množstva údajov. Úle Apache je jednou z komponentov Hadoop, ktoré bežne používajú analytici údajov, zatiaľ čo apache prasa sa používa aj na rovnakú úlohu, ale používajú ju viac výskumníci a programátori. Úľ Apache, ktorý je otvoreným systémom skladovania údajov, sa používa na zisťovanie a analýzu obrovských množín údajov uložených v úložisku Hadoop. Úľ sa najlepšie hodí pre dávkové úlohy a nie pre pracovné typy spracovania transakcií online. Nepodporuje ani dotazy v reálnom čase. Úľ používa jazyk SQL ako dopytovací jazyk a používa sa hlavne na vytváranie zostáv. Úľ je zvyčajne nasadený na strane servera a podporuje štruktúrované údaje. Úľ tiež podporuje integráciu s nástrojmi JDBC a BI.

Pochopenie Úľa:

Nižšie sú uvedené hlavné komponenty úľa:

Meta Store:

Úložisko, do ktorého sa ukladajú metadáta, sa nazýva meta úložisko úľov. Metaúdaje pozostávajú z rôznych údajov o tabuľkách, ako je ich umiestnenie, schéma, informácie o oddieloch, ktoré pomáhajú monitorovať rôzne distribuované údaje o pokroku v klastri. Sleduje tiež údaje a replikuje údaje, ktoré poskytujú zálohu v prípade mimoriadnych udalostí, ako je strata údajov. Informácie o metaúdajoch sú prítomné v relačných databázach a nie v systéme súborov Hadoop.

driver:

Po vykonaní príkazu jazyka dotazu Hive vodič dostane príkaz a riadi ho počas celého cyklu vykonávania. Spolu s vykonaním príkazu vodič tiež ukladá metadáta vygenerované z vykonania. Vytvára tiež relácie na sledovanie priebehu a životného cyklu rôznych popráv. Po dokončení redukčnej operácie pomocou úlohy MapReduce vodič zbiera všetky údaje a výsledky dotazu

kompilátor:

Používa sa na preklad jazyka dotazu Hive do vstupu MapReduce. Vyvoláva metódu, ktorá vykonáva kroky a úlohy, ktoré sú potrebné na čítanie výstupu HiveQL podľa potreby MapReduce.

Optimizer:

Hlavnou úlohou optimalizátora je zlepšenie účinnosti a škálovateľnosti vytvorenia úlohy pri transformácii údajov pred operáciou redukcie. Vykonáva tiež transformácie, ako je agregácia, konverzia potrubia pomocou jediného spojenia pre viac spojení.

exekútor:

Po kompilácii a optimalizácii je hlavnou úlohou vykonávateľa úlohy. Hlavnou úlohou exekútora je komunikovať s Hadoop job trackerom pre plánovanie úloh pripravených na spustenie.

UI, server Thrift a CLI:

Thrift server používajú ostatní klienti na interakciu s Hive engine. Používateľské rozhranie a rozhranie príkazového riadka pomáha zadávať dotazy, monitorovať procesy a pokyny, aby externí používatelia mohli s úľom spolupracovať.

Nižšie sú uvedené kroky, ktoré ukazujú interakciu úľa s rámcom Hadoop:

Vykonanie dotazu:

Dotaz sa vodičovi odošle z rozhraní úľa, ako je napríklad príkazový riadok alebo webové používateľské rozhranie. Ovládačom môže byť akýkoľvek ovládač databázy, ako je JDB alebo ODBC atď.

Získanie plánu:

Syntax pre požiadavku dotazu alebo plánu dotazov sa dá skontrolovať pomocou kompilátora dotazov, ktorý prechádza dotazom a vyvolá ho vodič.

Získanie metadát:

Meta úložisko môže byť uložené v akejkoľvek databáze a kompilátor požiada o prístup k metaúdajom.

Posielanie metadát:

Na žiadosť kompilátora meta ukladá metadáta.

Odoslanie plánu:

Kompilátor odošle plán vodičovi pri overovaní požiadaviek odoslaných kompilátorom. Tento krok dokončí analýzu a zostavenie dotazu.

Realizácia plánu:

Realizačný plán je zaslaný vodičovi do vykonávacieho motora.

Vykonávanie úlohy:

Vykonávanie úlohy je úloha MapReduce, ktorá beží v koncovom serveri. Potom nasleduje obvyklá konvencia rámca Hadoop - vykonávací stroj pošle úlohu sledovači úloh, ktorý sídli v uzle mien, a uzol mien potom pridelí úlohu sledovači úloh, ktorý je v údajovej poznámke. Tu sa vykonáva úloha MapReduce.

Metadáta ops:

Počas vykonávania úlohy môže vykonávací stroj vykonávať metaúdaje s metaúložmi.

Načítanie výsledku:

Dátové uzly po dokončení spracovania prejdú výsledkom k vykonávaciemu motoru.

Odoslanie výsledku

Vodič dostane výsledok z vykonávacieho motora.

Posielanie výsledkov:

Rozhrania Úľa nakoniec dostanú výsledok od vodiča.

Vykonaním vyššie uvedených krokov teda dôjde k úplnému vykonaniu dotazu v Úli.

Ako uľahčuje včelí úľ prácu?

Hive je rámec skladovania údajov postavený na rozhraní Hadoop, ktorý pomáha používateľovi vykonávať analýzu údajov, dotazovať sa na údaje a sumarizovať údaje na veľkých objemoch súborov údajov. HiveQL je jedinečná funkcia, ktorá vyzerá ako údaje SQL uložené v databáze a vykonáva rozsiahlu analýzu. Bol som schopný čítať dáta veľmi vysokou rýchlosťou a zapisovať ich do dátových skladov, ako aj riadiť veľké súbory údajov distribuované na viacerých miestach. Spolu s týmto úľom poskytuje aj štruktúru údajov uložených v databáze a používatelia sa môžu pripojiť k úlu pomocou nástroja príkazového riadka alebo ovládača JDBC.

Najlepšie spoločnosti:

Hlavné organizácie pracujúce s veľkými údajmi používajú úľ - napríklad Facebook, Amazon, Walmart a mnoho ďalších.

Čo môžete robiť s Hive?

Existuje veľa funkcií úľa, ako sú dotaz na dáta, zhrnutie údajov a analýza údajov. Podregister podporuje dopytovací jazyk s názvom HiveQL alebo Hive Query Language. Dotazy jazyka Hive dopytu sa preložia do úlohy MapReduce, ktorá sa spracúva v klastri Hadoop. Okrem toho Hiveql tiež redukuje skript, ktorý možno pridať do dotazov. Týmto spôsobom HiveQL zvyšuje flexibilitu návrhu schémy, ktorá tiež podporuje deserializáciu a sérizáciu údajov.

Práca s Úľom:

Nižšie sú uvedené niektoré prevádzkové podrobnosti v Úli. Údajové typy úľov sú všeobecne rozdelené do štyroch typov, ako je uvedené nižšie:

Typy stĺpcov
literály
Nulové hodnoty
Komplexné typy

1. Typy stĺpcov:

Toto sú stĺpcové dátové typy úľa. Sú klasifikované takto:

Integrálne typy: Celočíselné údaje sú reprezentované pomocou integrovaného dátového typu. Symbol je INT. Každým údajom, ktoré presahujú hornú hranicu INT, sa musí prideliť typ údajov BIGINT. Rovnakým spôsobom je potrebné priradiť všetky údaje pod dolnou hranicou INT SMALLINT. Existuje ďalší dátový typ s názvom TINYINT, ktorý je dokonca menší ako SMALLINT.
Typy reťazcov: Typ údajov reťazcov je v úli reprezentovaný jednoduchou úvodzovkou (') alebo dvojitou úvodzovkou (“). Môže byť dvoch typov - VARCHAR alebo CHAR.
Timestamp: Časové pečiatka Hive podporuje formát java.sql.Timestamp „rrrr-mm-dd hh: mm: ss.ffffffffff“ a formát „YYYY-MM-DD HH: MM: SS.fffffffff“.
Dátum: Dátum je v úli zastúpený vo formáte RRRR-MM-DD, ktorý predstavuje deň v mesiaci.
Desatinné miesta : Desatinné miesta v úli sú zastúpené vo veľkom desiatkovom formáte java a používajú sa na vyjadrenie nemennej ľubovoľnej presnosti. Znázorňuje sa vo formáte desiatkovej (presnosť, mierka).
Typy únie: Únia sa používa v úli na vytvorenie kolekcie heterogénneho dátového typu. Môže sa vytvoriť pomocou vytvorenia únie.

Nasleduje príklad:

UNIONTYPE (0:1) (1:2.0) (2:("three", "four")) (3:("a":5, "b":"five")) (2:("six", "seven")) (3:("a":8, "b":"eight")) (0:9) (1:10.0) UNIONTYPE (0:1) (1:2.0) (2:("three", "four")) (3:("a":5, "b":"five")) (2:("six", "seven")) (3:("a":8, "b":"eight")) (0:9) (1:10.0)

2. Literály:

V úli sa používa málo literálov. Sú to nižšie:

Druh s pohyblivou rádovou čiarkou : Sú vyjadrené ako čísla s desatinnou čiarkou. Sú veľmi podobné dvojitému typu údajov.
Desatinný typ : Tento typ údajov obsahuje iba údaje desatinného typu, ale s vyšším rozsahom hodnoty s pohyblivou rádovou čiarkou ako dvojitý typ údajov. Rozsah desatinného typu je približne -10 - ³⁰⁸ až 10 ^308.

3. Nulová hodnota:

Špeciálna hodnota NULL predstavuje chýbajúce hodnoty v úli.

4. Komplexné typy:

Nižšie sú uvedené rôzne zložité typy nájdené v úli:

Polia : Polia sú zastúpené v úli v rovnakej podobe ako java. Syntax je ako ARRAY.
Mapy : Mapy sú zobrazené v úli v rovnakej podobe ako java. Syntax je ako MAP
,
Štruktúry : Štruktúry v úle sú zobrazené ako komplexné údaje s komentármi. Syntax je ako STRUCT.

Okrem toho môžeme vytvárať databázy, tabuľky, deliť ich a veľa ďalších funkcií.

Databázy: Sú to priestory mien obsahujúce kolekciu tabuliek. Nižšie je uvedená syntax na vytvorenie databázy v úli.

CREATE DATABASE (IF NOT EXISTS) sampled;

Databázy môžu byť tiež zrušené, ak už nie sú potrebné. Nižšie je uvedená syntax na vyradenie databázy.

DROP DATABASE (IF EXISTS) sampled;

Tabuľky: Môžu sa tiež vytvoriť v úli na ukladanie údajov. Nižšie je uvedená syntax pre vytvorenie tabuľky.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam ((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment (ROW FORMAT row_format) (STORED AS file_format)

Tabuľku je tiež možné zrušiť, ak už nie je potrebná. Nižšie je uvedená syntax na zrušenie tabuľky.

DROP TABLE (IF EXISTS) table_name;

výhody

Hlavnou výhodou Apache Hive je dotazovanie, sumarizácia a analýza údajov. Úľ je navrhnutý pre lepšiu produktivitu vývojára a tiež prichádza s nákladmi na zvýšenie latencie a zníženie účinnosti. Apache Hive poskytuje širokú škálu užívateľsky definovaných funkcií, ktoré môžu byť prepojené s inými balíkmi Hadoop ako RHipe, Apache Mahout, atď. Pomáha vývojárom do veľkej miery pri práci s komplexným analytickým spracovaním a viacerými formátmi údajov. Používa sa hlavne na skladovanie údajov, čo znamená systém používaný na podávanie správ a analýzu údajov.

Zahŕňa čistenie, transformáciu a modelovanie údajov s cieľom poskytnúť užitočné informácie o rôznych obchodných aspektoch, ktoré pomôžu pri vytváraní výhod pre organizáciu. Analýza údajov veľa rôznych aspektov a prístupov, ktoré zahŕňajú rôzne techniky s rôznymi názvami v rôznych obchodných modeloch, doménach spoločenských vied atď. Úľ je užívateľsky prívetivý a umožňuje používateľom súčasne prístup k údajom, čím sa zvyšuje doba odozvy. V porovnaní s inými typmi otázok o obrovských množinách údajov je doba odozvy úľa oveľa rýchlejšia ako ostatné. Je to tiež oveľa flexibilnejšie, čo sa týka výkonu, keď pridávate viac údajov a zvyšujete počet uzlov v klastri.

Prečo by sme mali používať Úľ?

Spolu s analýzou údajov poskytuje úľ aj širokú škálu možností uloženia údajov do systému HDFS. Podregister podporuje rôzne systémy súborov, napríklad plochý alebo textový súbor, sekvenčný súbor pozostávajúci z binárnych párov kľúč - hodnota, RC súbory, ktoré ukladajú stĺpec tabuľky do stĺpcovej databázy. V súčasnosti je súbor, ktorý je pre Hive najvhodnejší, známy ako súbory ORC alebo Optimized Row Columnar.

Prečo potrebujeme Úľ?

V dnešnom svete je spoločnosť Hadoop spájaná s najrozšírenejšími technológiami, ktoré sa používajú na spracovanie veľkých dát. Veľmi bohatá zbierka nástrojov a technológií, ktoré sa používajú na analýzu údajov a ďalšie spracovanie veľkých údajov.

Kto je tým správnym publikom na výučbu technológií Úľa?

Úľ môžu zvládnuť najmä ľudia, ktorí majú skúsenosti ako vývojári, analytici Hadoop, správcovia systému, sklady údajov, profesionáli SQL a administratíva Hadoop.

Ako vám táto technológia pomôže v kariérnom raste?

Úľ je v súčasnosti jednou z horúcich zručností na trhu a je jedným z najlepších nástrojov na analýzu údajov vo svete veľkých údajov Hadoop. Veľké podniky, ktoré robia analýzu cez veľké súbory údajov, vždy hľadajú ľudí s právami na zručnosti, aby mohli spravovať a vyhľadávať obrovské objemy údajov. Úľ je jedným z najlepších nástrojov dostupných na trhu v oblasti veľkých dátových technológií v posledných dňoch, ktoré môžu pomôcť organizácii na celom svete pri analýze údajov.

záver:

Okrem vyššie uvedených funkcií má úľ oveľa pokročilejšie schopnosti. Vďaka schopnosti úľa spracovať veľké množstvo množín údajov s veľkou presnosťou sa z úľa stáva jedným z najlepších nástrojov používaných na analýzu vo veľkej dátovej platforme. Okrem toho má tiež veľký potenciál stať sa v nasledujúcich dňoch jedným z popredných nástrojov na analýzu veľkých dát v dôsledku pravidelného zlepšovania a ľahkého používania pre koncového používateľa.

Odporúčané články

Toto bol sprievodca What is Hive. Tu sme diskutovali o práci, zručnostiach, kariérnom raste, výhodách Hive a špičkových spoločností, ktoré implementujú túto technológiu. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

Príkazy úľa
Rozhovor Otázky na Hive
Čo je liek Azure?
Čo je technológia Big Data Technology?
Architektúra úľa definícia
Použitie funkcie OBJEDNÁVKA POD Úľ

Čo je Úľ? - Ako to funguje Výhody Zručnosti a kariérny rast

Obsah: