Čo je funkcia Úľa?
Ako vieme dnes, Hadoop je jednou z univerzálnych technológií v oblasti veľkých dát. Hadoop má schopnosť vyrovnať sa s veľkým súborom údajov, ale keďže rast údajov je úmerný, písanie programov na zníženie mapy je ťažké. Na vykonávanie dotazov SQL bola v spoločnosti HDFS predstavená jedna takáto technológia, ktorú zaviedla spoločnosť Hadoop s názvom apache Hive, ktorú založil Facebook. Úľ je vysoko využívaný analytikom údajov. Nasadzujú sa na tri funkcie, a to: Zhrnutie údajov, analýza údajov o distribuovanom súbore a dotaz na údaje. Úľ poskytuje SQL dotazy ako HQL - jazyk vysokých dopytov podporuje DML, užívateľom definované funkcie. Kompilátor úľov interne prevádza tento dotaz na úlohy s obmedzením mapy, čo zjednodušuje prácu Hadoopu pri písaní komplexných programov. Mohli sme nájsť úľ v aplikáciách, ako sú dátové sklady, vizualizácia údajov a ad-hoc analýza, google analytics. Kľúčovou výhodou je využitie znalostí jazyka SQL, čo je základná zručnosť implementovaná medzi vedcami údajov a softvérovými profesionálmi.
Rôzne funkcie úľa podrobne
Podregister podporuje rôzne typy údajov, ktoré sa nenachádzajú v iných databázových systémoch. obsahuje mapu, pole a štruktúru. Úľ má niektoré vstavané funkcie na vykonávanie niekoľkých matematických a aritmetických funkcií na špeciálne účely. Funkcie v úli možno rozdeliť do nasledujúcich typov. Sú to vstavané funkcie a funkcie definované používateľom.
A) Vstavané funkcie
Tieto funkcie extrahujú údaje z tabuliek úľov a spracovávajú výpočty. Niektoré z vstavaných funkcií sú:
1. Matematické / numerické funkcie
Tieto funkcie sa používajú hlavne na matematické výpočty. Tieto funkcie sa používajú v dotazoch SQL.
Názov funkcie | príklad | popis |
ABS (dvojité x) | Úľ> vyberte ABS (-200) z tmp; | Vráti absolútnu hodnotu čísla. |
CEIL (double x) | Úľ> vyberte CEIL (8.5) z tmp; | Získa najmenšie celé číslo väčšie alebo rovné hodnote x. |
Rand (), rand (int osivo) | Úľ> vyberte Rand () z tmp;
Rand (0-9) | Vracia náhodné číslo, v závislosti od počiatočnej hodnoty generované náhodné čísla by boli deterministické. |
Pow (dvojité x, dvojité y) | Úľ> z ponuky tmp vyberte Pow (5, 2); | Vracia hodnotu x zvýšenú na silu y. |
PODLAŽIE (double y) | Úľ> vyberte PODLAHU (11, 8) z tmp; | Vracia maximálne celé číslo menšie alebo rovné ako hodnota y. |
EXP (dvojité a) | Úľ> vyberte Exp (30) z tmp; | Vráti exponentnú hodnotu 30. prírodných hodnôt algoritmu. |
PMOD (int a, int b) | Úľ> vyberte PMOD (2, 4) z tmp; | Udáva kladný modul čísla. |
2. Funkcie zberu
Vypočítanie všetkých prvkov dohromady a vrátenie jednotlivých prvkov závisí od zahrnutého typu údajov.
Názov funkcie | príklad | popis |
Map_values (mapa) | Úľ> vyberte Mapové hodnoty ('hi', 45) | Získava neusporiadané prvky poľa. |
Veľkosť (mapa) | Úľ> vyberte veľkosť (mapa) | Vráti počet prvkov v mape typu údajov. |
Array_contains (Array b) | Úľ> select array_contains (a (10)) | Ak pole obsahuje hodnotu, vráti hodnotu TRUE. |
Sort_array (pole a) | Úľ> vyberte sort_array ((10, 3, 6, 1, 7)) | Zoraďuje vstupné pole vo vzostupnom poradí podľa prirodzeného usporiadania prvkov poľa a vracia hodnotu. |
3. Reťazcové funkcie
Pomocou reťazcových funkcií sa analýza údajov vykonáva excelentne.
Split (string s, string pat) | Úľ> vyberte rozdelený výstup ('educba ~ hive ~ Hadoop, ' ~ '): ("educba", "hive", "Hadoop") | Rozdeľuje reťazec okolo pat výrazov a vracia pole. |
zaťaženie (string s, int Len, string pad) | Úľ> vyberte zaťaženie („EDUCBA“, 6, „H“) | Vracia reťazce s pravou výplňou s dĺžkou reťazca. (znak vankúšika). |
Dĺžka (str str) | Úľ> vyberte dĺžku ('educba') | Táto funkcia vráti dĺžku reťazca. |
Rtrim (reťazec a) | Úľ> vyberte rtrim ('TOPIC');
Výstup: „Téma“ | Výsledok vráti orezaním medzier z pravých koncov. |
Concat (reťazec m, reťazec n) | Úľ> vyberte concat ('data', 'ware') Výsledok: Dataware | Výsledkom je reťazec zreťazením dvoch reťazcov, čo môže mať ľubovoľný počet vstupov. |
Reverzný (reťazec) | Úľ> vyberte reverz („Mobil“) | Vráti výsledok obráteného reťazca. |
4. Funkcia dátumu
Je potrebné mať formát údajov v podregistri, aby sa zabránilo chybám Null na výstupe. Je potrebné mať kompatibilitu dátumu, aby ste mohli ísť s funkciami dátumu zavedenými do úľa.
Unix_timestamp (dátum reťazca, vzorec reťazcov) | Úľ> vyberte časovú pečiatku Unix_ ('2019-06-08', 'rrrr-mm-dd'); Výsledok: 124576 Zaznamenaný čas: 0, 146 sekundy | Táto funkcia vráti dátum do špecifického formátu a vráti sekundy medzi dátumom a časom Unixu. |
Unix_timestamp (dátum reťazca) | Úľ> vyberte časovú pečiatku Unix_ ('2019-06-08 09:20:10', 'rrrr-mm-dd'); | Vráti dátum vo formáte „rrrr-MM-dd HH: mm: ss“ do časovej pečiatky Unixu. |
Hodina (Dátum reťazca) | Úľ> vyberte hodinu ('2019-06-08 09:20:10'); Výsledok: 09 hodín | Vráti hodinu časovej pečiatky |
5. Podmienené funkcie
Ak (logický test, hodnota T je true, t false) | Úľ> vyberte IF (1 = 1, „TRUE“, „FALSE“) ako IF_CONDITION_TEST; | Skontroluje s podmienkou, či je hodnota true vráti 1 a false vráti 0. |
Nie je null (b) | Úľ> Vybrať nie je null (null); | To vyvolá nie nulové vyhlásenia. ak null vráti false. |
Koalesce (hodnota1, hodnota2) | Príklad: úľ> vyberte spojenie (Null, Null, 4, Null, 6). vráti 4. | Získava najskôr nie nulové hodnoty zo zoznamu hodnôt. |
B) Funkcia definovaná používateľom (UDF)
Úľ využíva funkcie špecifické pre používateľa podľa požiadaviek klienta, ktoré sú napísané v programovaní java. Je implementovaný dvoma rozhraniami, a to jednoduchým API a komplexným API. Vyvolávajú sa z dotazu úľa. Tri typy UDF:
1. Pravidelné UDF
Funguje na stole s jedným riadkom. Vytvorí sa vytvorením triedy java a následným zabalením do súboru .jar. Ďalším krokom je overenie pomocou cesty triedy podregister. potom ich nakoniec vykonáme v dotaze úľa.
2. Agregovaná funkcia definovaná používateľom
Používajú agregované funkcie ako priemer / priemer zavedením piatich metód init (), iterate (), čiastkové (), merge (), terminate ().
3. Funkcie generovania tabuliek definované používateľom
Pracuje s jedným riadkom v tabuľke a vedie k viacerým riadkom.
záver
Na záver sme sa v tomto článku naučili, ako pracovať v úľovej platforme so zabudovanými funkciami a užívateľsky definovanými funkciami. Väčšina organizácií má programátora a vývojára jazyka SQL, ktorý pracuje na procese na strane servera, ale úl apache je výkonný nástroj, ktorý im pomáha používať rámec Hadoop bez predchádzajúcich znalostí o programoch a znižovaní máp. Úľ pomáha novým používateľom spúšťať a skúmať analýzu údajov bez akýchkoľvek prekážok.
Odporúčané články
Toto je sprievodca funkciou Úľ. Tu diskutujeme koncepciu, dva rôzne typy funkcií a podfunkcií v Úli. Viac informácií nájdete aj v ďalších navrhovaných článkoch -
- Najlepšie funkcie reťazca v úli
- Rozhovor Otázky na Hive
- Čo je RMAN Oracle?
- Čo je to model vodopádu?
- Úvod do architektúry úľa
- Usporiadať úľ podľa