Čo je funkcia Úľa?

Ako vieme dnes, Hadoop je jednou z univerzálnych technológií v oblasti veľkých dát. Hadoop má schopnosť vyrovnať sa s veľkým súborom údajov, ale keďže rast údajov je úmerný, písanie programov na zníženie mapy je ťažké. Na vykonávanie dotazov SQL bola v spoločnosti HDFS predstavená jedna takáto technológia, ktorú zaviedla spoločnosť Hadoop s názvom apache Hive, ktorú založil Facebook. Úľ je vysoko využívaný analytikom údajov. Nasadzujú sa na tri funkcie, a to: Zhrnutie údajov, analýza údajov o distribuovanom súbore a dotaz na údaje. Úľ poskytuje SQL dotazy ako HQL - jazyk vysokých dopytov podporuje DML, užívateľom definované funkcie. Kompilátor úľov interne prevádza tento dotaz na úlohy s obmedzením mapy, čo zjednodušuje prácu Hadoopu pri písaní komplexných programov. Mohli sme nájsť úľ v aplikáciách, ako sú dátové sklady, vizualizácia údajov a ad-hoc analýza, google analytics. Kľúčovou výhodou je využitie znalostí jazyka SQL, čo je základná zručnosť implementovaná medzi vedcami údajov a softvérovými profesionálmi.

Rôzne funkcie úľa podrobne

Podregister podporuje rôzne typy údajov, ktoré sa nenachádzajú v iných databázových systémoch. obsahuje mapu, pole a štruktúru. Úľ má niektoré vstavané funkcie na vykonávanie niekoľkých matematických a aritmetických funkcií na špeciálne účely. Funkcie v úli možno rozdeliť do nasledujúcich typov. Sú to vstavané funkcie a funkcie definované používateľom.

A) Vstavané funkcie

Tieto funkcie extrahujú údaje z tabuliek úľov a spracovávajú výpočty. Niektoré z vstavaných funkcií sú:

1. Matematické / numerické funkcie

Tieto funkcie sa používajú hlavne na matematické výpočty. Tieto funkcie sa používajú v dotazoch SQL.

Názov funkciepríkladpopis
ABS (dvojité x)Úľ> vyberte ABS (-200) z tmp;Vráti absolútnu hodnotu čísla.
CEIL (double x)Úľ> vyberte CEIL (8.5) z tmp;Získa najmenšie celé číslo väčšie alebo rovné hodnote x.
Rand (), rand (int osivo)Úľ> vyberte Rand () z tmp;

Rand (0-9)

Vracia náhodné číslo, v závislosti od počiatočnej hodnoty generované náhodné čísla by boli deterministické.
Pow (dvojité x, dvojité y)Úľ> z ponuky tmp vyberte Pow (5, 2);Vracia hodnotu x zvýšenú na silu y.
PODLAŽIE (double y)Úľ> vyberte PODLAHU (11, 8) z tmp;Vracia maximálne celé číslo menšie alebo rovné ako hodnota y.
EXP (dvojité a)Úľ> vyberte Exp (30) z tmp;Vráti exponentnú hodnotu 30. prírodných hodnôt algoritmu.
PMOD (int a, int b)Úľ> vyberte PMOD (2, 4) z tmp;Udáva kladný modul čísla.

2. Funkcie zberu

Vypočítanie všetkých prvkov dohromady a vrátenie jednotlivých prvkov závisí od zahrnutého typu údajov.

Názov funkciepríkladpopis
Map_values (mapa)Úľ> vyberte Mapové hodnoty ('hi', 45)Získava neusporiadané prvky poľa.
Veľkosť (mapa)Úľ> vyberte veľkosť (mapa)Vráti počet prvkov v mape typu údajov.
Array_contains (Array b)Úľ> select array_contains (a (10))Ak pole obsahuje hodnotu, vráti hodnotu TRUE.
Sort_array (pole a)Úľ> vyberte sort_array ((10, 3, 6, 1, 7))Zoraďuje vstupné pole vo vzostupnom poradí podľa prirodzeného usporiadania prvkov poľa a vracia hodnotu.

3. Reťazcové funkcie

Pomocou reťazcových funkcií sa analýza údajov vykonáva excelentne.

Split (string s, string pat)Úľ> vyberte rozdelený výstup ('educba ~ hive ~ Hadoop, ' ~ '): ("educba", "hive", "Hadoop")Rozdeľuje reťazec okolo pat výrazov a vracia pole.
zaťaženie (string s, int Len, string pad)Úľ> vyberte zaťaženie („EDUCBA“, 6, „H“)Vracia reťazce s pravou výplňou s dĺžkou reťazca. (znak vankúšika).
Dĺžka (str str)Úľ> vyberte dĺžku ('educba')Táto funkcia vráti dĺžku reťazca.
Rtrim (reťazec a)Úľ> vyberte rtrim ('TOPIC');

Výstup: „Téma“

Výsledok vráti orezaním medzier z pravých koncov.
Concat (reťazec m, reťazec n)Úľ> vyberte concat ('data', 'ware') Výsledok: DatawareVýsledkom je reťazec zreťazením dvoch reťazcov, čo môže mať ľubovoľný počet vstupov.
Reverzný (reťazec)Úľ> vyberte reverz („Mobil“)Vráti výsledok obráteného reťazca.

4. Funkcia dátumu
Je potrebné mať formát údajov v podregistri, aby sa zabránilo chybám Null na výstupe. Je potrebné mať kompatibilitu dátumu, aby ste mohli ísť s funkciami dátumu zavedenými do úľa.

Unix_timestamp (dátum reťazca, vzorec reťazcov)Úľ> vyberte časovú pečiatku Unix_ ('2019-06-08', 'rrrr-mm-dd');
Výsledok: 124576 Zaznamenaný čas: 0, 146 sekundy
Táto funkcia vráti dátum do špecifického formátu a vráti sekundy medzi dátumom a časom Unixu.
Unix_timestamp (dátum reťazca)Úľ> vyberte časovú pečiatku Unix_ ('2019-06-08 09:20:10', 'rrrr-mm-dd');Vráti dátum vo formáte „rrrr-MM-dd HH: mm: ss“ do časovej pečiatky Unixu.
Hodina (Dátum reťazca)Úľ> vyberte hodinu ('2019-06-08 09:20:10'); Výsledok: 09 hodínVráti hodinu časovej pečiatky

5. Podmienené funkcie

Ak (logický test, hodnota T je true, t false)Úľ> vyberte IF (1 = 1, „TRUE“, „FALSE“)
ako IF_CONDITION_TEST;
Skontroluje s podmienkou, či je hodnota true vráti 1 a false vráti 0.
Nie je null (b)Úľ> Vybrať nie je null (null);To vyvolá nie nulové vyhlásenia. ak null vráti false.
Koalesce (hodnota1, hodnota2)Príklad: úľ> vyberte spojenie (Null, Null, 4, Null, 6). vráti 4.Získava najskôr nie nulové hodnoty zo zoznamu hodnôt.

B) Funkcia definovaná používateľom (UDF)

Úľ využíva funkcie špecifické pre používateľa podľa požiadaviek klienta, ktoré sú napísané v programovaní java. Je implementovaný dvoma rozhraniami, a to jednoduchým API a komplexným API. Vyvolávajú sa z dotazu úľa. Tri typy UDF:

1. Pravidelné UDF

Funguje na stole s jedným riadkom. Vytvorí sa vytvorením triedy java a následným zabalením do súboru .jar. Ďalším krokom je overenie pomocou cesty triedy podregister. potom ich nakoniec vykonáme v dotaze úľa.

2. Agregovaná funkcia definovaná používateľom

Používajú agregované funkcie ako priemer / priemer zavedením piatich metód init (), iterate (), čiastkové (), merge (), terminate ().

3. Funkcie generovania tabuliek definované používateľom

Pracuje s jedným riadkom v tabuľke a vedie k viacerým riadkom.

záver

Na záver sme sa v tomto článku naučili, ako pracovať v úľovej platforme so zabudovanými funkciami a užívateľsky definovanými funkciami. Väčšina organizácií má programátora a vývojára jazyka SQL, ktorý pracuje na procese na strane servera, ale úl apache je výkonný nástroj, ktorý im pomáha používať rámec Hadoop bez predchádzajúcich znalostí o programoch a znižovaní máp. Úľ pomáha novým používateľom spúšťať a skúmať analýzu údajov bez akýchkoľvek prekážok.

Odporúčané články

Toto je sprievodca funkciou Úľ. Tu diskutujeme koncepciu, dva rôzne typy funkcií a podfunkcií v Úli. Viac informácií nájdete aj v ďalších navrhovaných článkoch -

  1. Najlepšie funkcie reťazca v úli
  2. Rozhovor Otázky na Hive
  3. Čo je RMAN Oracle?
  4. Čo je to model vodopádu?
  5. Úvod do architektúry úľa
  6. Usporiadať úľ podľa

Kategórie: