Úvod do Talend Open Studio

Talend ponúka Open Studio, ktoré je otvoreným zdrojom pre integráciu dát. Má viac ako 800+ komponentov na rôzne integračné účely. Stiahnite si Talend Open Studio z https://www.talend.com/download/

Integrácia údajov znamená kombináciu údajov z rôznych zdrojov a ich kombinovanie do jedného pohľadu, aby sa získali nejaké zmysluplné údaje z tých, ktoré spoločnosti alebo organizácii môžu pomôcť zlepšiť ich podnikanie analýzou týchto údajov. Integrácia pomáha pri získavaní údajov, ich čistení a následnej potrebnej transformácii atď. A následnom načítaní do dátového skladu.

Čo je Talend?

Talend je nástroj ETL, ktorý sa používa na integráciu údajov. Talend poskytuje riešenie na prípravu údajov, kvalitu údajov, integráciu údajov a veľké dáta. Tu budeme diskutovať o niektorých komponentoch. Aby bolo ľahšie vidieť nižšie uvedený príklad Sim operátor má obrovské dáta o plánoch, zákazníkoch, sim detailoch atď. Tieto dáta sú obrovské, takže veľké dáta sa tiež používajú pri integrácii.

Zákazník Nákup simulátora pomocou vládneho id

Dáva jeho meno AB AB

adresa ako Chennai, Chennai

telefónne číslo ako 1234567890

Po integrácii údajov

Meno: AB

Priezvisko: C

Adresa: Chennai, India

Telefónne číslo: +911234567890

Tu sú dáta vyčistené a transformované na niečo zmysluplnejšie.

výhody

  • Analýza obchodných trendov pomocou integrácie údajov
  • Kombinácia údajov do jedného systému
  • Časovo úsporné a efektívnejšie a menej prepracované
  • Ľahké generovanie správ - používajú ich nástroje BI
  • Údržba a vkladanie údajov do dátového skladu a dátových máp

prihláška

Nižšie sú uvedené nasledujúce aplikácie

1. Práca s Talendom

  • Uistite sa, že máte nainštalované java a či sú nastavené premenné prostredia.
  • Stiahnite si open-source z webovej stránky Talend a nainštalujte softvér.
  • Vytvorte nový projekt a dokončite nastavenie
  • Talend sa otvorí na karte dizajnéra.
  • Talend je nástroj založený na zatmení a komponenty je možné presunúť z palety alebo môžete kliknúť a zadať názov komponentov.

2. Prvá úloha Čítanie súboru

  • Vyhľadajte komponent tFileinputdelimited. Táto súčasť sa používa na čítanie všetkých oddelených súborov.
  • Vložte komponent s obmedzeným prístupom. Vyhľadajte tlogrow a umiestnite ho do návrhára pracovných miest.
  • Pravým tlačidlom myši kliknite na tfileinputdelimited a vyberte riadok-> main a nakreslite čiaru na tlogrow.
  • V komponente karta vyberie cestu k súboru, ktorý chcete prečítať, a oddeľovač riadkov zadá ako \ n. Ak má súbor oddeľovač, môžete ho uviesť.
  • Kliknite na schému a zadajte podrobnosti o type stĺpca alebo celý riadok môžete prečítať ako reťazec s jedným stĺpcom a hodnota oddeľovača by mala byť prázdna.
  • Môžete tiež preskočiť hlavičku a pätu.
  • V komponente tlogrow vyberte spôsob, ako chcete zobraziť údaje. Formát tabuľky alebo jednoriadkový formát.
  • tlogrow zobrazuje výstup v konzole na spustenie.
  • Po pripojení tfileinputdelimited a tlogrow spustite úlohu zo záložky run.
  • Na konzole môžete vidieť obsah súboru.

3. Druhá úloha pomocou programu Tmap

  • Čítajte súbor a filtrujte ho do rôznych výstupných súborov.
  • Čítajte súbor v komponente tfileinputdelimited s jedným stĺpcom ako záznam.
  • Komponent Tmap - táto zložka pomáha pri transformácii údajov pomocou vstavaných funkcií, ako je vyhľadávanie, pripojenie atď.
  • V tmap vytvorte dva výstupy out1 a out2.
  • Do filtra out1 pridajte row3.record.contains („talend“) a nakreslite záznam na out1.
  • Nakreslite riadok záznamu na iné výstupy2.

  • Z tmapu vezmite hlavné riadky a spojte sa s dvoma tfileoutputdelimited.
  • out1 odkaz na jeden tfileoutputdelimited1 ako file1.txt a out2 na iný tfileoutputdelimited2 ako file2.txt.
  • txt bude obsahovať záznamy, ktoré obsahujú talend.
  • txt bude mať záznamy, ktoré majú iné názvy.

4. Zabudované úložisko

  • Vstavaný znamená, že by ste mali zakaždým nastaviť schému alebo podrobnosti na pripojenie k databáze.
  • Úložisko sa hodí na ukladanie detailov v metadátach, takže môžete vždy znova použiť rovnaké údaje bez toho, aby ste ich museli vkladať manuálne. V metaúdajoch môžete uložiť schému súborov, pripojenie k databáze, pripojenie Hadoop, pripojenie k úlu, pripojenie s3 a mnoho ďalších.

Komponenty Talend Open Studio

Nižšie sú uvedené nasledujúce súčasti programu Talend Open Studio

1. tFileList

  • Táto súčasť obsahuje súbory v adresári alebo priečinku s daným vzorom masky súboru.

2. tMysqlConnection

  • Tento komponent sa používa na pripojenie k databáze mysql.
  • Komponenty Mysql môžu toto pripojenie použiť na jednoduché nastavenie pripojenia k databáze.

3. tMysqlinput

  • Táto súčasť pomáha spustiť dotaz databázy MySQL a získať tabuľku alebo stĺpce. Táto súčasť sa používa na výber dopytov a získanie podrobností.

4. tMysqlOutput

  • Tento komponent sa používa na vkladanie alebo aktualizáciu údajov v databáze MySQL.

5. tprejob

  • Tento komponent je prvým, ktorý sa v úlohe vykoná, a je možné ho spojiť s ďalšími komponentmi pomocou príkazu ok.

6. tpostjob

  • Tento komponent je posledným vykonaným v úlohe. Môžete to spojiť pomocou pripojení blízkych komponentov.

7. tlogcatcher

  • Tento komponent zachytáva varovania a chyby v úlohe.
  • Najdôležitejšia súčasť použitá v technike spracovania chýb.
  • Protokoly chýb sa dajú zapisovať pomocou tohto komponentu spolu s tfileoutputdelimited.
  • Existuje viac ako 800+ komponentov.

Kontextová premenná

  • Kontextové premenné sú premenné, ktoré sa dajú v úlohe použiť kdekoľvek.
  • Obsahuje hodnoty a môže sa preniesť na inú úlohu aj pomocou komponentu skrátiť.
  • Použitie kontextových premenných je, že môžeme zmeniť hodnotu na rôzne účely.
  • Napríklad môžeme mať množinu hodnôt pre vývojovú kontextovú skupinu a inú množinu kontextových hodnôt pre výrobu.
  • Týmto spôsobom nemusíme meniť úlohu, stačí len zmena kontextových parametrov.

Budovanie zamestnania

  • Ak chcete zostaviť úlohu, kliknite na ňu pravým tlačidlom myši a vyberte zostavenie úlohy.
  • Úlohu build môžete importovať v TAC.
  • V aplikácii Talend Administration Console naplánujete úlohu tak, aby sa spustila aj závislosť sady úloh.
  • Úlohu môžete tiež importovať z úložiska Nexus pomocou úlohy artefaktu.

Vytvorte úlohu v TAC

  • Otvorte vodiča pracovných pozícií v TAC
  • Kliknite na nové úlohy a vyberte bežné alebo artefaktové úlohy.
  • Importujte vytvorenú úlohu alebo vyberte zo spojenia.
  • Vyberte server úloh, na ktorom sa bude Talend spustiť.
  • Uložte úlohu.
  • Teraz môžete úlohu nasadiť a spustiť.

Záver - Talend Open Studio

„Zjednodušte ETL a ELT s popredným bezplatným nástrojom ETL s otvoreným zdrojom pre veľké dáta.“ Je slogan pre otvorené štúdio. Talend Bigdata má veľa komponentov na spracovanie obrovských dát. Štandardné úlohy, úlohy Bigdata a Bigdata na streamovanie sú rôzne typy pracovných miest dostupných v programe Talend. Bigdata úlohy môžu byť vytvorené v rámci iskry alebo mapreduce.

Odporúčané články

Toto je príručka k štúdiu Talend Open Studio. Tu diskutujeme o výhodách, aplikáciách a komponentoch programu Talend Open Studio. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Sprievodca integráciou dát Talend
  2. Dôležité otázky týkajúce sa rozhovoru s Talendom
  3. Talend vs Mulesoft: Rozdiely
  4. Talend vs Pentaho: 8 užitočných porovnaní, ktoré sa treba naučiť

Kategórie: