Úvod do integrácie údajov Talend

Integrácia dát Talend Data znamená kombináciu údajov z rôznych zdrojov a ich kombinovanie do jedného pohľadu, aby sa získali nejaké zmysluplné údaje z tých, ktoré môžu spoločnosti alebo organizácii pomôcť zlepšiť ich podnikanie analýzou týchto údajov. Integrácia pomáha pri získavaní údajov, ich čistení a následnej potrebnej transformácii atď. A následnom načítaní do dátového skladu.

Čo je integrácia dát Talend?

  • Talend je nástroj ETL, ktorý sa používa na integráciu údajov. Talend poskytuje riešenie na prípravu údajov, kvalitu údajov, integráciu údajov a veľké dáta.
  • Talend ponúka Open Studio, ktoré je otvoreným zdrojom pre integráciu dát a veľké dáta.
  • Otvorené štúdio Talend pomáha pri spracovaní obrovských údajov pomocou veľkých dátových komponentov. Má viac ako 800+ komponentov na rôzne integračné účely. Tu budeme diskutovať o niektorých komponentoch. Aby bol ľahší, pozrite si nasledujúci príklad
  • Prevádzkovateľ simu má obrovské údaje o plánoch, zákazníkoch, podrobnostiach simu atď. Tieto údaje sú obrovské, takže pri integrácii sa používajú aj veľké údaje.

Zákazník Nákup simulátora pomocou vládneho id.
Pomenovanie: AB C
Adresa ako: Chennai, Chennai
Telefónne číslo: 1234567890

Po integrácii údajov

Meno: AB
Priezvisko: C
Adresa: Chennai, India
Telefónne číslo: +911234567890

Tu sú dáta vyčistené a transformované na niečo zmysluplnejšie.

Výhody integrácie údajov

Tu budeme diskutovať o výhodách integrácie údajov.

  1. Analýza obchodných trendov pomocou integrácie údajov
  2. Kombinácia údajov do jedného systému
  3. Časovo úsporné a efektívnejšie a menej prepracované
  4. Ľahké generovanie správ - používajú ich nástroje BI
  5. Údržba a vkladanie údajov do dátového skladu a dátových máp

Aplikácia integrácie dát Talend

Tu budeme diskutovať o aplikácii integrácie údajov Talend.

1. Práca s Talendom

  • Uistite sa, že máte nainštalované java a či sú nastavené premenné prostredia.
  • Stiahnite si open-source z webovej stránky Talend a nainštalujte softvér.
  • Vytvorte nový projekt a dokončite nastavenie
  • Talend sa otvorí na karte dizajnéra.
  • Talend je nástroj založený na zatmení a komponenty je možné presunúť z palety alebo môžete kliknúť a zadať názov komponentov.

2. Prvé čítanie súboru

  • Vyhľadajte komponent tFileinputdelimited. Táto súčasť sa používa na čítanie všetkých oddelených súborov.
  • Vložte tFileinputdelimited komponent. Vyhľadajte tLogRow a umiestnite ho do návrhára pracovných miest.
  • Pravým tlačidlom myši kliknite na tVykonaťoddelené a vyberte riadok-> hlavný a nakreslite čiaru do tLogRow.
  • V komponente karta vyberie cestu k súboru, ktorý chcete prečítať, a oddeľovač riadkov zadá ako \ n. Ak má súbor oddeľovač, môžete ho uviesť.
  • Kliknite na schému a zadajte podrobnosti o type stĺpca alebo celý riadok môžete prečítať ako reťazec s jedným stĺpcom a hodnota oddeľovača by mala byť prázdna.
  • Môžete tiež preskočiť hlavičku a pätu.
  • V komponente tLogRow vyberte spôsob, ako chcete zobraziť údaje. Formát tabuľky alebo jednoriadkový formát.
  • tLogRow zobrazuje výstup na konzole spustenia.
  • Po pripojení tFileinputdelimited a tLogRow spustite úlohu zo záložky run.
  • Na konzole môžete vidieť obsah súboru.

3. Druhá úloha pomocou Tmapu

  • Čítajte súbor a filtrujte ho do rôznych výstupných súborov.
  • Ako záznam si prečítajte súbor v komponente tFileinputdelimited s jednou stĺpcovou schémou.
  • Komponent Tmap - táto zložka pomáha pri transformácii údajov pomocou vstavaných funkcií, ako je vyhľadávanie, pripojenie atď.
  • V tmap vytvorte dva výstupy out1 a out2.
  • Do filtra out1 pridajte record.contains („talend“) a nakreslite záznam na out1.
  • Nakreslite riadok záznamu na iné výstupy2.
  • Z tmapu vezmite hlavné riadky a spojte sa s dvoma tFileoutputdelimited.
  • out1 odkaz na jeden tfileoutputdelimited1 ako file1.txt a out2 na iný tfileoutputdelimited2 ako file2.txt.
  • txt bude obsahovať záznamy, ktoré obsahujú talend.
  • txt bude mať záznamy, ktoré majú iné názvy.

4. Vstavaný a úložisko

  • Vstavaný znamená, že by ste mali zakaždým nastaviť schému alebo podrobnosti na pripojenie k databáze.
  • Úložisko sa hodí na ukladanie detailov v metadátach, takže môžete vždy znova použiť rovnaké údaje bez toho, aby ste ich museli vkladať manuálne. V metaúdajoch môžete uložiť schému súborov, pripojenie k databáze, pripojenie Hadoop, pripojenie k úlu, pripojenie s3 a mnoho ďalších.

Komponenty integrácie dát Talend

Tu budeme diskutovať o zložkách integrácie údajov Talend.

1. tFileList: Táto súčasť obsahuje zoznam súborov v adresári alebo priečinku s daným vzorom masky súboru.

2. tMysqlConnection: Tento komponent sa používa na pripojenie k databáze MySQL. Komponenty Mysql môžu toto pripojenie použiť na jednoduché nastavenie pripojenia k databáze.

3. tMysqlInput: Táto súčasť pomáha spustiť dotaz databázy MySQL a získať tabuľku alebo stĺpce. Táto súčasť sa používa na výber dopytov a získanie podrobností.

4. tMysqlOutput: Tento komponent sa používa na vkladanie alebo aktualizáciu údajov v databáze Mysql.

5. tPrejob: Tento komponent je prvý, ktorý v úlohe vykoná a môže byť spojený s ostatnými komponentmi pomocou funkcie Subjob ok.

6. tPostjob: Táto zložka je poslednou vykonanou v úlohe. Môžete to spojiť pomocou pripojení blízkych komponentov.

7. Logger: Tento komponent zachytáva varovania a chyby v úlohe. Toto je najdôležitejšia súčasť použitá v technike spracovania chýb. Protokoly chýb sa dajú zapisovať pomocou tohto komponentu spolu s tfileoutputdelimited. Existuje viac ako 800+ komponentov.

8. Kontextová premenná: Kontextové premenné sú premenné, ktoré je možné v úlohe použiť kdekoľvek. Obsahuje hodnoty a môže sa preniesť na inú úlohu aj pomocou komponentov tRun. Použitie kontextových premenných spočíva v tom, že môžeme zmeniť hodnotu na rôzne účely. Napríklad môžeme mať množinu hodnôt pre vývojovú kontextovú skupinu a inú množinu kontextových hodnôt pre výrobu. Týmto spôsobom nemusíme meniť úlohu, stačí len zmena kontextových parametrov.

9. Vytvorenie úlohy: Ak chcete vytvoriť úlohu, kliknite pravým tlačidlom myši na úlohu a vyberte úlohu stavby. Úlohu build môžete importovať v TAC. V aplikácii Talend Administration Console naplánujete úlohu tak, aby sa spustila aj závislosť sady úloh. Úlohu môžete tiež importovať z úložiska Nexus pomocou úlohy artefaktu.

10. Vytvorenie úlohy v TAC: Otvorte dirigent úloh v TAC. Kliknite na nové úlohy a vyberte bežné alebo artefaktové úlohy. Importujte úlohu zostavenia alebo vyberte zo spojenia. Vyberte server úloh, na ktorom sa bude Talend spustiť. Uložte úlohu. Teraz môžete úlohu nasadiť a spustiť.

záver

  • „Zjednodušte ETL a ELT s popredným bezplatným nástrojom ETL s otvoreným zdrojom pre veľké dáta.“ Je slogan pre otvorené štúdio.
  • Talend Bigdata má veľa komponentov na spracovanie obrovských dát.
  • Štandardné úlohy, úlohy Bigdata a Bigdata na streamovanie sú rôzne typy pracovných miest dostupných v programe Talend.
  • Úlohy Bigdata môžu byť vytvorené v rámci iskry alebo MapReduce.

Odporúčaný článok

Toto je sprievodca integráciou dát Talend. Tu diskutujeme o úvode do Talend Data Integration ao výhodách spolu s aplikáciami a komponentmi. Viac informácií nájdete aj v ďalších navrhovaných článkoch

  1. Nástroj na integráciu údajov Najlepšie 12 nástrojov
  2. Otázky a odpovede na pohovory s Talendom
  3. Najlepšie nástroje na vizualizáciu údajov so svojimi typmi
  4. Talend vs Mulesoft - rozdiely
  5. Čo je Data Mart?

Kategórie: