Úvod do integrácie údajov Talend
Integrácia dát Talend Data znamená kombináciu údajov z rôznych zdrojov a ich kombinovanie do jedného pohľadu, aby sa získali nejaké zmysluplné údaje z tých, ktoré môžu spoločnosti alebo organizácii pomôcť zlepšiť ich podnikanie analýzou týchto údajov. Integrácia pomáha pri získavaní údajov, ich čistení a následnej potrebnej transformácii atď. A následnom načítaní do dátového skladu.
Čo je integrácia dát Talend?
- Talend je nástroj ETL, ktorý sa používa na integráciu údajov. Talend poskytuje riešenie na prípravu údajov, kvalitu údajov, integráciu údajov a veľké dáta.
- Talend ponúka Open Studio, ktoré je otvoreným zdrojom pre integráciu dát a veľké dáta.
- Otvorené štúdio Talend pomáha pri spracovaní obrovských údajov pomocou veľkých dátových komponentov. Má viac ako 800+ komponentov na rôzne integračné účely. Tu budeme diskutovať o niektorých komponentoch. Aby bol ľahší, pozrite si nasledujúci príklad
- Prevádzkovateľ simu má obrovské údaje o plánoch, zákazníkoch, podrobnostiach simu atď. Tieto údaje sú obrovské, takže pri integrácii sa používajú aj veľké údaje.
Zákazník Nákup simulátora pomocou vládneho id.
Pomenovanie: AB C
Adresa ako: Chennai, Chennai
Telefónne číslo: 1234567890
Po integrácii údajov
Meno: AB
Priezvisko: C
Adresa: Chennai, India
Telefónne číslo: +911234567890
Tu sú dáta vyčistené a transformované na niečo zmysluplnejšie.
Výhody integrácie údajov
Tu budeme diskutovať o výhodách integrácie údajov.
- Analýza obchodných trendov pomocou integrácie údajov
- Kombinácia údajov do jedného systému
- Časovo úsporné a efektívnejšie a menej prepracované
- Ľahké generovanie správ - používajú ich nástroje BI
- Údržba a vkladanie údajov do dátového skladu a dátových máp
Aplikácia integrácie dát Talend
Tu budeme diskutovať o aplikácii integrácie údajov Talend.
1. Práca s Talendom
- Uistite sa, že máte nainštalované java a či sú nastavené premenné prostredia.
- Stiahnite si open-source z webovej stránky Talend a nainštalujte softvér.
- Vytvorte nový projekt a dokončite nastavenie
- Talend sa otvorí na karte dizajnéra.
- Talend je nástroj založený na zatmení a komponenty je možné presunúť z palety alebo môžete kliknúť a zadať názov komponentov.
2. Prvé čítanie súboru
- Vyhľadajte komponent tFileinputdelimited. Táto súčasť sa používa na čítanie všetkých oddelených súborov.
- Vložte tFileinputdelimited komponent. Vyhľadajte tLogRow a umiestnite ho do návrhára pracovných miest.
- Pravým tlačidlom myši kliknite na tVykonaťoddelené a vyberte riadok-> hlavný a nakreslite čiaru do tLogRow.
- V komponente karta vyberie cestu k súboru, ktorý chcete prečítať, a oddeľovač riadkov zadá ako \ n. Ak má súbor oddeľovač, môžete ho uviesť.
- Kliknite na schému a zadajte podrobnosti o type stĺpca alebo celý riadok môžete prečítať ako reťazec s jedným stĺpcom a hodnota oddeľovača by mala byť prázdna.
- Môžete tiež preskočiť hlavičku a pätu.
- V komponente tLogRow vyberte spôsob, ako chcete zobraziť údaje. Formát tabuľky alebo jednoriadkový formát.
- tLogRow zobrazuje výstup na konzole spustenia.
- Po pripojení tFileinputdelimited a tLogRow spustite úlohu zo záložky run.
- Na konzole môžete vidieť obsah súboru.
3. Druhá úloha pomocou Tmapu
- Čítajte súbor a filtrujte ho do rôznych výstupných súborov.
- Ako záznam si prečítajte súbor v komponente tFileinputdelimited s jednou stĺpcovou schémou.
- Komponent Tmap - táto zložka pomáha pri transformácii údajov pomocou vstavaných funkcií, ako je vyhľadávanie, pripojenie atď.
- V tmap vytvorte dva výstupy out1 a out2.
- Do filtra out1 pridajte record.contains („talend“) a nakreslite záznam na out1.
- Nakreslite riadok záznamu na iné výstupy2.
- Z tmapu vezmite hlavné riadky a spojte sa s dvoma tFileoutputdelimited.
- out1 odkaz na jeden tfileoutputdelimited1 ako file1.txt a out2 na iný tfileoutputdelimited2 ako file2.txt.
- txt bude obsahovať záznamy, ktoré obsahujú talend.
- txt bude mať záznamy, ktoré majú iné názvy.
4. Vstavaný a úložisko
- Vstavaný znamená, že by ste mali zakaždým nastaviť schému alebo podrobnosti na pripojenie k databáze.
- Úložisko sa hodí na ukladanie detailov v metadátach, takže môžete vždy znova použiť rovnaké údaje bez toho, aby ste ich museli vkladať manuálne. V metaúdajoch môžete uložiť schému súborov, pripojenie k databáze, pripojenie Hadoop, pripojenie k úlu, pripojenie s3 a mnoho ďalších.
Komponenty integrácie dát Talend
Tu budeme diskutovať o zložkách integrácie údajov Talend.
1. tFileList: Táto súčasť obsahuje zoznam súborov v adresári alebo priečinku s daným vzorom masky súboru.
2. tMysqlConnection: Tento komponent sa používa na pripojenie k databáze MySQL. Komponenty Mysql môžu toto pripojenie použiť na jednoduché nastavenie pripojenia k databáze.
3. tMysqlInput: Táto súčasť pomáha spustiť dotaz databázy MySQL a získať tabuľku alebo stĺpce. Táto súčasť sa používa na výber dopytov a získanie podrobností.
4. tMysqlOutput: Tento komponent sa používa na vkladanie alebo aktualizáciu údajov v databáze Mysql.
5. tPrejob: Tento komponent je prvý, ktorý v úlohe vykoná a môže byť spojený s ostatnými komponentmi pomocou funkcie Subjob ok.
6. tPostjob: Táto zložka je poslednou vykonanou v úlohe. Môžete to spojiť pomocou pripojení blízkych komponentov.
7. Logger: Tento komponent zachytáva varovania a chyby v úlohe. Toto je najdôležitejšia súčasť použitá v technike spracovania chýb. Protokoly chýb sa dajú zapisovať pomocou tohto komponentu spolu s tfileoutputdelimited. Existuje viac ako 800+ komponentov.
8. Kontextová premenná: Kontextové premenné sú premenné, ktoré je možné v úlohe použiť kdekoľvek. Obsahuje hodnoty a môže sa preniesť na inú úlohu aj pomocou komponentov tRun. Použitie kontextových premenných spočíva v tom, že môžeme zmeniť hodnotu na rôzne účely. Napríklad môžeme mať množinu hodnôt pre vývojovú kontextovú skupinu a inú množinu kontextových hodnôt pre výrobu. Týmto spôsobom nemusíme meniť úlohu, stačí len zmena kontextových parametrov.
9. Vytvorenie úlohy: Ak chcete vytvoriť úlohu, kliknite pravým tlačidlom myši na úlohu a vyberte úlohu stavby. Úlohu build môžete importovať v TAC. V aplikácii Talend Administration Console naplánujete úlohu tak, aby sa spustila aj závislosť sady úloh. Úlohu môžete tiež importovať z úložiska Nexus pomocou úlohy artefaktu.
10. Vytvorenie úlohy v TAC: Otvorte dirigent úloh v TAC. Kliknite na nové úlohy a vyberte bežné alebo artefaktové úlohy. Importujte úlohu zostavenia alebo vyberte zo spojenia. Vyberte server úloh, na ktorom sa bude Talend spustiť. Uložte úlohu. Teraz môžete úlohu nasadiť a spustiť.
záver
- „Zjednodušte ETL a ELT s popredným bezplatným nástrojom ETL s otvoreným zdrojom pre veľké dáta.“ Je slogan pre otvorené štúdio.
- Talend Bigdata má veľa komponentov na spracovanie obrovských dát.
- Štandardné úlohy, úlohy Bigdata a Bigdata na streamovanie sú rôzne typy pracovných miest dostupných v programe Talend.
- Úlohy Bigdata môžu byť vytvorené v rámci iskry alebo MapReduce.
Odporúčaný článok
Toto je sprievodca integráciou dát Talend. Tu diskutujeme o úvode do Talend Data Integration ao výhodách spolu s aplikáciami a komponentmi. Viac informácií nájdete aj v ďalších navrhovaných článkoch
- Nástroj na integráciu údajov Najlepšie 12 nástrojov
- Otázky a odpovede na pohovory s Talendom
- Najlepšie nástroje na vizualizáciu údajov so svojimi typmi
- Talend vs Mulesoft - rozdiely
- Čo je Data Mart?