Úvod do rozhovoru s dátovým inžinierom Otázky a odpovede

Dátové inžinierstvo je termín, ktorý si ho každý uvedomuje a je veľmi populárny v oblasti veľkých dát. Dátové inžinierstvo sa týka dátovej infraštruktúry alebo dátovej architektúry. Nespracované údaje generované z rôznych zdrojov, ako sú sociálne médiá, mobilné telefóny, www (internet), je potrebné transformovať, vyčistiť, profilovať a agregovať pre obchodné potreby. Tieto nespracované údaje sa tiež nazývajú tmavé údaje. Prax navrhovania, architektúry a implementácie systému na spracovanie údajov pomáha pri prevode údajov na časť vhodných informácií alebo súboru údajov, napríklad tieto informácie alebo súbory údajov sa nazývajú Data Engineering.

Nižšie je uvedený zoznam najlepších otázok a odpovedí na otázky týkajúce sa rozhovoru s údajmi v roku 2019:

Ak hľadáte prácu, ktorá súvisí s Data Engineer, musíte sa pripraviť na otázky týkajúce sa rozhovoru s Data Engineer 2019. Aj keď sú všetky otázky týkajúce sa rozhovoru s dátovým inžinierom odlišné a rozsah práce je tiež odlišný, môžeme vám pomôcť s najlepšími otázkami s rozhovorom s dátovým inžinierom s odpoveďami, ktoré vám pomôžu urobiť krok a získať úspech v rozhovore s dátovým inžinierom.

1. Čo je to dátové inžinierstvo?

odpoveď:
Dátové inžinierstvo je termín, ktorý je v oblasti veľkých dát pomerne populárny a týka sa hlavne dátovej infraštruktúry alebo dátovej architektúry.
Údaje generované mnohými zdrojmi, ako sú sociálne médiá, mobilné telefóny, www (internet), sú nespracované údaje. Musí byť transformovaná, očistená, profilovaná a agregovaná pre obchodné potreby. Tieto surové údaje môžeme nazvať Dark Data, ktoré rozsvietime, aby boli tieto Dark Data užitočné. Prax navrhovania, architektúry a zavádzania systému spracovania údajov, ktoré pomôžu pri konverzii údajov na užitočné informácie, sa nazýva Data Engineering.

2. Vysvetlite každodennú prácu dátového inžiniera?

odpoveď:
Denná práca dátového inžiniera pozostáva z:
a. zaobchádzanie so správou údajov v rámci organizácie
b. manipulácia a údržba zdrojových systémov údajov a oddychových oblastí
c. vykonávanie ETL alebo ELT a transformácia dát
d. zjednodušenie čistenia údajov a zlepšenie odstraňovania duplikátov a budovania údajov
e. vytváranie a extrahovanie dopytov ad-hoc
Pozrite si vizualizáciu nižšie, kde nájdete informácie o veciach, na ktorých pracuje údajový inžinier: -

3. Máte skúsenosti s modelovaním údajov?

odpoveď:
Dá sa povedať, že pracoval na projekte pre klienta finančno-zdravotného poistenia, kde použil nástroje ETL ako Informatica / Talend / Pentaho atď. Na transformáciu a spracovanie údajov získaných z databázy MySQL / RDS / SQL a odošle tieto informácie dodávateľom, ktorí môžu pomôcť zvýšiť ich príjmy. Dá sa ukázať architektúra dátového modelu na vysokej úrovni. Pozostáva z primárneho kľúča, entity, atribútov, vzťahu, obmedzení atď.

4. Aké sú rôzne typy schém návrhu v modelovaní údajov? Vysvetlite príkladom?

odpoveď:
Pri modelovaní údajov existujú dva typy schém:
a. Schéma hviezd
Táto schéma je rozdelená na dve tabuľky faktov a druhá tabuľka dimenzií, kde sú všetky tabuľky rozmerov spojené s tabuľkou faktov. Cudzí kľúč v skutočnosti odkazuje na primárne kľúče prítomné v rozmerových tabuľkách. Pozrite si nasledujúcu architektúru hviezdovej schémy:

b. Schéma snehových vločiek
V tejto schéme sa zvýši úroveň normalizácie, tu zostane tabuľka faktov rovnaká ako v schéme hviezd, tu sú normalizované rozmerové tabuľky. Kvôli mnohým vrstvám rozmerových tabuliek to vyzerá ako snehová vločka, teda názov schéma snehová vločka. Pozri architektúru nižšie: -

5. Ktorý nástroj ETL používate a ako sa najlepšie porovnáva s ostatnými?

odpoveď:
Dá sa povedať, že použil Informatica ako nástroj ETL kvôli mnohým bodom, v prvom rade je to, že podľa Gartnerovho magického kvadrantu pre nástroje na integráciu údajov je Informatica umiestnená ako líder v desiatom roku po sebe. Ľahko sa používa a učí sa a má funkcie na pripojenie k rôznym zdrojom zdrojových údajov a typov údajov, opakovane použiteľným komponentom a funkciám, vďaka ktorým je pre vývojárov ETL najobľúbenejší. Má tiež svoj vlastný plánovač, čo je ďalšia výhoda, keď iné nástroje ETL musia na plánovanie úloh používať externý plánovač.

6. Ktoré technológie / programovací jazyk by ste mali mať / naučte sa byť dátovým inžinierom?

odpoveď:
Matematika (lineárna algebra a pravdepodobnosť)
Štatistika (súhrnná štatistika)
Techniky strojového učenia
Jazyky R a SAS
SQL databázy, Hive QL
Python (väčšinou používaný)
Okrem toho by malo byť potrebné mať k dispozícii riešenie problémov, analytické a architektonické znalosti databázy.

7. Aké sú bežné problémy, ktorým čelia datoví inžinieri?

odpoveď:
1. Integrácia v reálnom čase / nepretržitá integrácia
2. Ukladanie obrovského množstva údajov je jedným problémom, informácie z týchto údajov sú ďalším problémom.
3. Ktoré nástroje sa dajú použiť a ktoré poskytujú najlepší výkon, skladovanie, efektívnosť a výsledky.
4. Má škála úložiska? Predpokladajme, ako vedieť, že na spracovanie celej sady údajov bude trvať?
5. Zohľadnenie konfigurácie procesorov a pamäte RAM
6. Ako riešiť poruchy, existuje ich odolnosť voči chybám alebo nie?

8. Ako sa dátový architekt líši od dátového inžiniera?

odpoveď:
Data Architect je osoba, ktorá spravuje údaje, najmä ak sa jedná o rôzne počty rôznych zdrojov údajov. Jeden by mal mať dôkladné znalosti o tom, ako databáza funguje, ako sa údaje týkajú obchodných problémov a ako zmeny narušia využívanie údajov organizácie a potom ich bude architekt architektúry podľa nich manipulovať / transformovať.
Hlavnou zodpovednosťou Data architekta je práca na dátových skladoch, vývoji dátovej architektúry alebo podnikových dátových centrách / skladoch.
Zatiaľ čo dátový inžinier pomáha pri inštalácii riešení dátového skladu, modelovaní údajov, vývoji a testovaní architektúry databázy.

9. Opíšte čas, keď ste našli nový prípad použitia existujúcej databázy, ktorá mala pozitívny vplyv na podnikanie?

odpoveď:
Kým v ére veľkých dát bude mať SQL chýbajúce vlastnosti:
a. RDBMS sú schémy orientované na schému, takže je lepšie pre štruktúrované údaje, nie pre pološtrukturované alebo neštruktúrované údaje.
b. Nie je možné spracovať nepredvídateľné a neštruktúrované údaje.
c. Nie je to horizontálne škálovateľné, tj paralelné vykonávanie a ukladanie nie je možné v SQL.
d. Po zvýšení počtu používateľov trpí problémom s výkonom.
e. Používa sa hlavne na spracovanie transakcií online.

Na prekonanie týchto nevýhod môžeme použiť NoSQL DB, tj nielen SQL.
V projekte je možné použiť rôzne typy NoSQL DB ako Cassandra, Mongo DB, Graph DB, HBase atď.

10. Máte skúsenosti s prácou v prostredí cloud computingu? Aké výhody vidíte pri práci v jednom?

odpoveď:
Dá sa povedať, že prostredie Cloud Computing Environment je pripravené presunúť prostredie na výrobu, vývoj a testovanie bez toho, aby sme uvažovali o integrácii mnohých inštancií / Linux / window serverov dohromady. Na trhu existujú rôzne služby cloud computingu, ako sú AWS (webové služby Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Cloud computing služba poskytuje nižšie funkcie, ako je flexibilita, tj prostredie sa bude rozširovať podľa požiadaviek, Obnova po katastrofe pomocou zálohovania a snímok, Práca odkiaľkoľvek s VPN, Zabezpečené prostredie a šetrné k životnému prostrediu, pretože pracuje na komoditnom hardvéri, tj na univerzálnych počítačoch, ktoré sú nízke náklady.

záver

Vo vyššie uvedenom blogu sme ponechali najčastejšie otázky týkajúce sa rozhovorov o službe Data Engineer a o tom, ako je možné na ne odpovedať kladením hlavných bodov.

Odporúčaný článok:

Toto bol komplexný sprievodca k otázkam a odpovediam na otázky týkajúce sa rozhovoru s dátovým inžinierom, aby uchádzač mohol tieto otázky týkajúce sa rozhovoru s dátovým inžinierom ľahko prijať. tento článok obsahuje všetky najdôležitejšie otázky a odpovede týkajúce sa rozhovoru s dátovým inžinierom. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Najdôležitejšie Azure Paas vs Iaas
  2. Otázky týkajúce sa rozhovoru s veľkými dátami
  3. 5 najdôležitejších otázok týkajúcich sa rozhovorov s Elasticsearch
  4. PIG Rozhovor Otázky a odpovede
  5. Top 5 najcennejších otázok v oblasti vedeckých údajov

Kategórie: