Úvod do otázok a odpovedí na rozhovor spoločnosti Sqoop

Sqoop je open-source nástroj na prenos dát, Sqoop nástroj na prenos dát medzi Hadoop ekosystémom a relačnými databázovými servermi (RDBMS). Importuje údaje do systému súborov Hadoop (HDFS), z relačných databáz ako Oracle, MySQL atď., A tiež exportuje údaje zo systému súborov Hadoop do RDMS.

Nižšie je uvedených 15 dôležitých otázok a odpovedí na rozhovor Sqoop z roku 2019:

Takže ste si konečne našli vysnívanú prácu v Sqoop, ale premýšľate, ako rozlúštiť rozhovor Sqoop a aké by mohli byť pravdepodobne 2019 otázky týkajúce sa rozhovoru Sqoop. Každý pohovor je iný a rozsah zamestnania je tiež odlišný. S ohľadom na túto skutočnosť sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovoru spoločnosti Sqoop, ktoré vám pomôžu dosiahnuť úspech v pohovore.

Tieto otázky sú rozdelené na dve časti:

1. časť - Otázky na pohovor (základné)

Táto prvá časť obsahuje základné otázky a odpovede týkajúce sa rozhovoru Sqoop.

1. Definujte Sqoop a prečo používame Sqoop?

odpoveď:
Sqoop je nástroj na prenos údajov s otvoreným zdrojovým kódom, ktorý je určený na prenos údajov medzi ekosystémom Hadoop a servermi relačných databáz (RDBMS). Sqoop sa používa na import údajov z relačných databáz ako Oracle, MySQL atď. Do súborového systému Hadoop (HDFS) a tiež na export údajov zo súborového systému Hadoop do relačných databáz.

2. Aké sú rôzne vlastnosti Sqoopu?

odpoveď:
Nižšie sú uvedené rôzne funkcie podporované Sqoop -

  1. Nakladacia kapacita
  2. Plné zaťaženie a prírastkové zaťaženie
  3. Techniky kompresie údajov
  4. Import výsledkov SQL dotazov
  5. Dátové konektory pre všetky hlavné databázy
  6. Priama podpora načítania údajov do systémov súborov Hadoop
  7. Konfigurácie zabezpečenia, ako je Kerberos
  8. Funkcie súbežného importu alebo exportu

Prejdime k ďalším otázkam rozhovoru Sqoop.

3. Pomenujte relačné databázy a zdroje ekosystému Hadoop podporované v Sqoop?

odpoveď:
Sqoop v súčasnosti podporuje MySQL, PostgreSQL, Oracle, MSSQL, Teradata a IBM Netezza ako súčasť Relation Databases.

V súčasnosti podporované cieľové služby ekologického systému Hadoop sú HDFC, Hive, HBase, H Catalogue a Accumulo.

Sqoop používa MySQL ako predvolenú databázu.

4. Ako Sqoop účinkuje?

odpoveď:
Toto sú bežné otázky týkajúce sa rozhovoru Sqoop, ktoré boli položené počas rozhovoru. Na prenos dát používa Sqoop príkazy na export a import. Program Map Reduce sa v Sqoop použije interne na ukladanie súboru údajov na HDFS. Príkazy budú spojené s mapovými úlohami na načítanie údajov z relačných databáz; Zníženie úlohy prevezme zodpovednosť za umiestnenie získaných údajov do cieľov (HDFS / HBase / Hive)

Sqoop tiež používa rôzne API konektory na pripojenie k viacerým databázam. Sqoop poskytuje tiež možnosť vytvárať vlastné konektory na splnenie špecifických požiadaviek.

Pozrime sa na ukážkové príkazy nižšie na import a export

Príkaz na pripojenie k databáze MySQL na import údajov z tabuľky 'Log'

sqoop import –connect jdbc: mysql: // localhost / –username –password –table –m 1
sqoop import –connect jdbc: mysql: // localhost / mytestdb –používateľské meno root –password admin123 –tabuľka tabuľky –m 1

Príkaz na export údajov z HDFS do relačnej databázy

sqoop export –connect jdbc: mysql: // localhost / sqoop_export - tabuľka export-dir / sqoop / emp_last / part-m-00000 –update-key id
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –table log_table –export-dir / sqoop / data / foler1 / part-m-00000

5. Čo je Sqoop Metastore? Vysvetli to?

odpoveď:
Sqoop Metastore je nástroj dostupný v Sqoop, ktorý sa použije na konfiguráciu aplikácie Sqoop na umožnenie hostenia zdieľaného archívu vo forme metadát. Tento Metastore sa môže použiť na vykonávanie úloh a správu viacerých používateľov na základe rolí a aktivít používateľov. Všetci viacerí používatelia môžu vykonávať viacero úloh alebo operácií súčasne, aby sa úlohy efektívne dosiahli. Metóda Sqoop bude štandardne implementovaná ako reprezentácia v pamäti. Keď sa úloha vytvorí v rámci Sqoop, definícia úlohy sa uloží do Metastore a podľa potreby sa uvedie pomocou Sqoop úloh.

6. Aké formáty súborov podporuje Sqoop pri importe údajov?

odpoveď:
Sqoop používa na import údajov dva formáty súborov. Sú to: - formát súboru testovaných súborov a formát súboru sekvencií.

Formát súboru s oddeleným textom : Formát s oddeleným textom je predvolený formát súboru na import. Stále môžeme výslovne špecifikovať pomocou argumentu –as- textil. Podobne odovzdanie argumentu nastaví oddeľovacie znaky medzi riadkami a stĺpcami.

Formát súboru sekvencie : Tento formát súboru môžeme povedať, že ide o binárny formát súboru. Tento typ záznamu vo formáte súboru je uložený v špecifických údajových typoch záznamu, ktoré sú vystavené ako triedy Java.

Prejdime k ďalším otázkam rozhovoru Sqoop.

7. Môžeme ovládať niekoľko mapovačov v sqoop? Ak áno, ako?

odpoveď:
Áno, počet mapovačov v Sqoop môžeme riadiť zadaním parametra „-num-mapovače“ v príkaze sqoop. Tento parameter môže riadiť počet mapových úloh, to nie je nič iné ako stupeň rovnobežnosti, ktorý bude používať sqoop. O počte bude rozhodnuté na základe požiadavky.

Syntax: Pomocou týchto príznakov môžete ovládať počet mapovačov: m, -num- mapperov

2. časť - Otázky na pohovor (rozšírené)

Pozrime sa teraz na pokročilé otázky týkajúce sa rozhovoru Sqoop.

8. Čo je to Sqoop-zlúčiť a vysvetliť jeho použitie?

odpoveď:
Zlúčenie Sqoop je nástroj, ktorý kombinuje dva rôzne množiny údajov, ktoré udržiavajú jedinú verziu tak, že prepíšu položky v staršej verzii množiny údajov novými súbormi, aby sa stali najnovšími množinami údajov. Dochádza k procesu vyrovnávania pri spájaní dvoch rôznych súborov údajov, ktoré uchovávajú údaje bez akýchkoľvek strát as účinnosťou a bezpečnosťou. Na vykonanie tejto operácie sa príkaz zlučovacieho kľúča použije ako „–zlúčený kľúč“

9. Aké sú rozdiely medzi Sqoop, Flume a Distcp?

odpoveď:
Distcp aj Sqoop sa používajú na prenos údajov. Sqoop sa používa na prenos akéhokoľvek typu údajov z jedného klastra Hadoop do iného klastra, zatiaľ čo Sqoop prenáša údaje medzi relačnými databázami a ekosystémom Hadoop, ako sú Hive, HDFS a HBase, atď. Obidve tieto metódy však používajú rovnaký prístup na kopírovanie údajov., čo je ťahanie / presun.

Flume distribuoval nástroj, ktorý sleduje architektúru založenú na agentoch, na streamovanie protokolov do ekosystému Hadoop. Zatiaľ čo Sqoop je architektúra založená na konektoroch.

Flume zhromažďuje a zhromažďuje obrovské množstvo údajov denníka. Aplikácia Flume môže zhromažďovať údaje z rôznych typov zdrojov; nezohľadňuje schému ani štruktúrované / neštruktúrované údaje. Flume môže vytiahnuť akýkoľvek typ údajov. Zatiaľ čo Sqoop môže importovať iba údaje relačných databáz, takže schéma je povinná pre spracovanie príkazu sqoop. Vo všeobecnosti je pre pohybujúce sa hromadné pracovné zaťaženie najlepšia voľba.

Prejdime k ďalším otázkam rozhovoru Sqoop.

10. Aké zdroje údajov podporuje Apache Sqoop?

odpoveď:
Rôzne zdroje údajov z rôznych aplikácií podporovaných Apache Sqoop sú uvedené nižšie:

  1. Úľ
  2. HBase
  3. Distribuovaný systém súborov Hadoop (HDFS)
  4. HCatalog
  5. Accumulo

11. Aké sú najčastejšie používané príkazy / funkcie v Sqoop?

odpoveď:

Toto sú pokročilé otázky týkajúce sa rozhovoru Sqoop, ktoré boli položené počas rozhovoru. Zoznam základných príkazov používaných v Sqoop je nasledovný:

Codegen -Codegen sa používa na generovanie kódu na komunikáciu s databázovými záznamami.

Eval -Sqoop Eval pomáha pri spúšťaní vzorových dotazov SQL proti databázam a poskytuje výsledky na konzole.

Pomoc - Pomôcť zoznam dostupných príkazov

Import -Import importuje tabuľku do ekosystému Hadoop

Export - Export sa používa na export údajov HDFS do relačných databáz.

Create-hive-table - Tento príkaz je užitočný pri importovaní definície tabuľky do Úľa

Importovať všetky tabuľky - Importovať všetky tabuľky importujú tabuľky do podoby relačných databáz na HDFS.

Zoznam databáz - vypíše všetky databázy, ktoré sa nachádzajú na serveri.

Zoznam tabuliek - Vypíše všetky tabuľky v databáze.

Verzie - Zobrazia sa informácie o verzii.

Funkcie - paralelný import / export, plné zaťaženie, prírastkové zaťaženie, plné zaťaženie, porovnanie, konektory pre databázy RDBMS, integrácia zabezpečenia Kerberos, načítanie údajov priamo do systému HDFS (Hive / HBase)

12. Vysvetlite osvedčené postupy pri importovaní tabuliek z MySQL alebo iných databáz pomocou Sqoop?

odpoveď:
Pri importe tabuliek z MySQL by sme sa mali uistiť o niekoľkých veciach, ako je autentifikácia a autorizácia na cieľový server a databázy. Musíme sa uistiť, že sme udelili potrebné privilégiá na databázy, ku ktorým sa má pristupovať, a tiež sa uistiť o rozlíšení názvu hostiteľa, keď sa pripájame k zdrojovým a cieľovým názvom hostiteľov. Ak nemáme potrebné povolenie, pri pripájaní k databáze dostaneme výnimku zlyhania pripojenia.

13. Ako aktualizujete už exportované údaje alebo riadky?

odpoveď:
Na aktualizáciu riadkov, ktoré už boli exportované do cieľa, môžeme použiť parameter „–update-key“. V tomto sa používa zoznam stĺpcov oddelených čiarkami, ktorý jednoznačne identifikuje riadok a všetky tieto stĺpce sa používajú v klauzuli WHERE vygenerovaného dotazu UPDATE. SET časť dotazu sa postará o všetky ostatné stĺpce tabuľky.

Prejdime k ďalším otázkam rozhovoru Sqoop.

14. Ako nakonfigurovať a nainštalovať ovládač JDBC v Apache Sqoop?

odpoveď:
Ovládače JDB v Apache Sqoop môžu byť nakonfigurované na základe poskytovateľa Hadoop, ako je Cloudera alebo Hortonworks, kde sa mierne líšia vo svojej konfigurácii na základe poskytovateľa Hadoop. JDBC v Cloudera je možné nakonfigurovať tak, že vytvoríte priečinok knižnice ako / var / lib /. To sa dá urobiť pre akúkoľvek knižnicu tretej strany, ktorá musí byť nakonfigurovaná podľa požiadavky. Týmto spôsobom je možné nakonfigurovať akýkoľvek typ databázy pomocou ovládača JDBC. Okrem ovládača JDBC vyžaduje Apache Sqoop konektor na vytvorenie spojenia medzi rôznymi relačnými databázami. Hlavné komponenty potrebné na vytvorenie spojenia s databázami sú prostredníctvom ovládača a konektora konkrétneho poskytovateľa databázy.

15. Čo je to klauzula o rozdelení a kedy ju používame?

odpoveď:
Parameter rozdelenia je na rozdelenie údajov, ktoré sa majú importovať, do viacerých paralelných úloh. Pomocou tohto parametra môžeme zadať názvy stĺpcov, jedná sa o názvy stĺpcov, podľa ktorých sqoop rozdelí údaje, ktoré sa majú importovať, do viacerých blokov a budú bežať paralelne. Je to jedna z techník ladenia výkonu v Sqoop.

Odporúčané články

Toto bol sprievodca zoznamom otázok a odpovedí na otázky týkajúce sa rozhovoru Sqoop, aby mohol uchádzač tieto tvrdé otázky na pohovor ľahko nájsť. Ďalšie informácie nájdete aj v nasledujúcich článkoch -

  1. Hadoop vs Teradata -Ktorý je prospešný
  2. 13 Úžasné otázky týkajúce sa testovania databázy
  3. Top 10 najužitočnejších otázok o rozhovoroch s HBase
  4. 10 najúžasnejších otázok na rozhovor s PHP pre skúsených
  5. Zoznámte sa s 5 najlepšími užitočnými otázkami rozhovoru DBA

Kategórie: