Úvod do otázok a odpovedí na otázky týkajúce sa rozhovoru s údajmi
Takže ste si konečne našli vysnívanú prácu v Data Analytics, ale pýtate sa, ako rozlúštiť rozhovor s analýzou údajov z roku 2019 a aké by mohli byť pravdepodobné otázky týkajúce sa rozhovoru s dátovou analytikou. Každý rozhovor v rámci nástroja Analytics sa líši a rozsah zamestnania sa tiež líši. Z tohto hľadiska sme navrhli najbežnejšie otázky a odpovede týkajúce sa rozhovoru s údajmi Analytics, ktoré vám pomôžu dosiahnuť úspech v rozhovore s údajmi.
Nižšie sú uvedené najdôležitejšie otázky týkajúce sa rozhovoru s údajmi o analýze údajov z roku 2019, ktoré sa väčšinou kladú na pohovor
1. Aký je rozdiel medzi ťažbou údajov a analýzou údajov?
odpoveď:
|
2. Uveďte, aké sú rôzne kroky v analytickom projekte?
odpoveď:
Analytika údajov sa zaoberá zberom, čistením, transformáciou a modelovaním údajov s cieľom získať cenné informácie a podporiť lepšie rozhodovanie v organizácii. Kroky zapojené do procesu analýzy údajov sú tieto -
Prieskum údajov - Po preskúmaní obchodného problému musí analytik údajov analyzovať hlavnú príčinu problému.
Príprava dát - V tomto kroku procesu analýzy údajov nájdeme anomálie údajov, ako napríklad chýbajúce hodnoty v údajoch.
Modelovanie dát - Krok modelovania sa začína po príprave údajov. Modelovanie je iteračný proces, v ktorom sa model opakuje, aby sa zlepšili. Modelovanie údajov zaisťuje, že najlepším možným výsledkom je obchodný problém.
Validácia - V tomto kroku sa model poskytnutý klientom a model vyvinutý analytikom údajov overia voči sebe, aby sa zistilo, či vyvinutý model bude spĺňať obchodné požiadavky.
Implementácia modelu a sledovanie - V tomto poslednom kroku analýzy údajov sa vykonáva implementácia modelu a potom sa vykonáva sledovanie, aby sa zabezpečilo správne vykonávanie modelu alebo nie?
3. Aká je zodpovednosť analytika údajov?
odpoveď:
• Riešiť problémy súvisiace s podnikaním pre klientov a vykonávať operácie auditu údajov.
• Interpretácia údajov pomocou štatistických techník.
• Identifikujte oblasti pre príležitosti na zlepšenie.
• Analyzovať, identifikovať a interpretovať trendy alebo vzorce v komplexných súboroch údajov.
• Získavajte údaje z primárnych alebo sekundárnych zdrojov údajov.
• Údržba databáz / dátových systémov.
• Vyhľadajte a opravte problémy s kódom pomocou ukazovateľov výkonu.
• Zabezpečenie databázy vývojom prístupového systému.
4.Čo sú kolízie tabuliek hash? Ako sa tomu zabráni?
odpoveď:
Zrážka tabuľky hash nastane, keď dva rôzne klávesy hashujú na rovnakú hodnotu. Existuje veľa techník, ako zabrániť kolízii hashových tabuliek. Uvádzame dve:
Samostatné reťazenie: Na ukladanie viacerých položiek používa dátovú štruktúru, ktorá hashuje do toho istého slotu.
Otvorené adresovanie: Vyhľadá ďalšie sloty pomocou druhej funkcie a uloží položku do prvého prázdneho slotu.
5. Zoznam najlepších nástrojov, ktoré môžu byť užitočné pri analýze údajov?
odpoveď:
• Tablo
• RapidMiner
• OpenRefine
• nim
• Google Search Operators
• Riešiteľ
• NodeXL
• io
• Wolfram Alpha
• Google Fusion Tables
6. Aký je rozdiel medzi dolovaním údajov a profilovaním údajov?
odpoveď:
Rozdiel medzi dolovaním údajov a profilovaním údajov je nasledovný -
• Profilovanie údajov: Zameriava sa na okamžitú analýzu jednotlivých atribútov, ako sú cena, rôzna cena a ich frekvencia, výskyt nulových hodnôt, typ údajov, dĺžka atď.
• Dolovanie údajov: Zameriava sa na závislosti, zisťovanie sekvencií, udržiavanie vzťahov medzi niekoľkými atribútmi, zhlukovú analýzu, detekciu neobvyklých záznamov atď.
7. Vysvetlite K-priemerný algoritmus a hierarchický klastrovací algoritmus?
odpoveď:
K-priemerný algoritmus - priemerná hodnota K je známa metóda rozdelenia. V algoritme K-priemer sú klastre sférické, tj dátové body v klastri sú sústredené na tento klaster. Tiež rozptyl klastrov je podobný, tj každý dátový bod patrí k najbližšiemu klastru
Algoritmus hierarchického klastra - algoritmus hierarchického klastrovania kombinuje a rozdeľuje existujúce skupiny a vytvára pre nich hierarchickú štruktúru, aby zobrazoval poradie, v ktorom sú skupiny rozdelené.
8.Čo je čistenie údajov? Uvádzate niekoľko osvedčených postupov, ktoré musíte pri čistení údajov dodržiavať?
odpoveď:
Z daného súboru údajov je mimoriadne dôležité zoradiť informácie potrebné na analýzu údajov. Čistenie údajov je kľúčovým krokom, pri ktorom sa údaje kontrolujú, aby sa zistili akékoľvek anomálie, odstránili sa opakujúce sa a nesprávne informácie atď. Čistenie údajov nezahŕňa odstránenie akýchkoľvek existujúcich informácií z databázy, iba zvyšuje kvalitu údajov, takže sa môže použiť na analýzu.,
Niektoré z najlepších postupov na čistenie údajov zahŕňajú -
• Vypracovanie plánu kvality údajov s cieľom zistiť, kde sa vyskytujú chyby maximálnej kvality údajov, aby ste mohli posúdiť príčinu a naplánovať podľa toho.
• Pred vložením potrebných informácií dodržujte zvyčajnú metódu zdôvodnenia potrebných informácií.
• Identifikujte všetky duplicitné údaje a overte presnosť údajov, pretože to ušetrí veľa času počas analýzy.
• Sledovanie všetkých vylepšení vykonaných na informáciách je nesmierne nevyhnutné, aby ste podľa potreby zopakovali alebo odstránili všetky operácie.
9.Aké sú niektoré štatistické metódy, ktoré sú užitočné pre analytikov údajov?
odpoveď:
Štatistické metódy, ktoré sú užitočné pre vedcov údajov, sú
• Bayesovská metóda
• Markovov proces
• Priestorové a klastrové procesy
• Štatistika poradia, percentil, detekcia odľahlých hodnôt
• Imputačné techniky atď.
• Simplexný algoritmus
• Matematická optimalizácia
10. Vysvetlite, čo je imputácia? Uveďte rôzne typy techník imputácie? Ktorá metóda imputácie je priaznivejšia?
odpoveď:
Počas imputácie máme sklon nahradiť chýbajúce informácie nahradenými hodnotami. Medzi metódy imputácie patria:
• Jedna imputácia: Jedna imputácia označuje, že chýbajúca hodnota je nahradená hodnotou. V tejto metóde sa získa veľkosť vzorky.
• Imputácia hot-deck: chýbajúca hodnota sa pripíše z náhodne vybraného podobného záznamu pomocou dierovacej karty
• Imputácia studenej paluby: Funguje rovnako ako imputácia horúcej paluby, ale o niečo pokročilejšia a vyberá si darcov z iných súborov údajov.
• Priemerná imputácia: Ide o nahradenie chýbajúcej hodnoty predpovedanými hodnotami iných premenných.
• Regresná imputácia: Ide o nahradenie chýbajúcej hodnoty predpokladanými hodnotami určitej hodnoty v závislosti od iných premenných.
• Stochastická regresia: Je rovnaká ako regresná imputácia, ale k regresnej imputácii pridáva bežný regresný rozptyl.
• Viacnásobná imputácia: Na rozdiel od jednej imputácie viacnásobné imputácie odhadujú hodnoty viackrát
Hoci sa jednoduchá imputácia bežne používa, neodráža to neistotu spôsobenú náhodnými chýbajúcimi údajmi. Viacnásobné imputácie sú teda výhodnejšie ako jednoduchá imputácia v prípade náhodných chýbajúcich údajov.
Odporúčané články
Toto bol komplexný sprievodca k otázkam a odpovediam na otázky týkajúce sa rozhovoru s údajmi Analytics, aby uchádzač mohol ľahko vykonať tvrdé zásahy do týchto otázok. Ďalšie informácie nájdete aj v nasledujúcich článkoch -
- 10 užitočných otázok a odpovedí na agilný rozhovor
- 8 úžasných otázok týkajúcich sa rozhovorov s algoritmami
- 25 najdôležitejších otázok týkajúcich sa počítačových vied
- 10 úžasných otázok a odpovedí na otázky týkajúce sa rozhovoru s údajmi