Top 62 Data Engineer Interview Questions & Odpovede

Tu sú často kladené otázky pohovorom s dátovými inžiniermi pre nováčikov aj pre skúsených kandidátov, aby získali správne zamestnanie.

1) Vysvetlite dátové inžinierstvo.

Dátové inžinierstvo je termín používaný vo veľkých dátach. Zameriava sa na aplikáciu zberu údajov a výskum. Údaje generované z rôznych zdrojov sú iba nespracované údaje. Dátové inžinierstvo pomáha prevádzať tieto prvotné údaje na užitočné informácie.

2) Čo je to dátové modelovanie?

Dátové modelovanie je metóda dokumentácie zložitého softvérového dizajnu vo forme diagramu, aby ktokoľvek ľahko pochopil. Jedná sa o koncepčné znázornenie dátových objektov, ktoré sú spojené medzi rôznymi dátovými objektmi a pravidlami.

3) Uveďte rôzne typy návrhových schém v modelovaní údajov

V modelovaní údajov existujú hlavne dva typy schém: 1) Hviezdna schéma a 2) Snehová vločka.

4) Rozlišujte medzi štruktúrovanými a neštruktúrovanými údajmi

Nasleduje rozdiel medzi štruktúrovanými a neštruktúrovanými údajmi:

Parameter	Štruktúrované dáta	Neštruktúrované údaje
Skladovanie	DBMS	Nespravované štruktúry súborov
Štandardné	ADO.net, ODBC a SQL	STMP, XML, CSV a SMS
Integračný nástroj	ELT (extrahovať, transformovať, načítať)	Ručné zadávanie údajov alebo dávkové spracovanie, ktoré obsahuje kódy
škálovanie	Zmena mierky schémy je zložitá	Zmena mierky je veľmi jednoduchá.

5) Vysvetlite všetky komponenty aplikácie Hadoop

Nasledujúce komponenty aplikácie Hadoop sú:

Hadoop Common: Je to bežná sada nástrojov a knižníc, ktoré používa Hadoop.
HDFS: Táto aplikácia Hadoop sa týka súborového systému, v ktorom sú uložené údaje Hadoop. Je to distribuovaný súborový systém s vysokou šírkou pásma.
Hadoop MapReduce: Je založený na algoritme pre poskytovanie rozsiahleho spracovania údajov.
Hadoop YARN: Používa sa na správu zdrojov v klastri Hadoop. Môže sa tiež použiť na plánovanie úloh pre používateľov.

6) Čo je to NameNode?

Je stredobodom HDFS. Uchováva údaje HDFS a sleduje rôzne súbory v klastroch. Tu sa skutočné údaje neukladajú. Údaje sú uložené v DataNodes.

7) Definujte streamovanie Hadoop

Jedná sa o obslužný program, ktorý umožňuje vytvorenie mapy a redukuje úlohy a odosiela ich do konkrétneho klastra.

8) Aká je plná forma HDFS?

HDFS je skratka pre Hadoop Distributed File System.

9) Definujte Block and Block Scanner v HDFS

Bloky sú najmenšou jednotkou dátového súboru. Hadoop automaticky rozdelí obrovské súbory na malé kúsky.

Block Scanner overuje zoznam blokov, ktoré sú prezentované v DataNode.

10) Aké sú kroky, ktoré sa vyskytnú, keď Block Scanner zistí poškodený dátový blok?

Nasledujú kroky, ktoré sa vyskytnú, keď Block Scanner nájde poškodený dátový blok:

1) Najskôr, keď Block Scanner nájde poškodený dátový blok, DataNode nahlási NameNode

2) NameNode spustite proces vytvárania novej repliky pomocou repliky poškodeného bloku.

3) Počet replikácií správnych replík sa snaží zhodovať s faktorom replikácie. Pokiaľ bude nájdená zhoda poškodený dátový blok nebude vymazaný.

11) Pomenujte dve správy, ktoré NameNode dostane od DataNode?

Existujú dve správy, ktoré NameNode dostane z DataNode. Sú to 1) Bloková správa a 2) Tep.

12) Zoznam rôznych konfiguračných súborov XML v Hadoop?

V programe Hadoop je päť konfiguračných súborov XML:

Zmapovaná stránka
Core-site
Stránka HDFS
Miesto priadze

13) Čo sú štyri V veľkých dát?

Štyri V veľkých dát sú:

Rýchlosť
Odroda
Objem
Pravdivosť

14) Vysvetlite funkcie Hadoopu

Dôležitými vlastnosťami Hadoopu sú:

Je to open-source framework, ktorý je k dispozícii freeware.
Hadoop je kompatibilný s mnohými typmi hardvéru a ľahko prístupný k novému hardvéru v rámci konkrétneho uzla.
Hadoop podporuje rýchlejšie distribuované spracovanie údajov.
Ukladá údaje do klastra, ktorý je nezávislý od zvyšku operácií.
Hadoop umožňuje vytvoriť 3 repliky pre každý blok s rôznymi uzlami.

15) Vysvetlite hlavné metódy redukcie

setup (): Používa sa na konfiguráciu parametrov, ako je veľkosť vstupných údajov a distribuovaná vyrovnávacia pamäť.
cleanup (): Táto metóda sa používa na čistenie dočasných súborov.
redukovať (): Je to srdce reduktora, ktoré sa volá raz na kľúč s priradenou redukovanou úlohou

16) Aká je skratka COSHH?

Skratka COSHH je Harmonogram založený na klasifikácii a optimalizácii pre heterogénne systémy Hadoop.

17) Vysvetlite schému hviezd

Hviezdna schéma alebo Hviezdna schéma spojenia je najjednoduchší typ schémy Data Warehouse. Je známa ako hviezdna schéma, pretože jej štruktúra je ako hviezda. V schéme hviezd môže mať stred hviezdy jednu tabuľku faktov a viac asociovaných dimenzií. Táto schéma sa používa na dopytovanie veľkých množín údajov.

18) Ako nasadiť riešenie pre veľké dáta?

Pri nasadení riešenia pre veľké dáta postupujte podľa nasledujúcich krokov.

1) Integrujte údaje pomocou zdrojov údajov, ako sú RDBMS, SAP, MySQL, Salesforce

2) Uložte údaje extrahované v databáze NoSQL alebo HDFS.

3) Nasaďte riešenie pre veľké dáta pomocou rámcov na spracovanie údajov, ako sú Pig, Spark a MapReduce.

19) Vysvetlite FSCK

Kontrola systému súborov alebo FSCK je príkaz používaný HDFS. Príkaz FSCK sa používa na kontrolu nezrovnalostí a problémov v súbore.

20) Vysvetlite schému snehových vločiek

Schéma snehovej vločky je rozšírením hviezdnej schémy a dodáva ďalšie dimenzie. Nazýva sa to ako snehová vločka, pretože jej schéma vyzerá ako snehová vločka. Tabuľky dimenzií sú normalizované, čím sa údaje rozdelia do ďalších tabuliek.

21) Rozlišujte medzi hviezdnou a snehovou vločkou

Hviezda	Schéma SnowFlake
Hierarchie dimenzií sú uložené v rozmerovej tabuľke.	Každá hierarchia je uložená do samostatných tabuliek.
Šance na nadbytočnosť údajov sú vysoké	Šance na nadbytočnosť údajov sú nízke.
Má veľmi jednoduchý DB dizajn	Má komplexný DB dizajn
Poskytnite rýchlejší spôsob spracovania kociek	Spracovanie kociek je kvôli zložitému spojeniu pomalé.

22) Vysvetlite distribuovaný súborový systém Hadoop

Hadoop pracuje s škálovateľnými distribuovanými súborovými systémami ako S3, HFTP FS, FS a HDFS. Distribuovaný systém súborov Hadoop sa vyrába v systéme súborov Google. Tento súborový systém je navrhnutý tak, aby ho bolo možné ľahko spustiť na veľkom klastri počítačového systému.

23) Vysvetlite hlavné povinnosti dátového inžiniera

Dátoví inžinieri majú veľa zodpovedností. Spravujú zdrojový systém údajov. Dátoví inžinieri zjednodušujú zložitú dátovú štruktúru a zabraňujú duplicite údajov. Mnohokrát poskytujú aj ELT a transformáciu údajov.

24) Aká je plná forma PRIADZE?

Plná forma PRIADZE je ešte ďalším vyjednávačom zdrojov.

25) Zoznam rôznych režimov v Hadoop

Režimy v Hadoop sú 1) Samostatný režim 2) Pseudo distribuovaný režim 3) Plne distribuovaný režim.

26) Ako dosiahnuť bezpečnosť v Hadoope?

Na zaistenie bezpečnosti v programe Hadoop vykonajte nasledujúce kroky:

1) Prvým krokom je zabezpečenie autentifikačného kanálu klienta na server. Poskytnite klientovi časovú pečiatku.

2) V druhom kroku klient použije prijatú časovú pečiatku na vyžiadanie TGS o servisný lístok.

3) V poslednom kroku klient použije lístok so službou na overenie totožnosti na konkrétnom serveri.

27) Čo je Heartbeat v Hadoope?

V systéme Hadoop spolu NameNode a DataNode komunikujú. Heartbeat je signál vysielaný DataNode do NameNode pravidelne, aby sa prejavila jeho prítomnosť.

28) Rozlišujte medzi NAS a DAS v Hadoop

NAS	DAS
Skladovacia kapacita je 10 ⁹ až 10 ¹² v bajtech.	Skladovacia kapacita je 10 ⁹ v bajtech.
Náklady na správu za GB sú mierne.	Náklady na správu za GB sú vysoké.
Prenos údajov pomocou protokolu Ethernet alebo TCP / IP.	Prenos dát pomocou IDE / SCSI

29) Uveďte zoznam dôležitých polí alebo jazykov používaných dátovým inžinierom

Tu je niekoľko polí alebo jazykov používaných dátovým inžinierom:

Pravdepodobnosť rovnako ako lineárna algebra
Strojové učenie
Analýza trendov a regresia
Úli databázy QL a SQL

30) Čo sú to veľké dáta?

Jedná sa o veľké množstvo štruktúrovaných a neštruktúrovaných údajov, ktoré nemožno ľahko spracovať tradičnými metódami ukladania údajov. Dátoví inžinieri používajú Hadoop na správu veľkých dát.

31) Čo je plánovanie FIFO?

Je to algoritmus plánovania úloh Hadoop. V tomto plánovaní FIFO reportér vyberá úlohy z pracovného frontu, najstaršej úlohy ako prvej.

32) Uveďte predvolené čísla portov, na ktorých beží sledovač úloh, NameNode a sledovač úloh v Hadoop

Predvolené čísla portov, na ktorých je sledovač úloh, NameNode a sledovač úloh spustený v Hadoop, sú nasledujúce:

Sledovač úloh beží na porte 50060
NameNode beží na porte 50070
Sledovač úloh beží na porte 50030

33) Ako zakázať Block Scanner na dátovom uzle HDFS

Ak chcete deaktivovať funkciu Block Scanner v dátovom uzle HDFS, nastavte dfs.datanode.scan.period.hours na 0.

34) Ako definovať vzdialenosť medzi dvoma uzlami v Hadoop?

Vzdialenosť sa rovná súčtu vzdialenosti od najbližších uzlov. Metóda getDistance () sa používa na výpočet vzdialenosti medzi dvoma uzlami.

35) Prečo používať komoditný hardvér v Hadoope?

Komoditný hardvér je ľahko získateľný a cenovo dostupný. Je to systém kompatibilný s Windows, MS-DOS alebo Linux.

36) Definujte faktor replikácie v HDFS

Replikačný faktor je celkový počet replík súboru v systéme.

37) Aké údaje sú uložené v NameNode?

Namenode ukladá metaúdaje pre HDFS, ako sú informácie o blokoch a informácie o priestore názvov.

38) Čo myslíš pod pojmom Rack Awareness?

V klastri Haddop používa Namenode Datanode na zlepšenie sieťového prenosu pri čítaní alebo zápise ľubovoľného súboru, ktorý je bližšie k blízkemu stojanu, na požiadavku na čítanie alebo zápis. Namenode udržiava ID stojana každého DataNode, aby dosiahol informácie o stojane. Tento koncept sa v Hadoop nazýva Rack Awareness.

39) Aké sú funkcie sekundárneho NameNode?

Nasledujúce funkcie sekundárneho NameNode sú:

FsImage, ktorý uchováva kópiu súboru EditLog a FsImage.
Zlyhanie NameNode: Ak dôjde k zlyhaniu NameNode, potom je možné na vytvorenie NameNode použiť FsImage sekundárneho NameNode.
Kontrolný bod: Používa ho Second NameNode na potvrdenie, že dáta nie sú poškodené v HDFS.
Aktualizácia: Automaticky sa aktualizuje súbor EditLog a FsImage. Pomáha to udržiavať súbor FsImage v sekundárnom NameNode aktualizovaný.

40) Čo sa stane, keď je NameNode nefunkčný a užívateľ zadá novú prácu?

NameNode je jediný bod zlyhania v Hadoop, takže užívateľ nemôže zadať novú úlohu, ktorú nemôže vykonať. Ak je NameNode nefunkčný, potom môže úloha zlyhať, pretože tento užívateľ musí pred spustením akejkoľvek úlohy počkať na reštartovanie NameNode.

41) Aké sú základné fázy redukcie v Hadoope?

V Hadoope existujú tri základné fázy reduktora:

1. Náhodné: Tu Reducer skopíruje výstup z Mappera.

2. Zoradiť: Pri triedení Hadoop triedi vstup do Reduceru pomocou rovnakého klávesu.

3. Znížiť: V tejto fáze sa výstupné hodnoty spojené s kľúčom znížia, aby sa údaje konsolidovali do konečného výstupu.

42) Prečo Hadoop používa kontextový objekt?

Rámec Hadoop používa kontextový objekt s triedou Mapper na interakciu so zostávajúcim systémom. Kontextový objekt získa podrobnosti o konfigurácii systému a úlohu v jeho konštruktore.

Kontextový objekt používame na odovzdávanie informácií v metódach setup (), cleanup () a map (). Tento objekt sprístupňuje dôležité informácie počas operácií s mapou.

43) Definujte Combiner v Hadoope

Je to voliteľný krok medzi mapou a zmenšením. Combiner vezme výstup z funkcie Map, vytvorí páry kľúč - hodnota a odošle sa do Hadoop Reducer. Úlohou Combinera je zhrnúť konečný výsledok z Mapy do súhrnných záznamov s rovnakým kľúčom.

44) Aký je predvolený faktor replikácie dostupný v HDFS Čo naznačuje?

Predvolený faktor replikácie, ktorý je k dispozícii v HDFS, je tri. Predvolený faktor replikácie naznačuje, že z každého údaja budú tri repliky.

45) Čo máte na mysli Data Locality v Hadoop?

V systéme Big Data je veľkosť dát obrovská, a preto nemá zmysel presúvať dáta cez sieť. Teraz sa Hadoop snaží posunúť výpočty bližšie k údajom. Týmto spôsobom zostanú údaje lokálne k uloženému miestu.

46) Definujte Balancer v HDFS

V HDFS je balancer administratívny, ktorý používajú pracovníci správcu na opätovné vyváženie údajov medzi DataNodes a presúva bloky z nadmerne využívaných do nedostatočne využívaných uzlov.

47) Vysvetlite bezpečný režim v systéme HDFS

Je to režim NameNode v klastri iba na čítanie. NameNode je spočiatku v bezpečnom režime. Zabraňuje zápisu do súborového systému v Safemode. V súčasnosti zhromažďuje údaje a štatistiky zo všetkých DataNodes.

48) Aký je význam Distribuovanej medzipamäte v Apache Hadoop?

Hadoop má užitočnú užitočnú funkciu, takzvanú Distributed Cache, ktorá zvyšuje výkonnosť úloh ukladaním do medzipamäte súbory využívané aplikáciami. Aplikácia môže určiť súbor pre medzipamäť pomocou konfigurácie JobConf.

Rámec Hadoop vytvára repliku týchto súborov do uzlov, v ktorých musí byť úloha vykonaná. Toto sa vykonáva pred začiatkom vykonávania úlohy. Distribuovaná vyrovnávacia pamäť podporuje distribúciu súborov iba na čítanie, ako aj súborov zip a jar.

49) Čo je Metastore v úli?

Ukladá schému aj umiestnenie tabuľky úľa.

Definície tabuľky podregistrov, mapovania a metadáta, ktoré sú uložené v úložisku Metastore. To môže byť uložené v RDBMS podporovanom JPOX.

50) Čo znamená SerDe v úli?

SerDe je skrátený názov pre Serializer alebo Deserializer. V úli umožňuje SerDe čítať údaje z tabuľky do a zapisovať do konkrétneho poľa v ľubovoľnom formáte, ktorý chcete.

51) Zoznam komponentov dostupných v dátovom modeli Hive

V dátovom modeli Hive sú tieto komponenty:

Tabuľky
Priečky
Vedrá

52) Vysvetlite použitie úľa v ekosystéme Hadoop.

Úľ poskytuje rozhranie na správu údajov uložených v ekosystéme Hadoop. Hive sa používa na mapovanie a prácu s tabuľkami HBase. Dotazy podregistrov sa konvertujú na úlohy MapReduce, aby sa skryla zložitosť spojená s vytváraním a spúšťaním úloh MapReduce.

53) Hive podporuje zoznam rôznych komplexných dátových typov / zhromažďovanie

Hive podporuje nasledujúce komplexné dátové typy:

Mapa
Struct
Pole
Únie

54) Vysvetlite, ako sa používa súbor .hiverc v úli?

V úli je .hiverc inicializačný súbor. Tento súbor sa pôvodne načíta, keď spustíme rozhranie príkazového riadku (CLI) pre úľ. Počiatočné hodnoty parametrov môžeme nastaviť v súbore .hiverc.

55) Je možné v Hive vytvoriť viac ako jednu tabuľku pre jeden dátový súbor?

Áno, pre dátový súbor môžeme vytvoriť viac ako jednu tabuľkovú schému. Úľ uloží schému do úložiska Hive Metastore. Na základe tejto schémy môžeme z rovnakých údajov načítať odlišné výsledky.

56) Vysvetlite rôzne implementácie SerDe dostupné v úli

V Hive je k dispozícii veľa implementácií SerDe. Môžete tiež napísať svoju vlastnú implementáciu SerDe. Nasleduje niekoľko slávnych implementácií SerDe:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Zoznam funkcií generujúcich tabuľky dostupné v úli

Nasleduje zoznam funkcií generujúcich tabuľky:

Explodovať (pole)
JSON_tuple ()
Stoh()
Explode (mapa)

58) Čo je skosený stôl v úli?

Šikmá tabuľka je tabuľka, ktorá obsahuje hodnoty stĺpcov častejšie. Keď v Hive zadáme počas vytvárania tabuľku SKEWED, šikmé hodnoty sa zapíšu do samostatných súborov a zvyšné hodnoty sa presunú do iného súboru.

59) Zoznam objektov vytvorených príkazom create v MySQL.

Objekty vytvorené príkazom create v MySQL sú nasledujúce:

Databáza
Register
Tabuľka
Používateľ
Postup
Spúšťač
Udalosť
vyhliadka
Funkcia

60) Ako vidieť štruktúru databázy v MySQL?

Ak chcete vidieť štruktúru databázy v MySQL, môžete použiť

Príkaz DESCRIBE. Syntax tohto príkazu je DESCRIBE názov tabuľky ;.

61) Ako vyhľadať konkrétny reťazec v stĺpci tabuľky MySQL?

Na vyhľadanie stĺpca String v MySQL použite operátor regex. Tu môžeme tiež definovať rôzne typy regulárnych výrazov a vyhľadávať pomocou regulárneho výrazu.

62) Vysvetlite, ako môžu dátové analýzy a veľké dáta zvýšiť príjmy spoločnosti?

Nasledujú spôsoby, ako môžu dátové analýzy a veľké dáta zvýšiť príjmy spoločnosti:

Využívajte dáta efektívne, aby ste zabezpečili, že obchodný rast.
Zvýšiť hodnotu pre zákazníka.
Analytické analýzy na zlepšenie predpovedí úrovní zamestnancov.
Zníženie výrobných nákladov organizácií.