Stiahnite si PDF
Nasledujú často kladené otázky v rozhovoroch pre nováčikov i skúsených vývojárov.
1) Čo je redukcia mapy Hadoop?
Na paralelné spracovanie veľkých množín údajov v klastri Hadoop sa používa rámec Hadoop MapReduce. Analýza dát využíva dvojkrokovú mapu a redukuje proces.
2) Ako funguje Hadoop MapReduce?
V MapReduce počas fázy mapy počíta slová v každom dokumente, zatiaľ čo vo fáze redukcie agreguje údaje podľa dokumentu, ktorý zahŕňa celú zbierku. Počas fázy mapy sú vstupné údaje rozdelené na rozdelenie na analýzu pomocou úloh mapy, ktoré bežia paralelne v rámci systému Hadoop.
3) Vysvetlite, čo sa v MapReduce zamieša?
Proces, pri ktorom systém vykonáva triedenie a prenáša výstupy mapy na reduktor ako vstupy, je známy ako náhodný výber
4) Vysvetlite, čo je distribuovaná vyrovnávacia pamäť v prostredí MapReduce Framework?
Distribuovaná medzipamäť je dôležitou funkciou, ktorú poskytuje rámec MapReduce. Ak chcete zdieľať niektoré súbory vo všetkých uzloch v klastri Hadoop, použije sa Distributed Cache. Súbory môžu byť spustiteľné súbory jar alebo súbory jednoduchých vlastností.
5) Vysvetlite, čo je NameNode v Hadoope?
NameNode v Hadoop je uzol, kde Hadoop ukladá všetky informácie o umiestnení súborov v HDFS (Hadoop Distributed File System). Inými slovami, NameNode je stredobodom súborového systému HDFS. Uchováva záznamy o všetkých súboroch v súborovom systéme a sleduje údaje o súboroch v rámci klastra alebo viacerých počítačov
6) Vysvetlite, čo je JobTracker v programe Hadoop? Aké sú kroky, ktoré podniká Hadoop?
V aplikácii Hadoop na odosielanie a sledovanie úloh MapReduce sa používa JobTracker. Sledovač úloh beží na vlastnom procese JVM
Job Tracker vykonáva nasledujúce akcie v Hadoop
- Aplikácia klienta odosiela úlohy do sledovača úloh
- JobTracker komunikuje do režimu mien na určenie umiestnenia údajov
- V blízkosti údajov alebo s dostupnými slotmi JobTracker vyhľadá uzly TaskTracker
- Na vybraných uzloch TaskTracker odošle prácu
- Ak úloha zlyhá, Job Tracker na to upozorní a rozhodne, čo potom urobí.
- Uzly TaskTracker monitoruje JobTracker
7) Vysvetlite, čo je srdcový rytmus v HDFS?
Tep je označovaný ako signál používaný medzi dátovým uzlom a uzlom názvu a medzi sledovačom úloh a sledovačom úloh, ak uzol názvu alebo sledovač úloh nereaguje na signál, potom sa považuje za problém s dátovým uzlom alebo úlohou. sledovač
8) Vysvetlite, čo sú kombinátory a kedy by ste mali použiť kombinátor v MapReduce Job?
Na zvýšenie efektívnosti programu MapReduce sa používajú kombinátory. Množstvo dát je možné znížiť pomocou kombinátora, ktorý je potrebné preniesť do reduktorov. Ak je vykonaná operácia komutatívna a asociatívna, môžete použiť redukčný kód ako kombinátor. Vykonanie kombinátora nie je v programe Hadoop zaručené
9) Čo sa stane, keď zlyhá dátový uzol?
Keď zlyhá dátový uzol
- Jobtracker a namenode detekujú zlyhanie
- Na zlyhanom uzle sú všetky úlohy znova naplánované
- Namenode replikuje údaje používateľa do iného uzla
10) Vysvetlite, čo je špekulatívne vykonávanie?
V programe Hadoop sa počas špekulatívneho vykonávania spúšťa určitý počet duplicitných úloh. Na inom podriadenom uzle je možné pomocou špekulatívneho vykonania vykonať viac kópií tej istej mapy alebo úlohy na zmenšenie. Jednoducho povedané, ak dokončenie úlohy konkrétnej jednotky trvá dlho, program Hadoop vytvorí duplicitnú úlohu na inom disku. Disk, ktorý dokončí úlohu ako prvý, sa udrží a disky, ktoré nedokončia najskôr, sa zabijú.
11) Vysvetlite, aké sú základné parametre mapovača?
Základné parametre mapovača sú
- LongWritable a Text
- Textové a IntWritable
12) Vysvetlite, aká je funkcia oddielu MapReduce?
Funkciou oddielu MapReduce je zabezpečiť, aby všetka hodnota jedného kľúča smerovala k rovnakému redukčnému modulu, ktorý nakoniec pomôže rovnomernej distribúcii mapového výstupu cez redukčné prvky
13) Vysvetlite, aký je rozdiel medzi Input Split a HDFS Block?
Logické rozdelenie údajov je známe ako Split, zatiaľ čo fyzické rozdelenie údajov je známe ako HDFS Block
14) Vysvetlite, čo sa stane v textovom formáte?
Vo formáte na zadávanie textu je každý riadok textového súboru záznamom. Hodnota je obsah riadku, zatiaľ čo kľúč je bajtové odsadenie riadku. Napríklad kľúč: longWritable, Value: text
15) Uveďte, aké sú hlavné konfiguračné parametre, ktoré musí používateľ určiť, aby mohol spustiť aplikáciu MapReduce Job?
Je potrebné uviesť používateľa rámca MapReduce
- Miesta vstupu úlohy v distribuovanom systéme súborov
- Výstupné miesto úlohy v distribuovanom systéme súborov
- Vstupný formát
- Výstupný formát
- Trieda obsahujúca funkciu mapy
- Trieda obsahujúca funkciu redukcie
- Súbor JAR obsahujúci triedy mapovača, reduktora a ovládača
16) Vysvetlite, čo je WebDAV v Hadoope?
Na podporu úprav a aktualizácie súborov je WebDAV sada rozšírení protokolu HTTP. Na väčšine operačných systémov možno zdieľania WebDAV pripojiť ako súborové systémy, takže je možné pristupovať k HDFS ako k štandardnému súborovému systému vystavením HDFS cez WebDAV.
17) Vysvetlite, čo je Sqoop v Hadoope?
Na prenos údajov medzi správou relačných databáz (RDBMS) a Hadoop HDFS sa používa nástroj známy ako Sqoop. Pomocou Sqoop je možné dáta prenášať z RDMS ako MySQL alebo Oracle do HDFS, ako aj exportovať dáta zo súboru HDFS do RDBMS
18) Vysvetlite, ako JobTracker naplánuje úlohu?
Sledovač úloh odosiela do aplikácie Jobtracker správy srdcového rytmu zvyčajne každých pár minút, aby sa ubezpečil, že je JobTracker aktívny a funkčný. Správa tiež informuje JobTracker o počte dostupných slotov, takže JobTracker môže zostať v obraze o tom, kde možno delegovať prácu klastra
19) Vysvetlite, čo je Sequencefileinputformat?
Sequencefileinputformat sa používa na postupné čítanie súborov. Jedná sa o špecifický komprimovaný formát binárneho súboru, ktorý je optimalizovaný na prenos údajov medzi výstupom jednej úlohy MapReduce na vstup inej úlohy MapReduce.
20) Vysvetlite, čo robí trieda conf.setMapper?
Conf.setMapperclass nastaví triedu mapovača a všetky veci súvisiace s mapovou prácou, ako je čítanie údajov a generovanie páru kľúč - hodnota z mapovača
21) Vysvetlite, čo je Hadoop?
Jedná sa o softvérový rámec otvoreného zdroja na ukladanie údajov a spúšťanie aplikácií na klastroch komoditného hardvéru. Poskytuje obrovský výpočtový výkon a obrovské úložisko pre akýkoľvek typ údajov.
22) Uveďte, aký je rozdiel medzi RDBMS a Hadoop?
RDBMS | Hadoop |
RDBMS je systém správy relačných databáz | Hadoop je uzlová plochá štruktúra |
Používa sa na spracovanie OLTP, zatiaľ čo Hadoop | V súčasnosti sa používa na analytické účely a na spracovanie VEĽKÝCH ÚDAJOV |
V RDBMS používa databázový klaster rovnaké dátové súbory uložené v zdieľanom úložisku | V systéme Hadoop môžu byť údaje o úložisku uložené nezávisle v každom uzle spracovania. |
Pred uložením musíte údaje vopred spracovať | údaje nemusíte pred uložením predspracovať |
23) Spomeňte základné komponenty Hadoop?
Medzi základné komponenty Hadoop patria:
- HDFS
- MapReduce
24) Čo je NameNode v Hadoope?
NameNode v Hadoop je miesto, kde Hadoop ukladá všetky informácie o umiestnení súborov do HDFS. Je to hlavný uzol, na ktorom beží sledovač úloh, a pozostáva z metadát.
25) Uveďte, aké dátové komponenty používa Hadoop?
Dátové komponenty používané Hadoopom sú
- Prasa
- Úľ
26) Uveďte, čo používa Hadoop komponent na ukladanie údajov?
Komponentom na ukladanie údajov, ktorý používa Hadoop, je HBase.
27) Uveďte, aké sú najbežnejšie vstupné formáty definované v programe Hadoop?
Najbežnejšie vstupné formáty definované v programe Hadoop sú;
- TextInputFormat
- KeyValueInputFormat
- SequenceFileInputFormat
28) Čo je v Hadoop InputSplit?
Rozdeľuje vstupné súbory na kúsky a každé rozdelenie priradí mapovačovi na spracovanie.
29) Ako napíšete pri vytváraní úlohy Hadoop vlastný oddiel?
Napíšete vlastný oddiel pre úlohu Hadoop, budete nasledovať nasledujúcu cestu
- Vytvorte novú triedu, ktorá rozširuje triedu oddielov
- Metóda prepísania getPartition
- V obale, ktorý spúšťa MapReduce
- Pridajte vlastný oddiel k úlohe pomocou metódy nastavenej triedy oddielu alebo - pridajte vlastný oddiel k úlohe ako konfiguračný súbor
30) Je možné v prípade práce v spoločnosti Hadoop zmeniť počet vytvorených mapovačov?
Nie, nie je možné zmeniť počet vytvorených mapovačov. Počet mapovačov je určený počtom vstupných rozdelení.
31) Vysvetlite, čo je súbor sekvencií v programe Hadoop?
Na ukladanie dvojíc binárny kľúč / hodnota sa používa sekvenčný súbor. Na rozdiel od bežného komprimovaného súboru podporuje sekvenčný súbor rozdelenie, aj keď sú dáta v ňom komprimované.
32) Keď je Namenode nefunkčný, čo sa stane so sledovačom úloh?
Namenode je jediný bod zlyhania v HDFS, takže keď je Namenode dole, váš klaster sa vydá na cestu.
33) Vysvetlite, ako sa robí indexovanie v HDFS?
Hadoop má jedinečný spôsob indexovania. Akonáhle sú dáta uložené podľa veľkosti bloku, HDFS bude naďalej ukladať poslednú časť dát, ktorá hovorí, kde bude ďalšia časť dát.
34) Vysvetlite, je možné vyhľadávať súbory pomocou zástupných znakov?
Áno, je možné vyhľadávať súbory pomocou zástupných znakov.
35) Zoznam troch konfiguračných súborov Hadoop?
Tri konfiguračné súbory sú
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) Vysvetlite, ako môžete skontrolovať, či Namenode okrem príkazu jps funguje?
Okrem použitia príkazu jps môžete tiež skontrolovať, či Namenode funguje
/etc/init.d/hadoop-0.20-namenode status.
37) Vysvetlite, čo je „mapa“ a čo je „reduktor“ v programe Hadoop?
V Hadoop je mapa fázou pri riešení dotazov HDFS. Mapa číta dáta zo vstupného umiestnenia a na výstup privádza pár kľúčov a hodnôt podľa typu vstupu.
V programe Hadoop reduktor zhromažďuje výstup generovaný mapovačom, spracuje ho a vytvorí vlastný konečný výstup.
38) Ktorý súbor v aplikácii Hadoop ovláda vytváranie prehľadov v aplikácii Hadoop?
V Hadoope ovláda nahlasovanie súbor hadoop-metrics.properties.
39) Na používanie zoznamu Hadoop požiadavky na sieť?
Pre použitie programu Hadoop je zoznam sieťových požiadaviek:
- Pripojenie SSH bez hesla
- Secure Shell (SSH) na spustenie procesov servera
40) Uveďte, čo je povedomie o stojane?
Povedomie o stojane je spôsob, ktorým pomenovaný uzol určuje, ako umiestniť bloky na základe definícií stojana.
41) Vysvetlite, čo je sledovač úloh v programe Hadoop?
Sledovač úloh v Hadoop je démon otrokárskeho uzla v klastri, ktorý prijíma úlohy od JobTrackera. Každých pár minút tiež odosiela správy o stave do JobTrackeru, aby sa potvrdilo, že je JobTracker stále nažive.
42) Uveďte, čo démoni bežia na hlavnom a podriadenom uzle?
- Démoni bežiaci na hlavnom uzle sú „NameNode“
- Démoni bežiaci na každom uzle Slave sú „Task Tracker“ a „Data“
43) Vysvetlite, ako môžete ladiť kód Hadoop?
Populárne metódy na ladenie kódu Hadoop sú:
- Pomocou webového rozhrania poskytovaného Hadoop frameworkom
- Použitím počítadiel
44) Vysvetlite, čo sú úložné a výpočtové uzly?
- Uzol úložiska je stroj alebo počítač, kde sa nachádza váš súborový systém na ukladanie údajov o spracovaní
- Uzol výpočtu je počítač alebo stroj, kde sa vykoná vaša skutočná obchodná logika.
45) Uveďte, na čo sa používa kontextový objekt?
Kontextový objekt umožňuje mapovaču komunikovať so zvyškom Hadoopu
systém. Zahŕňa konfiguračné údaje úlohy, ako aj rozhrania, ktoré jej umožňujú vydávať výstup.
46) Uveďte, aký je ďalší krok po aplikácii Mapper alebo MapTask?
Ďalším krokom po Mapperi alebo MapTasku je, že výstup Mapperu je zoradený a pre výstup sa vytvoria oddiely.
47) Uveďte aký je počet predvolených rozdeľovačov v Hadoop?
V aplikácii Hadoop je predvoleným rozdeľovačom rozdeľovač „Hash“.
48) Vysvetlite, aký je účel aplikácie RecordReader v programe Hadoop?
V aplikácii Hadoop načítava RecordReader údaje zo zdroja a prevádza ich na páry (kľúč, hodnota) vhodné na čítanie mapovačom.
49) Vysvetlite, ako sú rozdelené údaje pred tým, ako sú odoslané redukcii, ak v aplikácii Hadoop nie je definovaný žiadny vlastný rozdeľovač?
Ak v aplikácii Hadoop nie je definovaný žiadny vlastný rozdeľovač, potom predvolený rozdeľovač vypočíta hodnotu hash pre kľúč a na základe výsledku priradí oblasť.
50) Vysvetlite, čo sa stane, keď program Hadoop vytvoril 50 úloh pre úlohu a jedna z nich zlyhala?
Ak úloha zlyhá viac ako je definovaný limit, úloha sa reštartuje znova na inom TaskTrackeri.
51) Uveďte, aký je najlepší spôsob kopírovania súborov medzi klastrami HDFS?
Najlepším spôsobom, ako kopírovať súbory medzi klastrami HDFS, je použitie viacerých uzlov a príkazu distcp, aby sa pracovná záťaž zdieľala.
52) Uveďte, aký je rozdiel medzi HDFS a NAS?
Dátové bloky HDFS sú distribuované medzi lokálne disky všetkých strojov v klastri, zatiaľ čo dáta NAS sú ukladané na vyhradenom hardvéri.
53) Uveďte, v čom sa Hadoop líši od iných nástrojov na spracovanie údajov?
V programe Hadoop môžete zvýšiť alebo znížiť počet mapovačov bez obáv z objemu spracovávaných údajov.
54) Uveďte, akú prácu robí trieda conf?
Trieda konfigurácie úloh oddeľuje rôzne úlohy bežiace na rovnakom klastri. Robí nastavenia úrovne úlohy, ako je napríklad deklarovanie úlohy v reálnom prostredí.
55) Uveďte, čo je zmluva Hadoop MapReduce API na kľúčovú a hodnotovú triedu?
Pre triedu kľúčov a hodnôt existujú dva kontrakty API Hadoop MapReduce
- Hodnota musí byť definujúca rozhranie org.apache.hadoop.io.Writable
- Kľúčom musí byť definovanie rozhrania org.apache.hadoop.io.WritableComparable
56) Spomeňte, aké sú tri režimy, v ktorých je možné spustiť Hadoop?
Existujú tri režimy, v ktorých je možné program Hadoop spustiť
- Pseudo distribuovaný režim
- Samostatný (miestny) režim
- Plne distribuovaný režim
57) Uveďte, čo robí formát zadávania textu?
Formát zadávania textu vytvorí riadkový objekt, ktorý je hexadecimálne číslo. Hodnota sa považuje za celý riadkový text, zatiaľ čo kláves sa považuje za riadkový objekt. Mapovač dostane hodnotu ako „textový“ parameter, zatiaľ čo kľúč ako „dlhopisovateľný“ parameter.
58) Uveďte, koľko InputSplits vytvára Hadoop Framework?
Hadoop urobí 5 rozdelení
- 1 rozdelenie pre 64 kB súborov
- 2 rozdelené pre 65 MB súbory
- 2 rozdelenia pre súbory 127 MB
59) Uveďte, čo je distribuovaná vyrovnávacia pamäť v Hadoop?
Distribuovaná vyrovnávacia pamäť v Hadoop je zariadenie poskytované rámcom MapReduce. V čase vykonania úlohy sa používa na ukladanie do pamäte cache. Rámec skopíruje potrebné súbory do podriadeného uzla pred vykonaním akejkoľvek úlohy v tomto uzle.
60) Vysvetlite, ako hrá Hadoop Classpath zásadnú úlohu pri zastavení alebo spustení démonov Hadoop?
Classpath bude pozostávať zo zoznamu adresárov obsahujúcich súbory jar na zastavenie alebo spustenie démonov.