Nasledujú často kladené otázky v rozhovoroch pre nováčikov i skúsených testerov a vývojárov ETL.
1) Čo je to ETL?
V architektúre dátových skladov je ETL dôležitou súčasťou, ktorá spravuje údaje pre akýkoľvek obchodný proces. ETL znamená Extrahovať, Transformovať a Načítať . Extrahuje proces načítania údajov z databázy. Transformácia prevádza prevod údajov do formátu, ktorý by mohol byť vhodný na vykazovanie a analýzu. Zatiaľ čo Load vykonáva proces zápisu údajov do cieľovej databázy.
2) Vysvetlite, čo zahŕňa testovacie operácie ETL?
Testovanie ETL zahŕňa
- Skontrolujte, či sa údaje správne transformujú podľa obchodných požiadaviek
- Overte, či sa projektované údaje načítajú do dátového skladu bez toho, aby ste ich skrátili a stratili
- Uistite sa, že aplikácia ETL hlási neplatné údaje a nahrádza ich predvolenými hodnotami
- Zaistite, aby sa údaje načítali v očakávanom časovom rámci, aby sa zlepšila škálovateľnosť a výkon
3) Uveďte, aké sú typy aplikácií dátového skladu a aký je rozdiel medzi dolovaním dát a dátovým skladom?
Typy aplikácií dátového skladu sú
- Spracovanie informácií
- Analytické spracovanie
- Dolovanie dát
Ťažbu dát je možné definovať ako proces extrakcie skrytých prediktívnych informácií z veľkých databáz a ich interpretáciu, zatiaľ čo dátové sklady môžu rýchlejšie využívať dátovú baňu na analytické spracovanie údajov. Skladovanie údajov je proces agregácie údajov z viacerých zdrojov do jedného spoločného úložiska
4) Aké sú rôzne nástroje používané v ETL?
- Stream rozhodnutia Cognos
- Oracle Warehouse Builder
- Obchodné objekty XI
- Obchodný sklad SAS
- Server SAS Enterprise ETL
5) Čo je to skutočnosť? Aké sú typy faktov?
Je to ústredná súčasť viacrozmerného modelu, ktorý obsahuje opatrenia, ktoré sa majú analyzovať. Fakty súvisia s rozmermi.
Druhy faktov sú
- Aditívne fakty
- Poloaditívne fakty
- Neaditívne fakty
6) Vysvetlite, čo sú kocky a kocky OLAP?
Kocky sú jednotky na spracovanie údajov pozostávajúce z tabuliek faktov a dimenzií z dátového skladu. Poskytuje viacrozmernú analýzu.
OLAP je skratka pre Online Analytics Processing a OLAP cube ukladá veľké dáta v muti-dimenzionálnej podobe pre účely reportovania. Skladá sa z faktov nazývaných ako opatrenia kategorizované podľa dimenzií.
7) Vysvetlite, čo je úroveň sledovania a aké sú typy?
Úroveň sledovania je množstvo údajov uložených v súboroch protokolu. Úrovňu sledovania je možné rozdeliť na dve režimy: Normálna a Verbose. Normálna úroveň podrobne vysvetľuje úroveň sledovania, zatiaľ čo podrobná úroveň sledovania vysvetľuje v každom riadku.
8) Vysvetlite, čo je zrno skutočnosti?
Faktor zrna možno definovať ako úroveň, na ktorej sú informácie o fakte uložené. Je tiež známy ako Fact Granularity
9) Vysvetlite, čo je schéma faktografických faktov a čo sú opatrenia?
Tabuľka faktov bez opatrení je známa ako Tabuľka faktov. Môže zobraziť počet vyskytujúcich sa udalostí. Používa sa napríklad na zaznamenanie udalosti, ako je počet zamestnancov v spoločnosti.
Číselné údaje založené na stĺpcoch v tabuľke faktov sú známe ako miery
10) Vysvetlite, čo je transformácia?
Transformácia je objekt úložiska, ktorý generuje, upravuje alebo odovzdáva údaje. Transformácia je dvoch typov: aktívna a pasívna
11) Vysvetlite použitie vyhľadávacej transformácie?
Vyhľadávacia transformácia je užitočná pre
- Získanie súvisiacej hodnoty z tabuľky pomocou hodnoty stĺpca
- Aktualizujte pomaly sa meniacu tabuľku dimenzií
- Skontrolujte, či v tabuľke už existujú záznamy
12) Vysvetlite, čo je rozdelenie na oddiely, rozdelenie hash a rozdelenie na okruhy?
Na zlepšenie výkonu sa transakcie delia na ďalšie časti, ktoré sa nazývajú Delenie na oddiely. Delenie na oddiely umožňuje serveru Informatica vytvárať viacnásobné pripojenie k rôznym zdrojom
Typy oddielov sú
Rozdelenie na jednotlivé okruhy:
- Informatica distribuuje dáta rovnomerne medzi všetky oddiely
- Toto rozdelenie je použiteľné v každom oddiele, kde je počet riadkov na spracovanie približne rovnaký
Rozdelenie mriežky:
- Na účely rozdelenia kľúčov na zoskupenie údajov medzi oddielmi server Informatica používa hashovaciu funkciu
- Používa sa na zabezpečenie toho, že je potrebné zabezpečiť skupiny procesov s rovnakým kľúčom rozdelenia na rovnakom oddiele
13) Uveďte, aká je výhoda použitia cieľového adaptéra DataReader?
Výhodou použitia cieľového adaptéra DataReader je, že naplní sadu záznamov ADO (pozostáva zo záznamov a stĺpcov) do pamäte a vystaví údaje z úlohy DataFlow implementáciou rozhrania DataReader, aby mohla iná aplikácia dáta spotrebovať.
14) Aké sú možné spôsoby aktualizácie tabuľky pomocou SSIS (SQL Server Integration Service)?
Aktualizovať tabuľku pomocou SSIS sú možné spôsoby:
- Použite príkaz SQL
- Použite rozstupovú tabuľku
- Použite vyrovnávaciu pamäť
- Použite skriptovú úlohu
- Ak sa používa MSSQL, na aktualizáciu použite celý názov databázy
15) V prípade, že máte na vyhľadávanie iný zdroj ako OLEDB (Object Linking and Embedding Database), čo by ste robili?
V prípade, že máte na vyhľadávanie iný zdroj ako OLEBD, musíte na načítanie údajov použiť medzipamäť a použiť ju ako zdroj
16) V akom prípade používate dynamickú a statickú vyrovnávaciu pamäť pri spojených a nespojených transformáciách?
- Dynamická vyrovnávacia pamäť sa používa, keď musíte aktualizovať hlavnú tabuľku a pomaly sa meniace dimenzie (SCD) typu 1
- Pre ploché súbory sa používa statická vyrovnávacia pamäť
17) Vysvetlite, aké sú rozdiely medzi neprepojeným a pripojeným vyhľadávaním?
Pripojené vyhľadávanie |
Nepripojené vyhľadávanie |
|
- Používa sa, keď sa pri mapovaní namiesto transformácie výrazu použije funkcia vyhľadávania |
|
- Vráti iba jeden výstupný port |
|
|
|
|
|
|
|
|
18) Vysvetlite, čo je zobrazenie zdroja údajov?
Zobrazenie zdroja údajov umožňuje definovať relačnú schému, ktorá sa použije v databázach analytických služieb. Namiesto priamo z objektov zdroja údajov sa dimenzie a kocky vytvárajú zo zobrazení zdrojov údajov.
19) Vysvetlite, aký je rozdiel medzi nástrojmi OLAP a ETL?
Rozdiel medzi nástrojom ETL a OLAP je v tom
Nástroj ETL je určený na extrakciu údajov zo starších systémov a na načítanie do špecifikovanej databázy s určitým procesom čistenia údajov.
Príklad: dátová fáza, Informatica atď.
Zatiaľ čo OLAP je určený na účely vykazovania v údajoch OLAP dostupných vo viacsmerovom modeli.
Príklad: Obchodné objekty, Cognos atď.
20) Ako môžete extrahovať údaje SAP pomocou služby Informatica?
- Pomocou možnosti napájania môžete extrahovať údaje SAP pomocou služby informatica
- Nainštalujte a nakonfigurujte nástroj PowerConnect
- Importujte zdroj do analyzátora zdrojov. Medzi spoločnosťami Informatica a SAP Powerconnect fungujú ako bránka. Ďalším krokom je vygenerovanie kódu ABAP pre mapovanie, potom bude môcť údaje zo systému SAP získavať iba informatika
- Na pripojenie a import zdrojov z externých systémov sa používa program Power Connect
21) Uveďte, aký je rozdiel medzi Power Mart a Power Center?
Power Center |
Power Mart |
|
|
|
|
|
|
|
|
22) Vysvetlite, čo je to oddychová oblasť a aký je účel oddychovej oblasti?
Úprava údajov je oblasť, kde dočasne uchovávate údaje na serveri dátového skladu. Postupné vytváranie údajov zahŕňa nasledujúce kroky
- Extrakcia a transformácia dát (reštrukturalizácia)
- Transformácia údajov (čistenie údajov, transformácia hodnoty)
- Náhradné priradenia klávesov
23) Čo je schéma autobusu?
Pre rôzne obchodné procesy na identifikáciu bežných dimenzií sa používa BUS schéma. Dodáva sa s vyhovujúcimi rozmermi spolu so štandardizovanou definíciou informácií
24) Vysvetlite, čo je čistenie údajov?
Čistenie údajov je proces odstraňovania údajov z dátového skladu. Odstráni nevyžiadané údaje ako riadky s nulovými hodnotami alebo medzerami navyše.
25) Vysvetlite, čo sú objekty schémy?
Objekty schémy sú logickou štruktúrou, ktorá priamo odkazuje na údaje z databáz. Objekty schémy zahŕňajú tabuľky, zobrazenia, synonymá sekvencií, indexy, klastre, balíčky funkcií a odkazy na databázy
26) Vysvetlite tieto pojmy Session, Worklet, Mapplet a Workflow?
- Mapplet: Aranžuje alebo vytvára súbory transformácií
- Pracovný zošit: Predstavuje konkrétny súbor zadaných úloh
- Pracovný postup: Je to súbor pokynov, ktoré serveru hovoria, ako má vykonávať úlohy
- Relácia: Je to sada parametrov, ktorá serveru povie, ako presunúť údaje zo zdrojov do cieľa
Stiahnutie PDF zadarmo: Dotazy a odpovede na pohovor o testovaní ETL