Proces ETL (extrakcia, transformácia a načítanie) v dátovom sklade

Obsah:

Anonim

Čo je to ETL?

ETL je proces, ktorý extrahuje údaje z rôznych zdrojových systémov, potom ich transformuje (napríklad pomocou výpočtov, zreťazení atď.) A nakoniec načíta údaje do systému Data Warehouse. Plnou formou ETL je Extrahovať, Transformovať a Načítať.

Je lákavé myslieť si, že pri vytváraní dátového skladu sa jednoducho získavajú údaje z viacerých zdrojov a načítajú sa do databázy dátového skladu. To nie je ďaleko od pravdy a vyžaduje si zložitý proces ETL. Proces ETL vyžaduje aktívne vstupy od rôznych zainteresovaných strán vrátane vývojárov, analytikov, testerov, najvyšších riadiacich pracovníkov a je technicky náročný.

Aby si systém dátových skladov udržal svoju hodnotu ako nástroja pre osoby s rozhodovacími právomocami, musí sa meniť s obchodnými zmenami. ETL je opakujúca sa aktivita (denná, týždenná, mesačná) systému dátových skladov a musí byť agilná, automatizovaná a dobre zdokumentovaná.

V tomto výučbe ETL sa naučíte -

  • Čo je to ETL?
  • Prečo potrebujete ETL?
  • Proces ETL v dátových skladoch
  • Krok 1) Extrakcia
  • Krok 2) Transformácia
  • Krok 3) Načítanie
  • Nástroje ETL
  • Osvedčené postupy procesu ETL

Prečo potrebujete ETL?

Existuje mnoho dôvodov na prijatie ETL v organizácii:

  • Pomáha spoločnostiam analyzovať ich obchodné údaje na účely prijímania kritických obchodných rozhodnutí.
  • Transakčné databázy nemôžu odpovedať na zložité obchodné otázky, na ktoré môže odpovedať príklad ETL.
  • Dátový sklad poskytuje spoločné úložisko údajov
  • ETL poskytuje metódu presunu údajov z rôznych zdrojov do dátového skladu.
  • Keď sa zdroje údajov zmenia, dátový sklad sa automaticky aktualizuje.
  • Dobre navrhnutý a zdokumentovaný systém ETL je takmer nevyhnutný pre úspech projektu Data Warehouse.
  • Povoliť overenie pravidiel transformácie, agregácie a výpočtov údajov.
  • Proces ETL umožňuje porovnanie vzorových údajov medzi zdrojovým a cieľovým systémom.
  • Proces ETL môže vykonávať zložité transformácie a vyžaduje ďalšiu oblasť na ukladanie údajov.
  • ETL pomáha migrovať údaje do dátového skladu. Konvertujte na rôzne formáty a typy, aby ste sa držali jedného konzistentného systému.
  • ETL je preddefinovaný proces pre prístup a manipuláciu so zdrojovými údajmi do cieľovej databázy.
  • ETL v dátovom sklade ponúka hlboký historický kontext pre podnikanie.
  • Pomáha zvyšovať produktivitu, pretože kodifikuje a opätovne používa bez potreby technických zručností.

Proces ETL v dátových skladoch

ETL je proces pozostávajúci z troch krokov

Proces ETL

Krok 1) Extrakcia

V tomto kroku architektúry ETL sa údaje extrahujú zo zdrojového systému do pracovnej oblasti. Transformácie, ak nejaké sú, sa vykonávajú v pracovnej oblasti, aby nedošlo k zníženiu výkonu zdrojového systému. Ak sa tiež poškodené údaje skopírujú priamo zo zdroja do databázy Data warehouse, spätné vrátenie bude výzvou. Pracovná oblasť poskytuje príležitosť overiť extrahované údaje predtým, ako sa presunú do dátového skladu.

V dátovom sklade je potrebné integrovať rôzne systémy

DBMS, hardvér, operačné systémy a komunikačné protokoly. Zdroje môžu zahŕňať staršie aplikácie ako Mainframes, prispôsobené aplikácie, zariadenia Point of contact ako ATM, prepínače hovorov, textové súbory, tabuľky, ERP, údaje od dodávateľov, partnerov a ďalších.

Pred fyzickým načítaním a načítaním údajov je preto potrebná mapa logických údajov. Táto dátová mapa popisuje vzťah medzi zdrojovými a cieľovými údajmi.

Tri metódy extrakcie údajov:

  1. Úplná extrakcia
  2. Čiastočná extrakcia - bez oznámenia o aktualizácii.
  3. Čiastočná extrakcia - s upozornením na aktualizáciu

Bez ohľadu na použitú metódu by extrakcia nemala mať vplyv na výkon a čas odozvy zdrojových systémov. Tieto zdrojové systémy sú živé produkčné databázy. Akékoľvek spomalenie alebo zablokovanie môže mať vplyv na hospodársky výsledok spoločnosti.

Niektoré overenia sa vykonávajú počas extrakcie:

  • Zosúladiť záznamy so zdrojovými údajmi
  • Zaistite, aby nebol načítaný žiadny spam / nežiaduce dáta
  • Kontrola dátového typu
  • Odstráňte všetky typy duplicitných alebo fragmentovaných údajov
  • Skontrolujte, či sú všetky kľúče na svojom mieste alebo nie

Krok 2) Transformácia

Údaje extrahované zo zdrojového servera sú prvotné a nie sú použiteľné v pôvodnej podobe. Preto je potrebné ho očistiť, zmapovať a transformovať. V skutočnosti je to kľúčový krok, keď proces ETL zvyšuje hodnotu a mení údaje tak, aby bolo možné generovať prehľadné BI správy.

Je to jeden z dôležitých konceptov ETL, kde na extrahované údaje aplikujete množinu funkcií. Dáta, ktoré nevyžadujú žiadnu transformáciu, sa nazývajú priamy presun alebo prechod dát .

V transformačnom kroku môžete s dátami vykonávať prispôsobené operácie. Napríklad, ak chce užívateľ tržby, ktoré nie sú v databáze. Alebo ak je meno a priezvisko v tabuľke v rôznych stĺpcoch. Pred načítaním je možné ich zreťaziť.

Problémy s integráciou údajov

Nasledujú problémy s integritou údajov:

  1. Rôzne pravopisy tej istej osoby ako Jon, John atď.
  2. Existuje niekoľko spôsobov, ako označiť názov spoločnosti, ako je Google, Google Inc.
  3. Používanie rôznych mien ako Cleaveland, Cleveland.
  4. Môže sa vyskytnúť prípad, že rôzne aplikácie vygenerujú rôzne aplikácie pre toho istého zákazníka.
  5. V niektorých údajoch zostávajú požadované súbory prázdne
  6. Neplatný produkt zhromaždený na POS ako manuálny vstup môže viesť k chybám.

Počas tejto fázy sa vykonávajú validácie

  • Filtrovanie - vyberte iba niektoré stĺpce, ktoré sa majú načítať
  • Používanie pravidiel a vyhľadávacích tabuliek pre štandardizáciu údajov
  • Konverzia znakovej sady a spracovanie kódovania
  • Prevod merných jednotiek, ako je prevod dátumu a času, prepočty mien, číselné prepočty atď.
  • Kontrola platnosti dátového prahu. Napríklad vek nemôže byť vyšší ako dve číslice.
  • Overenie toku údajov z pracovnej oblasti do sprostredkovateľských tabuliek.
  • Povinné polia by nemali zostať prázdne.
  • Čistenie (napríklad mapovanie NULL na 0 alebo Pohlavie Muž na „M“ a Žena na „F“ atď.)
  • Rozdelte stĺpec na viacnásobné a zlúčte viac stĺpcov do jedného stĺpca.
  • Transpozícia riadkov a stĺpcov,
  • Na vyhľadanie zlúčte údaje
  • Použitie akejkoľvek komplexnej validácie údajov (napr. Ak sú prvé dva stĺpce v riadku prázdne, potom riadok automaticky odmietne spracovanie)

Krok 3) Načítanie

Načítanie údajov do cieľovej databázy dátových skladov je posledným krokom procesu ETL. V typickom dátovom sklade je potrebné načítať obrovský objem dát za relatívne krátke obdobie (noci). Proces načítania by mal byť preto optimalizovaný na výkon.

V prípade zlyhania načítania by mali byť mechanizmy obnovy nakonfigurované na reštartovanie od bodu zlyhania bez straty integrity údajov. Správcovia dátového skladu musia monitorovať, obnovovať a rušiť načítania podľa prevládajúceho výkonu servera.

Druhy nakladania:

  • Počiatočné načítanie - vyplnenie všetkých tabuliek Data Warehouse
  • Prírastkové zaťaženie - periodické uplatňovanie priebežných zmien podľa potreby.
  • Úplné obnovenie - opätovné načítanie obsahu jednej alebo viacerých tabuliek a opätovné načítanie nových údajov.

Overenie načítania

  • Zaistite, aby údaje kľúčového poľa nechýbali ani neboli nulové.
  • Otestujte modelovacie pohľady na základe cieľových tabuliek.
  • Skontrolujte kombinované hodnoty a vypočítané miery.
  • Kontroly údajov v tabuľke dimenzií aj v histórii.
  • Skontrolujte správy BI na načítanej tabuľke faktov a dimenzií.

Nástroje ETL

Na trhu existuje veľa nástrojov na dátové sklady. Tu sú niektoré z najvýznamnejších:

1. MarkLogic:

MarkLogic je riešenie pre dátové sklady, ktoré uľahčuje a urýchľuje integráciu dát pomocou mnohých podnikových funkcií. Môže dopytovať rôzne typy údajov, ako sú dokumenty, vzťahy a metadáta.

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle je špičková databáza v tomto odbore. Ponúka širokú škálu výberov riešení Data Warehouse pre lokálne aj v cloude. Pomáha optimalizovať zákaznícke skúsenosti zvyšovaním prevádzkovej efektívnosti.

https://www.oracle.com/index.html


3. Amazon RedShift:

Amazon Redshift je nástroj Datawarehouse. Jedná sa o jednoduchý a nákladovo efektívny nástroj na analýzu všetkých typov údajov pomocou štandardných nástrojov SQL a existujúcich nástrojov BI. Umožňuje tiež spúšťanie zložitých dotazov proti petabajtom štruktúrovaných údajov.

https://aws.amazon.com/redshift/?nc2=h_m1

Tu je kompletný zoznam užitočných nástrojov pre dátový sklad.

Osvedčené postupy procesu ETL

Nasledujú osvedčené postupy pre kroky procesu ETL:

Nikdy sa nepokúšajte vyčistiť všetky údaje:

Každá organizácia by chcela mať všetky dáta čisté, ale väčšina z nich nie je pripravená platiť za počkanie alebo nie je pripravená čakať. Vyčistiť to všetko by jednoducho trvalo príliš dlho, takže je lepšie neskúšať vyčistiť všetky dáta.

Nikdy nič nečistite:

Vždy plánujte niečo vyčistiť, pretože najväčším dôvodom pre vybudovanie Data Warehouse je ponúknuť čistejšie a spoľahlivejšie dáta.

Určite náklady na čistenie údajov:

Pred vyčistením všetkých špinavých údajov je dôležité určiť náklady na čistenie každého špinavého dátového prvku.

Ak chcete urýchliť spracovanie dotazu, použite pomocné zobrazenia a indexy:

Ak chcete znížiť náklady na ukladanie, ukladajte súhrnné údaje na diskové pásky. Vyžaduje sa tiež kompromis medzi objemom údajov, ktoré sa majú uložiť, a ich podrobným použitím. Kompromis na úrovni podrobnosti údajov na zníženie nákladov na ukladanie.

Zhrnutie:

  • ETL znamená extrakciu, transformáciu a načítanie.
  • ETL poskytuje metódu presunu údajov z rôznych zdrojov do dátového skladu.
  • V prvom kroku extrakcie sa údaje extrahujú zo zdrojového systému do pracovnej oblasti.
  • V transformačnom kroku sa údaje extrahované zo zdroja očistia a transformujú.
  • Načítanie údajov do cieľového dátového skladu je posledným krokom procesu ETL.