Čo je to ETL?
ETL je skratka pre extrakciu, transformáciu a načítanie. V tomto procese nástroj ETL extrahuje údaje z rôznych zdrojových systémov RDBMS, potom transformuje údaje, ako sú výpočty, zreťazenia atď., A potom údaje načíta do systému Data Warehouse.
V ETL sú dáta toky zo zdroja do cieľa. V procese transformácie procesov ETL sa stará o všetky zmeny údajov.
Čo je to ELT?
ELT je iná metóda pohľadu na prístup nástrojov k pohybu údajov. Namiesto transformácie údajov pred ich zápisom umožňuje ELT cieľovému systému vykonať transformáciu. Dáta sa najskôr skopírovali do cieľa a potom sa transformovali na miesto.
ELT sa zvyčajne používa s databázami bez Sql, ako je klaster Hadoop, dátové zariadenie alebo inštalácia cloudu.
KĽÚČOVÝ ROZDIEL
- ETL znamená Extract, Transform and Load, zatiaľ čo ELT znamená Extract, Load, Transform.
- ETL načíta údaje najskôr do pripravovacieho servera a potom do cieľového systému, zatiaľ čo ELT načíta údaje priamo do cieľového systému.
- Model ETL sa používa pre miestne, relačné a štruktúrované údaje, zatiaľ čo ELT sa používa pre škálovateľné cloudové štruktúrované a neštruktúrované zdroje údajov.
- ETL sa používa hlavne na malé množstvo údajov, zatiaľ čo ELT sa používa na veľké množstvo údajov.
- ETL neposkytuje podporu dátových jazier, zatiaľ čo ELT poskytuje podporu dátových jazier.
- ETL sa dá ľahko implementovať, zatiaľ čo ELT vyžaduje na vykonávanie a údržbu špecializované schopnosti.
Rozdiel medzi ETL a ELT
Proces ETL a ELT sa líši v nasledujúcich parametroch:
Parametre | ETL | ELT |
---|---|---|
Proces | Dáta sú transformované na pracovnom serveri a potom prenesené do Datawarehouse DB. | Údaje zostávajú v databáze Datawarehouse. |
Používanie kódu | Používa
| Používa sa na veľké objemy dát |
Transformácia | Transformácie sa vykonávajú v serveri ETL / pracovnej oblasti. | Transformácie sa vykonávajú v cieľovom systéme |
Časové zaťaženie | Dáta sa najskôr načítali do fázy a potom sa načítali do cieľového systému. Časovo náročné. | Dáta načítané do cieľového systému iba raz. Rýchlejšie. |
Časová transformácia | Proces ETL musí čakať na dokončenie transformácie. S narastajúcou veľkosťou údajov sa zvyšuje čas transformácie. | V procese ELT rýchlosť nikdy nezávisí od veľkosti dát. |
Údržba času | Vyžaduje maximálnu údržbu, pretože je potrebné vyberať údaje, ktoré sa majú načítať a transformovať. | Nízka údržba, pretože údaje sú vždy k dispozícii. |
Zložitosť implementácie | V počiatočnom štádiu sa ľahšie implementuje. | Na implementáciu procesu ELT by organizácia mala mať hlboké znalosti nástrojov a odborných zručností. |
Podpora pre dátový sklad | Model ETL používaný pre miestne, relačné a štruktúrované údaje. | Používa sa v škálovateľnej cloudovej infraštruktúre, ktorá podporuje štruktúrované a neštruktúrované zdroje údajov. |
Podpora Data Lake | Nepodporuje. | Umožňuje použitie Data Lake s neštruktúrovanými dátami. |
Zložitosť | Proces ETL načítava iba dôležité údaje identifikované v čase návrhu. | Tento proces zahŕňa vývoj od výstupu dozadu a načítanie iba relevantných údajov. |
Náklady | Vysoké náklady pre malé a stredné podniky. | Nízke vstupné náklady pomocou online softvéru ako servisnej platformy. |
Vyhľadávania | V procese ETL musia byť v pracovnej oblasti k dispozícii fakty aj dimenzie. | Všetky údaje budú k dispozícii, pretože extrakcia a načítanie sa vyskytujú v jednej akcii. |
Agregácie | Zložitosť sa zvyšuje s ďalším množstvom údajov v množine údajov. | Sila cieľovej platformy dokáže rýchlo spracovať značné množstvo dát. |
Výpočty | Prepíše existujúci stĺpec alebo je potrebné pridať množinu údajov a presunúť na cieľovú platformu. | Ľahko pridajte vypočítaný stĺpec do existujúcej tabuľky. |
Zrelosť | Tento proces sa používa už viac ako dve desaťročia. Je to dobre zdokumentované a ľahko dostupné najlepšie postupy. | Relatívne nová koncepcia a implementácia zložitá. |
Hardware | Väčšina nástrojov má jedinečné hardvérové požiadavky, ktoré sú drahé. | Náklady na hardware Saas nie sú problémom. |
Podpora pre neštruktúrované dáta | Väčšinou podporuje relačné údaje | Podpora neštruktúrovaných údajov je okamžite k dispozícii. |