V tomto výučbe o rozdieloch medzi dátovým jazerom a dátovým skladom si ukážeme kľúčové rozdiely medzi dátovým skladom a dátovým jazerom. Ale predtým, ako diskutujeme o rozdiele, najskôr sa naučme „Čo je Data Warehouse?“.
Čo je Data Warehouse?
Data Warehouse je zmes technológií a komponentov pre strategické využitie dát. Zhromažďuje a spravuje údaje z rôznych zdrojov, aby poskytla zmysluplné obchodné informácie. Jedná sa o elektronické ukladanie veľkého množstva informácií určených na dopytovanie a analýzu namiesto spracovania transakcií. Je to proces transformácie údajov na informácie.
Čo je to Data Lake?
Dát Lake je storage úložisko, ktoré je možné uložiť veľké množstvo štruktúrovaných, čiastočne štruktúrovaných a neštruktúrovaných dát. Je to miesto na ukladanie všetkých typov údajov v pôvodnom formáte bez pevných obmedzení týkajúcich sa veľkosti účtu alebo súboru. Ponúka veľké množstvo dátového množstva pre zvýšenie analytického výkonu a natívnu integráciu.
Dátové jazero je ako veľká nádoba, ktorá je veľmi podobná skutočnému jazeru a riekam. Rovnako ako v jazere, aj tu máte niekoľko prítokov; podobne má dátové jazero štruktúrované dáta, neštruktúrované dáta, stroj na stroj, protokoly pretekajúce v reálnom čase.
Koncept dátového skladu:
Data Warehouse ukladá údaje do súborov alebo priečinkov, čo pomáha organizovať a využívať ich na prijímanie strategických rozhodnutí. Tento úložný systém tiež poskytuje viacrozmerný pohľad na atómové a súhrnné údaje. Dôležité funkcie, ktoré sú potrebné na výkon, sú:
- Extrakcia dát
- Čistenie údajov
- Transformácia údajov
- Načítanie a obnovenie dát
Ďalej sa naučíme kľúčový rozdiel medzi Azure Data Lake a dátovým skladom.
KĽÚČOVÝ ROZDIEL
- Data Lake ukladá všetky údaje bez ohľadu na zdroj a ich štruktúru, zatiaľ čo Data Warehouse ukladá údaje v kvantitatívnych metrikách s ich atribútmi.
- Data Lake je úložisko, ktoré ukladá obrovské štruktúrované, pološtruktúrované a neštruktúrované dáta, zatiaľ čo Data Warehouse kombinuje technológie a komponenty, ktoré umožňujú strategické využitie dát.
- Data Lake definuje schému po uložení údajov, zatiaľ čo Data Warehouse definuje schému pred uložením údajov.
- Data Lake používa proces ELT (Extract Load Transform), zatiaľ čo Data Warehouse používa proces ETL (Extract Load Load).
- V porovnaní s Data Lake vs Warehouse je Data Lake ideálny pre tých, ktorí požadujú hĺbkovú analýzu, zatiaľ čo Data Warehouse je ideálny pre prevádzkových používateľov.
Koncept Data Lake:
Data Lake je úložisko veľkej veľkosti, ktoré uchováva veľké množstvo nespracovaných údajov v pôvodnom formáte až do času, ktorý je potrebný. Každý dátový prvok v dátovom jazere má jedinečný identifikátor a je označený súborom rozšírených značiek metadát. Ponúka široké spektrum analytických schopností.
Kľúčový rozdiel medzi Data Lake a Data Warehouse

Rozdiel medzi Data Lake a Data Warehouse
Tu sú kľúčové rozdiely medzi dátovými jazerami a dátovým skladom:
Parametre | Dátové jazero | Dátový sklad |
---|---|---|
Skladovanie | V dátovom jazere sa všetky údaje uchovávajú bez ohľadu na zdroj a jeho štruktúru. Údaje sa uchovávajú v surovej podobe. Transformuje sa, až keď je pripravený na použitie. | Dátový sklad bude pozostávať z údajov extrahovaných z transakčných systémov alebo údajov, ktoré pozostávajú z kvantitatívnych metrík s ich atribútmi. Údaje sa vyčistia a transformujú |
História | Big data technológie používané v dátových jazerách sú relatívne nové. | Koncept dátového skladu bol na rozdiel od veľkých dát používaný už celé desaťročia. |
Zber dát | Zachytáva všetky druhy údajov a štruktúr, pološtruktúrované a neštruktúrované v pôvodnej podobe zo zdrojových systémov. | Zachytáva štruktúrované informácie a organizuje ich do schém definovaných pre účely dátového skladu |
Časová os údajov | Dátové jazerá môžu uchovávať všetky údaje. To zahŕňa nielen údaje, ktoré sa používajú, ale aj údaje, ktoré by sa mohli v budúcnosti použiť. Údaje sa tiež uchovávajú vždy, aby sa vrátili v čase a vykonali analýzu. | V procese vývoja dátového skladu sa značný čas venuje analýze rôznych zdrojov údajov. |
Používatelia | Dátové jazero je ideálne pre používateľov, ktorí sa oddávajú hĺbkovej analýze. Medzi takýchto používateľov patria vedci v oblasti dát, ktorí potrebujú pokročilé analytické nástroje s funkciami ako prediktívne modelovanie a štatistická analýza. | Dátový sklad je ideálny pre prevádzkových používateľov, pretože je dobre štruktúrovaný, ľahko použiteľný a zrozumiteľný. |
Náklady na skladovanie | Ukladanie dát vo veľkých dátových technológiách je relatívne lacné ako ich ukladanie do dátového skladu. | Ukladanie údajov v dátovom sklade je nákladnejšie a časovo náročnejšie. |
Úloha | Dátové súbory môžu obsahovať všetky údaje a typy údajov; umožňuje používateľom prístup k údajom pred transformovaným, vyčisteným a štruktúrovaným procesom. | Dátové sklady môžu poskytnúť náhľad na preddefinované otázky pre vopred definované dátové typy. |
Doba spracovania | Dátové jazerá umožňujú používateľom prístup k dátam skôr, ako budú transformované, vyčistené a štruktúrované. Umožňuje tak používateľom rýchlejšie sa dostať k ich výsledkom v porovnaní s tradičným dátovým skladom. | Dátové sklady ponúkajú náhľad na preddefinované otázky pre preddefinované dátové typy. Akékoľvek zmeny v dátovom sklade teda vyžadovali viac času. |
Pozícia schémy | Schéma sa zvyčajne definuje po uložení údajov. To ponúka vysokú svižnosť a ľahký zber dát, vyžaduje si to však prácu na konci procesu | Schéma sa zvyčajne definuje pred uložením údajov. Vyžaduje prácu na začiatku procesu, ale ponúka výkon, zabezpečenie a integráciu. |
Spracovanie dát | Data Lakes použitie procesu ELT (Extract Load Transform). | Dátový sklad používa tradičný proces ETL (Extract Transform Load). |
Sťažujte sa | Údaje sa uchovávajú v surovej podobe. Transformuje sa, až keď je pripravený na použitie. | Hlavnou sťažnosťou proti dátovým skladom je neschopnosť alebo problém, ktorému čelia pri pokusoch o zmenu v nich. |
Kľúčové výhody | Integrujú rôzne typy údajov, aby prišli s úplne novými otázkami, pretože títo používatelia pravdepodobne nebudú využívať dátové sklady, pretože bude možno potrebné ísť nad rámec jeho možností. | Väčšina používateľov v organizácii je funkčných. Týmto typom používateľov záleží iba na prehľadoch a kľúčových metrikách výkonu. |