Čo je to Data Lake?
Data Lake je úložisko, ktoré umožňuje ukladanie veľkého množstva štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov. Je to miesto na ukladanie všetkých typov údajov v pôvodnom formáte bez pevných obmedzení týkajúcich sa veľkosti účtu alebo súboru. Ponúka veľké množstvo dát na zvýšenie analytického výkonu a natívnej integrácie.
Dátové jazero je ako veľká nádoba, ktorá je veľmi podobná skutočnému jazeru a riekam. Rovnako ako v jazere, do ktorého prichádza viac prítokov, má dátové jazero štruktúrované údaje, neštruktúrované údaje, stroj za strojom, protokoly pretekajúce v reálnom čase.
Data Lake demokratizuje údaje a predstavuje nákladovo efektívny spôsob ukladania všetkých údajov organizácie na neskoršie spracovanie. Výskumný analytik sa môže sústrediť na hľadanie významových vzorcov v dátach, a nie v samotných dátach.
Na rozdiel od hierarchického domu Dataware, kde sú údaje uložené v súboroch a priečinkoch, má Data lake plochú architektúru. Každému údajovému prvku v dátovom jazere je pridelený jedinečný identifikátor a je označený súborom metaúdajových informácií.
V tomto návode sa naučíte
- Čo je to Data Lake?
- Prečo Data Lake?
- Architektúra Data Lake
- Kľúčové koncepty Lake Data
- Fázy zrelosti Data Lake
- Najlepšie postupy pre implementáciu Data Lake:
- Rozdiel medzi dátovými jazerami a dátovým skladom
- Výhody a riziká používania Data Lake:
Prečo Data Lake?
Hlavným cieľom výstavby dátového jazera je ponúknuť vedeckým pracovníkom nerafinovaný pohľad na dáta.
Dôvody použitia Data Lake sú:
- S nástupom úložných mechanizmov, ako je Hadoop, bolo ukladanie rôznorodých informácií ľahké. Nie je potrebné pomocou Data Lake modelovať dáta do schémy pre celý podnik.
- S nárastom objemu údajov, kvality údajov a metadát sa zvyšuje aj kvalita analýz.
- Data Lake ponúka obchodnú agilitu
- Strojové učenie a umelá inteligencia môžu byť použité na tvorbu ziskových predpovedí.
- Poskytuje implementačnej organizácii konkurenčnú výhodu.
- Neexistuje žiadna štruktúra dátového sila. Data Lake poskytuje zákazníkom 360-stupňový prehľad a robí analýzu robustnejšou.
Architektúra Data Lake
Obrázok ukazuje architektúru Business Data Lake. Dolné úrovne predstavujú údaje, ktoré sú väčšinou v pokoji, zatiaľ čo horné úrovne zobrazujú transakčné údaje v reálnom čase. Tieto údaje prechádzajú systémom bez alebo s nízkou latenciou. Nasledujú dôležité úrovne v architektúre Data Lake Architecture:
- Úroveň príjmu : Úrovne na ľavej strane zobrazujú zdroje údajov. Dáta mohli byť načítané do dátového jazera v dávkach alebo v reálnom čase
- Úroveň štatistík: Úrovne vpravo predstavujú stránku výskumu, kde sa používajú prehľady zo systému. Na analýzu údajov je možné použiť dotazy SQL, NoSQL alebo dokonca Excel.
- HDFS je nákladovo efektívne riešenie pre štruktúrované aj neštruktúrované dáta. Je to pristávacia zóna pre všetky údaje, ktoré sú v systéme v pokoji.
- Destilačná vrstva berie údaje z pneumatík na uskladnenie a prevádza ich na štruktúrované údaje pre ľahšiu analýzu.
- Spracovanie analytických algoritmov na najvyššej úrovni a dotazov používateľov s rôznymi interaktívnymi dávkami v reálnom čase na generovanie štruktúrovaných údajov pre ľahšiu analýzu.
- Správa a monitorovanie systému sa riadi úrovňou zjednotených operácií . Zahŕňa audit a správu odbornosti, správu údajov, správu pracovných tokov.
Kľúčové koncepty Lake Data
Nasledujú kľúčové koncepty Data Data Lake, ktorým je potrebné porozumieť, aby sme úplne porozumeli architektúre Data Lake
Príjem dát
Data Ingestion umožňuje konektorom získať údaje z rôznych zdrojov údajov a načítať ich do dátového jazera.
Príjem dát podporuje:
- Všetky typy štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov.
- Viaceré požitia ako dávkové, v reálnom čase, jednorazové načítanie.
- Mnoho typov zdrojov údajov, ako sú databázy, webové servery, e-maily, internet vecí a FTP.
Úložisko dát
Úložisko dát by malo byť škálovateľné, ponúka nákladovo efektívne úložisko a umožňuje rýchly prístup k prieskumu údajov. Mal by podporovať rôzne dátové formáty.
Správa údajov
Správa údajov je proces riadenia dostupnosti, použiteľnosti, bezpečnosti a integrity údajov používaných v organizácii.
Bezpečnosť
Zabezpečenie je potrebné implementovať vo všetkých vrstvách dátového jazera. Začína sa to skladovaním, odhaľovaním a spotrebou. Základnou potrebou je zastaviť prístup neoprávneným používateľom. Mal by podporovať rôzne nástroje na prístup k údajom pomocou ľahko ovládateľného grafického používateľského rozhrania a panelov.
Autentifikácia, účtovníctvo, autorizácia a ochrana údajov sú niektoré dôležité prvky bezpečnosti dátového jazera.
Kvalita údajov:
Kvalita údajov je podstatnou súčasťou architektúry Data Lake. Údaje sa používajú na presnú obchodnú hodnotu. Extrakcia štatistík z nekvalitných údajov povedie k zlej kvalite štatistík.
Zisťovanie údajov
Zisťovanie údajov je ďalšou dôležitou etapou predtým, ako začnete s prípravou údajov alebo analýzou. V tejto fáze sa na vyjadrenie porozumenia údajov používa technika označovania organizovaním a interpretáciou údajov prijatých v dátovom jazere.
Audit údajov
Dve hlavné úlohy auditu údajov sú sledovanie zmien v kľúčovej množine údajov.
- Sledovanie zmien dôležitých prvkov množiny údajov
- Zachytáva, ako / kedy / a kto sa mení na tieto prvky.
Audit údajov pomáha hodnotiť riziko a súlad s predpismi.
Dátová línia
Táto súčasť sa zaoberá pôvodom údajov. Zaoberá sa hlavne tým, kam sa v čase posúva a čo sa s ním deje. Zjednodušuje opravy chýb v procese analýzy údajov z miesta pôvodu do miesta určenia.
Prieskum údajov
Je to začiatočná fáza analýzy údajov. Pomáha určiť správny súbor údajov, ktorý je nevyhnutný pred začatím prieskumu údajov.
Všetky uvedené komponenty musia spolupracovať, aby mohli hrať dôležitú úlohu pri budovaní Data Lake ľahko sa vyvíjať a skúmať prostredie.
Fázy zrelosti Data Lake
Fázy definície Data Lake Maturity sa líšia od učebnice po druhú. Aj keď podstata zostáva rovnaká. Po zrelosti je definícia scény z pohľadu laika.
Fáza 1: Spracúvajte a prijímajte údaje vo veľkom rozsahu
Táto prvá etapa dátovej zrelosti zahŕňa zlepšenie schopnosti transformovať a analyzovať údaje. Tu musia vlastníci firiem nájsť nástroje podľa svojich schopností na získavanie ďalších údajov a vytváranie analytických aplikácií.
Fáza 2: Budovanie analytického svalu
Toto je druhá etapa, ktorá zahŕňa zlepšenie schopnosti transformovať a analyzovať údaje. V tejto fáze používajú spoločnosti nástroj, ktorý je pre ich zručnosti najvhodnejší. Začnú získavať viac údajov a budovať aplikácie. Tu sa spoločne využívajú schopnosti podnikového dátového skladu a dátového jazera.
Fáza 3: EDW a Data Lake pracujú jednotne
Tento krok zahŕňa získanie údajov a analýz do rúk čo najväčšiemu počtu ľudí. V tejto fáze dátové jazero a podnikový dátový sklad začnú pracovať v únii. Obaja hrajú svoju úlohu v analytike
Fáza 4: Podnikateľské schopnosti v jazere
V tejto fáze zrelosti dátového jazera sú do dátového jazera pridané podnikové možnosti. Prijatie riadenia informácií, schopností riadenia životného cyklu informácií a správy metadát. Len veľmi málo organizácií však môže dosiahnuť túto úroveň vyspelosti, ale tento vývoj sa v budúcnosti zvýši.
Najlepšie postupy pre implementáciu Data Lake:
- Architektonické komponenty, ich interakcia a identifikované produkty by mali podporovať natívne dátové typy
- Dizajn Data Lake by sa mal riadiť tým, čo je k dispozícii, a nie tým, čo sa vyžaduje. Schéma a požiadavka na údaje nie sú definované, kým sa ich neopýtate
- Dizajn by sa mal riadiť jednorazovými komponentmi integrovanými do servisného API.
- Zisťovanie, prijímanie, ukladanie, správa, kvalita, transformácia a vizualizácia údajov by sa malo riadiť nezávisle.
- Architektúra Data Lake by mala byť šitá na mieru konkrétnemu odvetviu. Mal by zabezpečiť, aby schopnosti potrebné pre túto doménu boli neoddeliteľnou súčasťou dizajnu
- Dôležitá je rýchlejšia integrácia novoobjavených zdrojov údajov
- Data Lake pomáha prispôsobenej správe získať maximálnu hodnotu
- Data Lake by mal podporovať existujúce techniky a metódy správy podnikových údajov
Výzvy pri budovaní dátového jazera:
- V Data Lake je objem dát vyšší, takže proces musí byť viac závislý od programovej správy
- Je ťažké narábať s riedkymi, neúplnými a nestálymi údajmi
- Širší rozsah množiny údajov a zdrojov vyžaduje väčšie riadenie a podporu údajov
Rozdiel medzi dátovými jazerami a dátovým skladom
Parametre | Dátové jazerá | Dátový sklad |
---|---|---|
Údaje | Dátové jazerá ukladajú všetko. | Data Warehouse sa zameriava iba na obchodné procesy. |
Spracovanie | Údaje sú hlavne nespracované | Vysoko spracované údaje. |
Typ údajov | Môže to byť neštruktúrované, pološtruktúrované a štruktúrované. | Je väčšinou v tabuľkovej forme a štruktúre. |
Úloha | Zdieľajte správu údajov | Optimalizované na načítanie údajov |
Svižnosť | Vysoko agilný, konfigurujte a prekonfigurujte podľa potreby. | V porovnaní s dátovým jazerom je menej agilný a má pevnú konfiguráciu. |
Používatelia | Data Lake je väčšinou používaný Data Scientist | Obchodní profesionáli široko využívajú dátový sklad |
Skladovanie | Dizajn dátových jazier pre lacné ukladanie. | Využíva sa drahé úložisko, ktoré poskytuje rýchlu odozvu |
Bezpečnosť | Ponúka menšiu kontrolu. | Umožňuje lepšiu kontrolu nad údajmi. |
Výmena EDW | Dátové jazero môže byť zdrojom pre EDW | Doplnkový k EDW (nie výmena) |
Schéma | Schéma čítania (žiadne preddefinované schémy) | Schéma pri zápise (preddefinované schémy) |
Spracovanie dát | Pomáha pri rýchlom prijímaní nových údajov. | Zavádzanie nového obsahu je náročné na čas. |
Podrobnosť údajov | Údaje sú na nízkej úrovni podrobností alebo podrobností. | Údaje na súhrnnej alebo agregovanej úrovni podrobností. |
Náradie | Môže používať open source / nástroje ako Hadoop / Map Reduce | Väčšinou komerčné nástroje. |
Výhody a riziká používania Data Lake:
Tu sú niektoré hlavné výhody pri používaní Data Lake:
- Plne pomáha s ionizáciou produktu a pokročilou analýzou
- Ponúka nákladovo efektívnu škálovateľnosť a flexibilitu
- Hodnota ponuky z neobmedzeného počtu dátových typov
- Znižuje dlhodobé náklady na vlastníctvo
- Umožňuje ekonomické ukladanie súborov
- Rýchlo sa dá prispôsobiť zmenám
- Hlavnou výhodou dátového jazera je centralizácia rôznych zdrojov obsahu
- Používatelia z rôznych oddelení, ktorí môžu byť rozptýlení po celom svete, môžu mať flexibilný prístup k údajom
Riziko používania Data Lake:
- Po určitom čase môže Data Lake stratiť relevantnosť a dynamiku
- S navrhovaním Data Lake je spojené väčšie riziko
- Neštruktúrované údaje môžu viesť k nevládnemu chao, nepoužiteľným údajom, rôznorodým a zložitým nástrojom, celopodnikovej spolupráci, jednotnej, konzistentnej a bežnej
- Zvyšuje tiež náklady na ukladanie a výpočet
- Neexistuje spôsob, ako získať poznatky od ostatných, ktorí s údajmi pracovali, pretože neexistuje záznam o línii nálezov predchádzajúcich analytikov
- Najväčším rizikom dátových jazier je bezpečnosť a kontrola prístupu. Niekedy je možné údaje vložiť do jazera bez dozoru, pretože niektoré z nich môžu vyžadovať ochranu súkromia a reguláciu
Zhrnutie:
- Data Lake je úložisko, ktoré umožňuje ukladanie veľkého množstva štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov.
- Hlavným cieľom výstavby dátového jazera je ponúknuť vedeckým pracovníkom nerafinovaný pohľad na dáta.
- Úroveň zjednotených operácií, úroveň spracovania, úroveň destilácie a HDFS sú dôležité vrstvy architektúry Data Lake Architecture
- Príjem dát, ukladanie dát, kvalita dát, audit údajov, prieskum dát, objav dát sú niektoré dôležité komponenty architektúry Data Lake.
- Dizajn Data Lake by sa mal riadiť tým, čo je k dispozícii, a nie tým, čo sa vyžaduje.
- Data Lake znižuje dlhodobé náklady na vlastníctvo a umožňuje ekonomické ukladanie súborov
- Najväčším rizikom dátových jazier je bezpečnosť a kontrola prístupu. Niekedy je možné údaje vložiť do jazera bez dozoru, pretože niektoré z nich môžu vyžadovať ochranu súkromia a reguláciu.