Architektúra, koncepty a komponenty dátového skladu

Obsah:

Anonim

Koncepty dátového skladu

Základnou koncepciou dátového skladu je uľahčenie jednej verzie pravdy pre spoločnosť pri rozhodovaní a predpovedaní. Dátový sklad je informačný systém, ktorý obsahuje historické a komutatívne údaje z jedného alebo viacerých zdrojov. Koncepty dátových skladov zjednodušujú proces vykazovania a analýzy organizácií.

Charakteristika dátového skladu

Koncepty dátového skladu majú nasledujúce vlastnosti:

  • Predmetovo orientované
  • Integrovaný
  • Časový variant
  • Neprchavý

Predmetovo orientované

Dátový sklad je zameraný na predmet, pretože namiesto prebiehajúcich operácií spoločností ponúka informácie týkajúce sa témy. Týmito subjektmi môžu byť predaj, marketing, distribúcia atď.

Dátový sklad sa nikdy nezameriava na prebiehajúce operácie. Namiesto toho kládol dôraz na modelovanie a analýzu údajov pre rozhodovanie . Poskytuje tiež jednoduchý a výstižný pohľad na konkrétny subjekt vylúčením údajov, ktoré nie sú užitočné na podporu rozhodovacieho procesu.

Integrovaný

Integrácia v Data Warehouse znamená založenie spoločnej mernej jednotky pre všetky podobné údaje z odlišnej databázy. Údaje musia byť tiež uložené v Datawarehouse bežným a všeobecne prijateľným spôsobom.

Dátový sklad sa vyvíja integráciou údajov z rôznych zdrojov, ako sú mainframe, relačné databázy, ploché súbory atď. Okrem toho musí zachovávať konzistentné konvencie názvov, formát a kódovanie.

Táto integrácia pomáha pri efektívnej analýze údajov. Musí sa zabezpečiť konzistentnosť v názvových konvenciách, mierkach atribútov, štruktúre kódovania atď. Uvažujme o nasledujúcom príklade:

Vo vyššie uvedenom príklade existujú tri rôzne aplikácie označené ako A, B a C. Informácie uložené v týchto aplikáciách sú pohlavie, dátum a zostatok. Údaje každej aplikácie sa však ukladajú iným spôsobom.

  • V poli Aplikácia A pohlavie ukladajte logické hodnoty ako M alebo F.
  • V poli pohlavia aplikácie B je číselná hodnota,
  • V aplikácii Aplikácia C je pole pohlavia uložené vo forme znakovej hodnoty.
  • To isté platí pre dátum a zostatok

Po transformácii a vyčistení sa však všetky tieto údaje uložia v dátovom sklade v bežnom formáte.

Časová varianta

Časový horizont pre dátový sklad je v porovnaní s operačnými systémami dosť rozsiahly. Údaje zhromaždené v dátovom sklade sa rozpoznávajú s konkrétnym obdobím a poskytujú informácie z historického hľadiska. Obsahuje prvok času, výslovne alebo implicitne.

Jedno také miesto, kde sa dátová odchýlka zobrazenia údajov Datawarehouse nachádza v štruktúre kľúča záznamu. Každý primárny kľúč obsiahnutý v DW by mal mať buď implicitne, alebo explicitne časový prvok. Ako deň, týždeň, mesiac atď.

Ďalším aspektom časovej odchýlky je, že po vložení údajov do skladu ich nie je možné aktualizovať ani zmeniť.

Neprchavý

Dátový sklad je tiež energeticky nezávislý, čo znamená, že predchádzajúce údaje sa nevymažú, keď sa do nich zadajú nové údaje.

Údaje sú iba na čítanie a pravidelne sa obnovujú. To tiež pomáha analyzovať historické údaje a pochopiť, čo a kedy sa stalo. Nevyžaduje mechanizmy transakčných procesov, obnovy a kontroly súbežnosti.

Činnosti ako mazanie, aktualizácia a vkladanie, ktoré sa vykonávajú v prostredí prevádzkovej aplikácie, sú v prostredí dátového skladu vynechané. V dátovom sklade sú iba dva typy dátových operácií

  1. Načítavajú sa údaje
  2. Prístup k údajom

Tu uvádzame niekoľko hlavných rozdielov medzi Application a Data Warehouse

Prevádzková aplikácia Dátový sklad
Komplexný program musí byť kódovaný, aby sa zabezpečilo, že procesy aktualizácie údajov zachovávajú vysokú integritu konečného produktu. Tento druh problémov sa nevyskytuje, pretože sa nevykonáva aktualizácia údajov.
Údaje sa umiestňujú v normalizovanej podobe, aby sa zabezpečila minimálna redundancia. Údaje sa neukladajú v normalizovanej podobe.
Technológia potrebná na podporu otázok transakcií, obnovy dát, vrátenia zmien a riešenia, pretože ich uviaznutie je dosť zložité. Ponúka relatívnu jednoduchosť technológie.

Architektúra dátového skladu

Architektúra dátových skladov je zložitá, pretože ide o informačný systém, ktorý obsahuje historické a komutatívne údaje z viacerých zdrojov. Existujú 3 prístupy na konštrukciu vrstiev Data Warehouse: Single Tier, Two Tier a Three Tier. Táto trojvrstvová architektúra Data Warehouse je vysvetlená nižšie.

Jednostupňová architektúra

Cieľom jednej vrstvy je minimalizovať množstvo uložených údajov. Týmto cieľom je odstrániť nadbytočnosť údajov. Táto architektúra sa v praxi často nepoužíva.

Dvojstupňová architektúra

Dvojvrstvová architektúra je jednou z vrstiev Data Warehouse, ktorá oddeľuje fyzicky dostupné zdroje a dátový sklad. Táto architektúra sa nedá rozšíriť a tiež nepodporuje veľké množstvo koncových používateľov. Má tiež problémy s pripojením z dôvodu sieťových obmedzení.

Trojvrstvová architektúra dátových skladov

Toto je najbežnejšie používaná architektúra dátového skladu.

Skladá sa z najvyššej, strednej a spodnej vrstvy.

  1. Spodná vrstva: Databáza serverov Datawarehouse ako spodná vrstva. Spravidla ide o systém relačnej databázy. Dáta sú vyčistené, transformované a načítané do tejto vrstvy pomocou nástrojov typu back-end.
  2. Stredná vrstva: Strednou vrstvou v dátovom sklade je server OLAP, ktorý sa implementuje pomocou modelu ROLAP alebo MOLAP. Pre používateľa predstavuje táto aplikačná vrstva abstrahovaný pohľad na databázu. Táto vrstva funguje aj ako sprostredkovateľ medzi koncovým používateľom a databázou.
  3. Najvyššia úroveň: Najvyššia úroveň je front-endová vrstva klienta. Najvyššou úrovňou sú nástroje a API, ktoré pripájate a získavate údaje z dátového skladu. Môže to byť Dotazovacie nástroje, nástroje na tvorbu prehľadov, nástroje na správu dotazov, nástroje na analýzu a nástroje na dolovanie údajov.

Komponenty Datawarehouse

Dozvieme sa o komponentoch Datawarehouse a architektúre dátového skladu pomocou diagramu, ako je uvedené nižšie:

Architektúra dátového skladu

Dátový sklad je založený na serveri RDBMS, ktorý je centrálnym úložiskom informácií obklopeným niektorými kľúčovými komponentmi dátového skladu, aby bolo celé prostredie funkčné, spravovateľné a prístupné.

Existuje hlavne päť komponentov dátového skladu:

Databáza dátového skladu

Centrálna databáza je základom prostredia dátových skladov. Táto databáza je implementovaná na technológii RDBMS. Aj keď je tento druh implementácie obmedzený skutočnosťou, že tradičný systém RDBMS je optimalizovaný na spracovanie transakčných databáz a nie na skladovanie údajov. Napríklad dotaz ad-hoc, spojenia viacerých tabuliek, agregácie sú náročné na zdroje a spomaľujú výkon.

Preto sa používajú alternatívne prístupy k databáze, ako je uvedené nižšie -

  • V dátovom sklade sa relačné databázy umiestňujú paralelne, aby sa umožnila škálovateľnosť. Paralelné relačné databázy tiež umožňujú zdieľanú pamäť alebo model zdieľaného ničoho na rôznych konfiguráciách viacerých procesorov alebo masívne paralelných procesorov.
  • Nové štruktúry indexov sa používajú na obídenie skenovania relačných tabuliek a na zvýšenie rýchlosti.
  • Používanie multidimenzionálnej databázy (MDDB) na prekonanie akýchkoľvek obmedzení, ktoré sú kladené z dôvodu relačných modelov dátového skladu. Príklad: Essbase od spoločnosti Oracle.

Nástroje na získavanie, akvizíciu, čistenie a transformáciu (ETL)

Nástroje na získavanie, transformáciu a migráciu údajov sa používajú na vykonávanie všetkých prevodov, sumarizácií a všetkých zmien potrebných na transformáciu údajov do jednotného formátu v dátovom sklade. Nazývajú sa tiež Nástroje na extrakciu, transformáciu a načítanie (ETL).

Medzi ich funkcie patrí:

  • Anonymizujte údaje podľa regulačných ustanovení.
  • Eliminácia nežiaducich údajov v operačných databázach z načítania do dátového skladu.
  • Vyhľadajte a nahraďte bežné názvy a definície údajov prichádzajúcich z rôznych zdrojov.
  • Výpočet súhrnov a odvodených údajov
  • V prípade chýbajúcich údajov ich vyplňte predvolenými hodnotami.
  • Duplikované opakované údaje prichádzajúce z viacerých zdrojov údajov.

Tieto nástroje na extrakciu, transformáciu a načítanie môžu generovať úlohy cron, úlohy na pozadí, programy Cobol, shell skripty atď., Ktoré pravidelne aktualizujú údaje v dátovom sklade. Tieto nástroje sú tiež užitočné pri údržbe metadát.

Tieto nástroje ETL sa musia vyrovnať s problémami heterogenity databáz a údajov.

Metadáta

Názov Meta Data naznačuje niektoré technologické koncepty dátového skladu na vysokej úrovni. Je to však celkom jednoduché. Metadáta sú údaje o údajoch, ktoré definujú dátový sklad. Používa sa na budovanie, údržbu a správu dátového skladu.

V architektúre Data Warehouse Architecture hrajú metaúdaje dôležitú úlohu, pretože určujú zdroj, použitie, hodnoty a vlastnosti údajov dátového skladu. Tiež definuje, ako je možné údaje meniť a spracovávať. Je úzko prepojený s dátovým skladom.

Napríklad riadok v databáze predaja môže obsahovať:

4030 KJ732 299.90

Toto sú nezmyselné údaje, kým sa neporadíme s metou, ktorá nám hovorí, že to tak bolo

  • Číslo modelu: 4030
  • ID obchodného agenta: KJ732
  • Celková suma predaja 299,90 dolárov

Preto sú metaúdaje nevyhnutné zložky pri transformácii údajov na vedomosti.

Metadáta pomáhajú odpovedať na nasledujúce otázky

  • Aké tabuľky, atribúty a kľúče obsahuje Data Warehouse?
  • Odkiaľ pochádzajú údaje?
  • Koľkokrát sa údaje načítajú znova?
  • Aké transformácie boli použité pri očistení?

Metadáta možno rozdeliť do nasledujúcich kategórií:

  1. Technické metadáta : Tento druh metadát obsahuje informácie o sklade, ktoré používajú dizajnéri a správcovia dátového skladu.
  2. Obchodné metaúdaje: Tento druh metadát obsahuje podrobnosti, ktoré koncovým používateľom poskytujú ľahko pochopiteľné informácie uložené v dátovom sklade.

Dotazovacie nástroje

Jedným z hlavných objektov dátového skladu je poskytovanie informácií podnikom pri strategickom rozhodovaní. Dotazové nástroje umožňujú používateľom komunikovať so systémom dátového skladu.

Tieto nástroje spadajú do štyroch rôznych kategórií:

  1. Nástroje na dopytovanie a vykazovanie
  2. Nástroje na vývoj aplikácií
  3. Nástroje na dolovanie údajov
  4. OLAP nástroje

1. Dotazovacie a reportovacie nástroje:

Nástroje na dopytovanie a vykazovanie je možné ďalej rozdeliť na

  • Nástroje na vykazovanie
  • Nástroje spravovaného dotazu

Nástroje na tvorbu prehľadov:

Nástroje na tvorbu prehľadov je možné ďalej rozdeliť na nástroje na tvorbu produkcie a nástroj na tvorbu zostáv pre počítače.

  1. Autori správ: Tento druh nástroja na tvorbu prehľadov sú nástroje určené pre koncových používateľov na ich analýzu.
  2. Hlásenie výroby: Tento druh nástrojov umožňuje organizáciám generovať pravidelné prevádzkové správy. Podporuje tiež hromadné dávkové úlohy, ako je tlač a výpočet. Niektoré populárne nástroje na vytváranie prehľadov sú Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Nástroje spravovaného dotazu:

Tento druh prístupových nástrojov pomáha koncovým používateľom vyriešiť chyby v databáze a SQL a databázovej štruktúre vložením metovrstvy medzi používateľov a databázu.

2. Nástroje na vývoj aplikácií:

Niekedy zabudované grafické a analytické nástroje nespĺňajú analytické potreby organizácie. V takýchto prípadoch sa vlastné správy vyvíjajú pomocou nástrojov na vývoj aplikácií.

3. Nástroje na dolovanie údajov:

Data mining je proces objavovania zmysluplnej novej korelácie, charakteristík a trendov pomocou ťažby veľkého množstva dát. Na automatizáciu tohto procesu sa používajú nástroje na dolovanie údajov.

4. Nástroje OLAP:

Tieto nástroje sú založené na koncepciách multidimenzionálnej databázy. Umožňuje používateľom analyzovať údaje pomocou zložitých a komplexných viacrozmerných zobrazení.

Architektúra zbernice dátových skladov

Zbernica dátových skladov určuje tok údajov vo vašom sklade. Dátový tok v dátovom sklade možno kategorizovať ako prítok, prúdenie, prúdenie, odtok a tok meta.

Pri navrhovaní dátovej zbernice je potrebné vziať do úvahy spoločné dimenzie, fakty naprieč dátovými trhmi.

Data Marts

Dátový trh je prístupová vrstva, ktorá sa používa na získanie údajov smerom k používateľom. Predstavuje sa ako možnosť veľkého dátového skladu, pretože jeho zostavenie trvá menej času a peňazí. Neexistuje však žiadna štandardná definícia dátového toku, ktorá by sa od človeka k človeku líšila.

Jednoduchým slovom Data mart je dcérskou spoločnosťou dátového skladu. Dátový trh sa používa na rozdelenie údajov, ktoré sa vytvárajú pre konkrétnu skupinu používateľov.

Dátové tržnice je možné vytvárať v tej istej databáze ako Datawarehouse alebo fyzicky samostatnej databáze.

Najlepšie postupy pre architektúru dátového skladu

Pri navrhovaní architektúry Data Warehouse Architecture je potrebné postupovať podľa uvedených najlepších postupov:

  • Používajte modely dátových skladov, ktoré sú optimalizované na získavanie informácií, čo môže byť dimenzionálny režim, denormalizovaný alebo hybridný prístup.
  • Vyberte vhodný prístup pri navrhovaní ako prístup zhora nadol a zdola nahor v Data Warehouse
  • Musíte sa ubezpečiť, že údaje sú spracovávané rýchlo a presne. Zároveň by ste mali zvoliť prístup, ktorý konsoliduje údaje do jednej verzie pravdy.
  • Starostlivo navrhnite proces získavania a čistenia údajov pre dátový sklad.
  • Navrhnite architektúru MetaData, ktorá umožňuje zdieľanie metadát medzi komponentmi Data Warehouse
  • Zvážte implementáciu modelu ODS, keď je potreba získavania informácií blízko spodnej časti pyramídy na získavanie údajov alebo keď je potrebné získať prístup k viacerým prevádzkovým zdrojom.
  • Jeden by sa mal ubezpečiť, že dátový model je integrovaný a nielen konsolidovaný. V takom prípade by ste mali zvážiť údajový model 3NF. Je tiež ideálny na získanie nástrojov na čistenie ETL a údajov

Zhrnutie:

  • Dátový sklad je informačný systém, ktorý obsahuje historické a komutatívne údaje z jedného alebo viacerých zdrojov. Týmito zdrojmi môžu byť tradičný Data Warehouse, Cloud Data Warehouse alebo Virtual Data Warehouse.
  • Dátový sklad je zameraný na predmet, pretože ponúka informácie o predmete namiesto prebiehajúcich operácií organizácie.
  • Integrácia v Data Warehouse znamená založenie spoločnej mernej jednotky pre všetky podobné údaje z rôznych databáz
  • Dátový sklad je tiež energeticky nezávislý, čo znamená, že predchádzajúce údaje sa nevymažú, keď sa do nich zadajú nové údaje.
  • Datawarehouse je časová varianta, pretože dáta v DW majú vysokú trvanlivosť.
  • Existuje hlavne 5 komponentov architektúry Data Warehouse: 1) Databáza 2) Nástroje ETL 3) Meta dáta 4) Dotazovacie nástroje 5) DataMarts
  • Jedná sa o štyri hlavné kategórie dotazovacích nástrojov 1. Dotaz a reporting, nástroje 2. Nástroje na vývoj aplikácií, 3. Nástroje na dolovanie údajov 4. Nástroje OLAP
  • Nástroje na získavanie, transformáciu a migráciu údajov sa používajú na vykonávanie všetkých prepočtov a sumarizácií.
  • V architektúre Data Warehouse Architecture hrajú metaúdaje dôležitú úlohu, pretože určujú zdroj, použitie, hodnoty a vlastnosti údajov dátového skladu.