Skôr ako sa pustíme do úvodu k Big Data, musíte najskôr vedieť
Čo sú údaje?
Množstvá, znaky alebo symboly, na ktorých počítač vykonáva operácie, ktoré sa môžu ukladať a prenášať vo forme elektrických signálov a zaznamenávať na magnetické, optické alebo mechanické záznamové médiá.
Poďme sa teraz naučiť úvod do Big Data
Čo sú to veľké dáta?
Big Data je zbierka dát, ktoré majú obrovský objem a zároveň s časom pribúdajú exponenciálne. Jedná sa o dáta s tak veľkou veľkosťou a zložitosťou, že žiadny z tradičných nástrojov na správu údajov ich nedokáže uložiť alebo efektívne spracovať. Veľké dáta sú tiež údaje, ale s obrovskou veľkosťou.
V tomto návode sa dozviete,
- Čo sú údaje?
- Čo sú to veľké dáta?
- Príklady veľkých dát
- Typy veľkých dát
- Charakteristika veľkých dát
- Výhody spracovania veľkých dát
Príklady veľkých dát
Nasleduje niekoľko príkladov veľkých dát -
New York Stock Exchange generuje asi jeden terabajt nových obchodných dát za deň.
Sociálne médiá
Štatistika ukazuje, že do databáz sociálnej siete Facebook sa každý deň prijme 500 + terabajtov nových údajov . Tieto údaje sa generujú hlavne z hľadiska nahrávania fotografií a videa, výmeny správ, vkladania komentárov atď.
Jeden motor Jet dokáže vygenerovať 10 + terabajtov dát za 30 minút letu. S mnohými tisíckami letov denne dosahuje generovanie údajov až veľa petabajtov.
Typy veľkých dát
Nasledujú typy veľkých dát:
- Štruktúrované
- Neštruktúrované
- Pološtruktúrované
Štruktúrované
Akékoľvek údaje, ktoré možno uložiť, získať k nim prístup a spracovať ich vo fixnom formáte, sa označujú ako „štruktúrované“ údaje. Za určité obdobie dosiahol talent v informatike väčšie úspechy vo vývoji techník práce s takýmito dátami (kde je formát vopred dobre známy) a tiež z nich odvodzoval hodnotu. V dnešnej dobe však predvídame problémy, keď veľkosť takýchto údajov narastie do obrovskej miery, typická veľkosť je v móde viacerých zettabytov.
Vieš? 10 21 bajtov rovnajúcich sa 1 zettabyte alebo jednej miliarde terabajtov tvorí zettabyte .
Pri pohľade na tieto čísla je možné ľahko pochopiť, prečo je názov Big Data pomenovaný, a predstaviť si výzvy, ktoré predstavuje ich ukladanie a spracovanie.
Vieš? Dáta uložené v systéme správy relačných databáz sú jedným príkladom „štruktúrovaných“ údajov.
Príklady štruktúrovaných dát
Tabuľka „Zamestnanec“ v databáze je príkladom štruktúrovaných údajov
Zamestnanecké ID | Meno zamestnanca | rod | Oddelenie | Plat_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Muž | Financie | 650000 |
3398 | Pratibha Joshi | Žena | Admin | 650000 |
7465 | Shushil Roy | Muž | Admin | 500 000 |
7500 | Shubhojit Das | Muž | Financie | 500 000 |
7699 | Priya Sane | Žena | Financie | 550000 |
Neštruktúrované
Akékoľvek údaje s neznámou formou alebo štruktúrou sa klasifikujú ako neštruktúrované údaje. Okrem toho, že je neštruktúrovaná veľkosť obrovská, predstavuje veľké množstvo výziev, pokiaľ ide o jej spracovanie, aby sa z nej dala odvodiť hodnota. Typickým príkladom neštruktúrovaných údajov je heterogénny zdroj údajov obsahujúci kombináciu jednoduchých textových súborov, obrázkov, videí atď. Dnešné organizácie majú k dispozícii množstvo údajov, ale bohužiaľ nevedia, ako z nich odvodiť hodnotu, pretože tieto údaje sú v surovej podobe alebo v neštruktúrovanom formáte.
Príklady neštruktúrovaných údajov
Výstup vrátený vyhľadávačom Google
Pološtruktúrované
Pološtruktúrované údaje môžu obsahovať obe formy údajov. Môžeme vidieť pološtruktúrované dáta ako štruktúrované vo forme, ale v skutočnosti to nie je definované napríklad s definíciou tabuľky v relačnom DBMS. Príkladom pološtruktúrovaných údajov sú údaje reprezentované v súbore XML.
Príklady pološtruktúrovaných údajov
Osobné údaje uložené v súbore XML
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Rast údajov v priebehu rokov
Upozorňujeme, že dáta webových aplikácií, ktoré sú neštruktúrované, pozostávajú zo súborov protokolu, súborov histórie transakcií atď. Systémy OLTP sú postavené na prácu so štruktúrovanými dátami, pričom údaje sú uložené vo vzťahoch (tabuľkách).
Charakteristika veľkých dát
Veľké dáta možno opísať pomocou nasledujúcich charakteristík:
- Objem
- Odroda
- Rýchlosť
- Variabilita
(i) Objem - Samotný názov Big Data súvisí s veľkosťou, ktorá je obrovská. Veľkosť údajov zohráva veľmi dôležitú úlohu pri určovaní hodnoty mimo údajov. To, či konkrétne údaje možno skutočne považovať za veľké údaje alebo nie, závisí tiež od objemu údajov. Preto je „objem“ jednou z charakteristík, ktorú je potrebné zohľadniť pri práci s veľkými dátami.
ii) Rozmanitosť - Ďalším aspektom veľkých dát je ich rozmanitosť .
Rozmanitosť sa týka heterogénnych zdrojov a povahy dát, štruktúrovaných aj neštruktúrovaných. Počas predchádzajúcich dní boli tabuľky a databázy jediným zdrojom údajov, ktorý väčšina aplikácií brala do úvahy. V dnešnej dobe sa v analytických aplikáciách zohľadňujú aj údaje vo forme e-mailov, fotografií, videí, monitorovacích zariadení, súborov PDF, zvuku atď. Táto rôznorodosť neštruktúrovaných údajov predstavuje určité problémy pri ukladaní, ťažbe a analýze údajov.
(iii) Rýchlosť - Pojem „rýchlosť“ sa vzťahuje na rýchlosť generovania údajov. Skutočný potenciál údajov závisí od toho, ako rýchlo sa údaje generujú a spracúvajú, aby vyhoveli požiadavkám.
Big Data Velocity sa zaoberá rýchlosťou, akou údaje prúdia zo zdrojov, ako sú obchodné procesy, protokoly aplikácií, siete a stránky sociálnych médií, senzory, mobilné zariadenia atď. Tok dát je obrovský a nepretržitý.
(iv) Variabilita - Týka sa to nekonzistencie, ktorú môžu údaje niekedy prejavovať, a tým brzdí proces schopnosti efektívne manipulovať s údajmi a spravovať ich.
Výhody spracovania veľkých dát
Schopnosť spracovávať veľké dáta prináša niekoľko výhod, ako napríklad -
- Podniky môžu pri rozhodovaní využívať externé spravodajské informácie
Prístup k sociálnym údajom z vyhľadávacích nástrojov a webov, ako je facebook, twitter, umožňuje organizáciám doladiť svoje obchodné stratégie.
- Vylepšené služby zákazníkom
Tradičné systémy spätnej väzby od zákazníkov sa nahrádzajú novými systémami navrhnutými pomocou technológií Big Data. V týchto nových systémoch sa na čítanie a hodnotenie reakcií spotrebiteľov používajú veľké dáta a technológie spracovania prirodzeného jazyka.
- Včasná identifikácia rizika pre produkt / služby, ak existujú
- Lepšia prevádzková efektívnosť
Technológie veľkých údajov možno použiť na vytvorenie oddychovej oblasti alebo pristávacej zóny pre nové údaje pred identifikáciou, ktoré údaje by sa mali presunúť do dátového skladu. Okrem toho takáto integrácia technológií Big Data a dátového skladu pomáha organizácii vykladať zriedka prístupné dáta.
Zhrnutie
- Definícia veľkých dát: Veľké dáta sú definované ako dáta, ktoré majú obrovskú veľkosť. Bigdata je termín používaný na opis súboru údajov, ktoré sú obrovské a napriek tomu časom exponenciálne rastú.
- Medzi príklady analýzy veľkých dát patria burzy cenných papierov, stránky sociálnych médií, prúdové motory atď.
- Veľké dáta môžu byť 1) štruktúrované, 2) neštruktúrované, 3) pološtruktúrované
- Objem, rozmanitosť, rýchlosť a variabilita sú niekoľkými charakteristikami veľkých dát
- Vylepšené služby zákazníkom, lepšia prevádzková efektívnosť, lepšie rozhodovanie sú len niektoré výhody Bigdata