Čo sú VEĽKÉ ÚDAJE? Úvod, typy, charakteristiky, príklad

Obsah:

Anonim

Skôr ako sa pustíme do úvodu k Big Data, musíte najskôr vedieť

Čo sú údaje?

Množstvá, znaky alebo symboly, na ktorých počítač vykonáva operácie, ktoré sa môžu ukladať a prenášať vo forme elektrických signálov a zaznamenávať na magnetické, optické alebo mechanické záznamové médiá.

Poďme sa teraz naučiť úvod do Big Data

Čo sú to veľké dáta?

Big Data je zbierka dát, ktoré majú obrovský objem a zároveň s časom pribúdajú exponenciálne. Jedná sa o dáta s tak veľkou veľkosťou a zložitosťou, že žiadny z tradičných nástrojov na správu údajov ich nedokáže uložiť alebo efektívne spracovať. Veľké dáta sú tiež údaje, ale s obrovskou veľkosťou.

V tomto návode sa dozviete,

  • Čo sú údaje?
  • Čo sú to veľké dáta?
  • Príklady veľkých dát
  • Typy veľkých dát
  • Charakteristika veľkých dát
  • Výhody spracovania veľkých dát

Príklady veľkých dát

Nasleduje niekoľko príkladov veľkých dát -

New York Stock Exchange generuje asi jeden terabajt nových obchodných dát za deň.

Sociálne médiá

Štatistika ukazuje, že do databáz sociálnej siete Facebook sa každý deň prijme 500 + terabajtov nových údajov . Tieto údaje sa generujú hlavne z hľadiska nahrávania fotografií a videa, výmeny správ, vkladania komentárov atď.

Jeden motor Jet dokáže vygenerovať 10 + terabajtov dát za 30 minút letu. S mnohými tisíckami letov denne dosahuje generovanie údajov až veľa petabajtov.

Typy veľkých dát

Nasledujú typy veľkých dát:

  1. Štruktúrované
  2. Neštruktúrované
  3. Pološtruktúrované

Štruktúrované

Akékoľvek údaje, ktoré možno uložiť, získať k nim prístup a spracovať ich vo fixnom formáte, sa označujú ako „štruktúrované“ údaje. Za určité obdobie dosiahol talent v informatike väčšie úspechy vo vývoji techník práce s takýmito dátami (kde je formát vopred dobre známy) a tiež z nich odvodzoval hodnotu. V dnešnej dobe však predvídame problémy, keď veľkosť takýchto údajov narastie do obrovskej miery, typická veľkosť je v móde viacerých zettabytov.

Vieš? 10 21 bajtov rovnajúcich sa 1 zettabyte alebo jednej miliarde terabajtov tvorí zettabyte .

Pri pohľade na tieto čísla je možné ľahko pochopiť, prečo je názov Big Data pomenovaný, a predstaviť si výzvy, ktoré predstavuje ich ukladanie a spracovanie.

Vieš? Dáta uložené v systéme správy relačných databáz sú jedným príkladom „štruktúrovaných“ údajov.

Príklady štruktúrovaných dát

Tabuľka „Zamestnanec“ v databáze je príkladom štruktúrovaných údajov

Zamestnanecké ID Meno zamestnanca rod Oddelenie Plat_In_lacs
2365 Rajesh Kulkarni Muž Financie 650000
3398 Pratibha Joshi Žena Admin 650000
7465 Shushil Roy Muž Admin 500 000
7500 Shubhojit Das Muž Financie 500 000
7699 Priya Sane Žena Financie 550000

Neštruktúrované

Akékoľvek údaje s neznámou formou alebo štruktúrou sa klasifikujú ako neštruktúrované údaje. Okrem toho, že je neštruktúrovaná veľkosť obrovská, predstavuje veľké množstvo výziev, pokiaľ ide o jej spracovanie, aby sa z nej dala odvodiť hodnota. Typickým príkladom neštruktúrovaných údajov je heterogénny zdroj údajov obsahujúci kombináciu jednoduchých textových súborov, obrázkov, videí atď. Dnešné organizácie majú k dispozícii množstvo údajov, ale bohužiaľ nevedia, ako z nich odvodiť hodnotu, pretože tieto údaje sú v surovej podobe alebo v neštruktúrovanom formáte.

Príklady neštruktúrovaných údajov

Výstup vrátený vyhľadávačom Google

Pološtruktúrované

Pološtruktúrované údaje môžu obsahovať obe formy údajov. Môžeme vidieť pološtruktúrované dáta ako štruktúrované vo forme, ale v skutočnosti to nie je definované napríklad s definíciou tabuľky v relačnom DBMS. Príkladom pološtruktúrovaných údajov sú údaje reprezentované v súbore XML.

Príklady pološtruktúrovaných údajov

Osobné údaje uložené v súbore XML

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Rast údajov v priebehu rokov

Upozorňujeme, že dáta webových aplikácií, ktoré sú neštruktúrované, pozostávajú zo súborov protokolu, súborov histórie transakcií atď. Systémy OLTP sú postavené na prácu so štruktúrovanými dátami, pričom údaje sú uložené vo vzťahoch (tabuľkách).

Charakteristika veľkých dát

Veľké dáta možno opísať pomocou nasledujúcich charakteristík:

  • Objem
  • Odroda
  • Rýchlosť
  • Variabilita

(i) Objem - Samotný názov Big Data súvisí s veľkosťou, ktorá je obrovská. Veľkosť údajov zohráva veľmi dôležitú úlohu pri určovaní hodnoty mimo údajov. To, či konkrétne údaje možno skutočne považovať za veľké údaje alebo nie, závisí tiež od objemu údajov. Preto je „objem“ jednou z charakteristík, ktorú je potrebné zohľadniť pri práci s veľkými dátami.

ii) Rozmanitosť - Ďalším aspektom veľkých dát je ich rozmanitosť .

Rozmanitosť sa týka heterogénnych zdrojov a povahy dát, štruktúrovaných aj neštruktúrovaných. Počas predchádzajúcich dní boli tabuľky a databázy jediným zdrojom údajov, ktorý väčšina aplikácií brala do úvahy. V dnešnej dobe sa v analytických aplikáciách zohľadňujú aj údaje vo forme e-mailov, fotografií, videí, monitorovacích zariadení, súborov PDF, zvuku atď. Táto rôznorodosť neštruktúrovaných údajov predstavuje určité problémy pri ukladaní, ťažbe a analýze údajov.

(iii) Rýchlosť - Pojem „rýchlosť“ sa vzťahuje na rýchlosť generovania údajov. Skutočný potenciál údajov závisí od toho, ako rýchlo sa údaje generujú a spracúvajú, aby vyhoveli požiadavkám.

Big Data Velocity sa zaoberá rýchlosťou, akou údaje prúdia zo zdrojov, ako sú obchodné procesy, protokoly aplikácií, siete a stránky sociálnych médií, senzory, mobilné zariadenia atď. Tok dát je obrovský a nepretržitý.

(iv) Variabilita - Týka sa to nekonzistencie, ktorú môžu údaje niekedy prejavovať, a tým brzdí proces schopnosti efektívne manipulovať s údajmi a spravovať ich.

Výhody spracovania veľkých dát

Schopnosť spracovávať veľké dáta prináša niekoľko výhod, ako napríklad -

    • Podniky môžu pri rozhodovaní využívať externé spravodajské informácie

Prístup k sociálnym údajom z vyhľadávacích nástrojov a webov, ako je facebook, twitter, umožňuje organizáciám doladiť svoje obchodné stratégie.

    • Vylepšené služby zákazníkom

Tradičné systémy spätnej väzby od zákazníkov sa nahrádzajú novými systémami navrhnutými pomocou technológií Big Data. V týchto nových systémoch sa na čítanie a hodnotenie reakcií spotrebiteľov používajú veľké dáta a technológie spracovania prirodzeného jazyka.

    • Včasná identifikácia rizika pre produkt / služby, ak existujú
    • Lepšia prevádzková efektívnosť

Technológie veľkých údajov možno použiť na vytvorenie oddychovej oblasti alebo pristávacej zóny pre nové údaje pred identifikáciou, ktoré údaje by sa mali presunúť do dátového skladu. Okrem toho takáto integrácia technológií Big Data a dátového skladu pomáha organizácii vykladať zriedka prístupné dáta.

Zhrnutie

  • Definícia veľkých dát: Veľké dáta sú definované ako dáta, ktoré majú obrovskú veľkosť. Bigdata je termín používaný na opis súboru údajov, ktoré sú obrovské a napriek tomu časom exponenciálne rastú.
  • Medzi príklady analýzy veľkých dát patria burzy cenných papierov, stránky sociálnych médií, prúdové motory atď.
  • Veľké dáta môžu byť 1) štruktúrované, 2) neštruktúrované, 3) pološtruktúrované
  • Objem, rozmanitosť, rýchlosť a variabilita sú niekoľkými charakteristikami veľkých dát
  • Vylepšené služby zákazníkom, lepšia prevádzková efektívnosť, lepšie rozhodovanie sú len niektoré výhody Bigdata