Čo je Hadoop? Úvod, architektúra, ekosystém, komponenty

Obsah:

Anonim

Čo je Hadoop?

Apache Hadoop je softvérový rámec otvoreného zdroja používaný na vývoj aplikácií na spracovanie údajov, ktoré sa vykonávajú v prostredí distribuovanej výpočtovej techniky.

Aplikácie vytvorené pomocou HADOOP sa spúšťajú na veľkých množinách dát distribuovaných v klastroch komoditných počítačov. Komoditné počítače sú lacné a široko dostupné. Sú užitočné hlavne na dosiahnutie vyššieho výpočtového výkonu pri nízkych nákladoch.

Podobne ako údaje uložené v lokálnom súborovom systéme systému osobného počítača, aj v systéme Hadoop sa údaje nachádzajú v distribuovanom súborovom systéme, ktorý sa nazýva systém distribuovaného súboru Hadoop . Model spracovania je založený na koncepcii „Data Locality“, kde sa výpočtová logika posiela do uzlov klastra (servera) obsahujúcich údaje. Táto výpočtová logika nie je nič iné, ako kompilovaná verzia programu napísaného v jazyku vyššej úrovne, ako je Java. Takýto program spracováva údaje uložené v Hadoop HDFS.

Vieš? Počítačový klaster sa skladá zo sady viacerých procesorových jednotiek (úložný disk + procesor), ktoré sú navzájom spojené a fungujú ako jeden systém.

V tomto návode sa dozviete,

  • Hadoop EcoSystem a komponenty
  • Architektúra Hadoop
  • Vlastnosti 'Hadoop'
  • Topológia siete v Hadoope

Hadoop EcoSystem a komponenty

Nasledujúci diagram zobrazuje rôzne komponenty v ekosystéme Hadoop -

Apache Hadoop sa skladá z dvoch čiastkových projektov -

  1. Hadoop MapReduce: MapReduce je výpočtový model a softvérový rámec pre písanie aplikácií, ktoré sú spustené na Hadoop. Tieto programy MapReduce sú schopné paralelne spracovávať obrovské údaje na veľkých zhlukoch výpočtových uzlov.
  2. HDFS ( Hadoop Distributed File System ): HDFS sa stará o úložnú časť aplikácií Hadoop. Aplikácie MapReduce spotrebúvajú údaje z HDFS. HDFS vytvára viac replík dátových blokov a distribuuje ich na výpočtových uzloch v klastri. Táto distribúcia umožňuje spoľahlivé a extrémne rýchle výpočty.

Aj keď je Hadoop najznámejší pre MapReduce a jeho distribuovaný súborový systém - HDFS, tento termín sa používa aj pre skupinu príbuzných projektov, ktoré spadajú pod záštitu distribuovaného výpočtu a rozsiahleho spracovania údajov. Medzi ďalšie projekty súvisiace s Hadoopom v Apache patria Hive, HBase, Mahout, Sqoop, Flume a ZooKeeper.

Architektúra Hadoop

Architektúra Hadoop na vysokej úrovni

Hadoop má architektúru Master-Slave pre ukladanie a distribuované spracovanie údajov pomocou metód MapReduce a HDFS.

NameNode:

NameNode predstavoval všetky súbory a adresáre, ktoré sa používajú v mennom priestore

Údajový uzol:

DataNode vám pomáha spravovať stav uzla HDFS a umožňuje vám komunikovať s blokmi

MasterNode:

Hlavný uzol umožňuje vykonávať paralelné spracovanie údajov pomocou programu Hadoop MapReduce.

Podriadený uzol:

Podriadené uzly sú ďalšie stroje v klastri Hadoop, ktoré vám umožňujú ukladať údaje na vykonávanie zložitých výpočtov. Navyše, každý podradený uzol je dodávaný s nástrojom na sledovanie úloh a dátovým uzlom. To vám umožňuje synchronizovať procesy s NameNode a Job Tracker.

V systéme Hadoop môže byť hlavný alebo podriadený systém nastavený v cloude alebo na mieste

Vlastnosti 'Hadoop'

• Vhodné pre analýzu veľkých dát

Pretože veľké dáta majú tendenciu byť v prírode distribuované a neštruktúrované, k analýze veľkých dát sú najvhodnejšie klastre HADOOP. Pretože do logických uzlov prúdi logika spracovania (nie skutočné údaje), spotrebuje sa menšia šírka pásma. Tento koncept sa nazýva koncept dátovej lokality, ktorý pomáha zvyšovať efektivitu aplikácií založených na Hadoop.

• Škálovateľnosť

Klastre HADOOP je možné ľahko škálovať v ľubovoľnom rozsahu pridaním ďalších uzlov klastra, čo umožňuje rast veľkých dát. Zmena mierky taktiež nevyžaduje úpravy logiky aplikácie.

• Odolnosť proti chybám

Ekosystém HADOOP má ustanovenie na replikáciu vstupných údajov do ďalších uzlov klastra. Takto bude možné v prípade zlyhania uzla klastra pokračovať v spracovaní údajov pomocou údajov uložených v inom uzle klastra.

Topológia siete v Hadoope

Topológia (usporiadanie) siete ovplyvňuje výkon klastra Hadoop, keď veľkosť klastra Hadoop rastie. Okrem výkonu je potrebné dbať aj na vysokú dostupnosť a riešenie porúch. Na dosiahnutie tohto Hadoopu využíva formovanie klastrov topológiu siete.

Šírka pásma siete je zvyčajne dôležitým faktorom, ktorý treba brať do úvahy pri vytváraní akejkoľvek siete. Pretože meranie šírky pásma môže byť ťažké, v sieti Hadoop je sieť predstavovaná ako strom a vzdialenosť medzi uzlami tohto stromu (počet chmeľov) sa považuje za dôležitý faktor pri vytváraní klastra Hadoop. Tu sa vzdialenosť medzi dvoma uzlami rovná súčtu ich vzdialenosti od najbližšieho spoločného predka.

Klaster Hadoop sa skladá z dátového centra, stojana a uzla, ktorý skutočne vykonáva úlohy. Tu sa dátové centrum skladá zo stojanov a stojan sa skladá z uzlov. Šírka pásma siete dostupná pre procesy sa líši v závislosti od umiestnenia procesov. To znamená, že dostupná šírka pásma sa zmenšuje, keď odchádzame z -

  • Procesy na rovnakom uzle
  • Rôzne uzly na rovnakom stojane
  • Uzly na rôznych stojanoch toho istého dátového centra
  • Uzly v rôznych dátových centrách