Ako nainštalovať Hadoop s konfiguráciou krok za krokom na Ubuntu

Obsah:

Anonim

V tomto výučbe vás prevedieme procesom krok za krokom, ako nainštalovať Apache Hadoop na Linuxovú schránku (Ubuntu). Toto je proces pozostávajúci z dvoch častí

  • Časť 1) Stiahnite a nainštalujte si Hadoop
  • Časť 2) Konfigurácia Hadoop

Existujú 2 predpoklady

  • Musíte mať nainštalovaný a spustený Ubuntu
  • Musíte mať nainštalovanú Javu.

Časť 1) Stiahnite a nainštalujte si Hadoop

Krok 1) Pridajte používateľa systému Hadoop pomocou nižšie uvedeného príkazu

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Zadajte svoje heslo, meno a ďalšie podrobnosti.

POZNÁMKA: V tomto procese inštalácie a inštalácie existuje možnosť nižšie uvedenej chyby.

"hduser sa nenachádza v súbore sudoers. Tento incident bude nahlásený."

Túto chybu je možné vyriešiť prihlásením ako užívateľ root

Vykonajte príkaz

sudo adduser hduser_ sudo

Re-login as hduser_

Krok 2) Nakonfigurujte SSH

Na správu uzlov v klastri vyžaduje Hadoop prístup SSH

Najskôr prepnite používateľa, zadajte nasledujúci príkaz

su - hduser_

Týmto príkazom sa vytvorí nový kľúč.

ssh-keygen -t rsa -P ""

Pomocou tohto kľúča povoľte prístup SSH k miestnemu počítaču.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Teraz otestujte nastavenie SSH pripojením k localhost ako používateľ „hduser“.

ssh localhost

Poznámka: Upozorňujeme, že ak sa vám v reakcii na „ssh localhost“ zobrazí chyba uvedená nižšie, existuje možnosť, že SSH nie je v tomto systéme k dispozícii -

Ak to chcete vyriešiť -

Vyčistiť SSH pomocou,

sudo apt-get purge openssh-server

Osvedčeným postupom je čistenie pred začiatkom inštalácie

Nainštalujte SSH pomocou príkazu

sudo apt-get install openssh-server

Krok 3) Ďalším krokom je stiahnutie aplikácie Hadoop

Vyberte možnosť Stabilný

Vyberte súbor tar.gz (nie súbor so src)

Po dokončení sťahovania prejdite do adresára obsahujúceho súbor tar

Vstúpiť,

sudo tar xzf hadoop-2.2.0.tar.gz

Teraz premenujte hadoop-2.2.0 na hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Časť 2) Konfigurácia Hadoop

Krok 1) Upravte súbor ~ / .bashrc

Pridajte nasledujúce riadky na koniec súboru ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Teraz zadajte túto konfiguráciu prostredia pomocou nižšie uvedeného príkazu

. ~/.bashrc

Krok 2) Konfigurácie súvisiace s HDFS

Nastaviť JAVA_HOME vo vnútri súboru $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

S

V $ HADOOP_HOME / etc / hadoop / core-site.xml sú dva parametre, ktoré je potrebné nastaviť-

1. „hadoop.tmp.dir“ - slúži na určenie adresára, ktorý použije Hadoop na ukladanie svojich dátových súborov.

2. „fs.default.name“ - toto určuje predvolený systém súborov.

Ak chcete nastaviť tieto parametre, otvorte core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Skopírujte pod riadok medzi značky

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Prejdite do adresára $ HADOOP_HOME / etc / Hadoop

Teraz vytvorte adresár uvedený v core-site.xml

sudo mkdir -p 

Udeľte oprávnenie adresáru

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Krok 3) Mapa Znížte konfiguráciu

Predtým, ako začnete s týmito konfiguráciami, nastavíme cestu HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

A vstúpte

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Ďalej vstúpte

sudo chmod +x /etc/profile.d/hadoop.sh

Ukončite terminál a reštartujte znova

Zadajte echo $ HADOOP_HOME. Na overenie cesty

Teraz skopírujte súbory

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Otvorte mapred-site.xml súbor

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Pridajte nižšie riadky nastavenia medzi značky a

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Otvorte $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, ako je uvedené nižšie,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Pridajte nižšie riadky nastavenia medzi značky a

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Vytvorte adresár uvedený vo vyššie uvedenom nastavení-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Krok 4) Predtým, ako prvýkrát spustíme Hadoop, naformátujte HDFS pomocou nasledujúceho príkazu

$HADOOP_HOME/bin/hdfs namenode -format

Krok 5) Spustite klaster s jedným uzlom Hadoop pomocou nižšie uvedeného príkazu

$HADOOP_HOME/sbin/start-dfs.sh

Výstup vyššie uvedeného príkazu

$HADOOP_HOME/sbin/start-yarn.sh

Pomocou nástroja / príkazu „jps“ overte, či sú spustené všetky procesy súvisiace s Hadoop.

Ak sa program Hadoop úspešne spustil, potom by mal výstup súboru jps obsahovať NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Krok 6) Zastavenie Hadoopu

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh