V tomto výučbe vás prevedieme procesom krok za krokom, ako nainštalovať Apache Hadoop na Linuxovú schránku (Ubuntu). Toto je proces pozostávajúci z dvoch častí
- Časť 1) Stiahnite a nainštalujte si Hadoop
- Časť 2) Konfigurácia Hadoop
Existujú 2 predpoklady
- Musíte mať nainštalovaný a spustený Ubuntu
- Musíte mať nainštalovanú Javu.
Časť 1) Stiahnite a nainštalujte si Hadoop
Krok 1) Pridajte používateľa systému Hadoop pomocou nižšie uvedeného príkazu
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Zadajte svoje heslo, meno a ďalšie podrobnosti.
POZNÁMKA: V tomto procese inštalácie a inštalácie existuje možnosť nižšie uvedenej chyby.
"hduser sa nenachádza v súbore sudoers. Tento incident bude nahlásený."
Túto chybu je možné vyriešiť prihlásením ako užívateľ root
Vykonajte príkaz
sudo adduser hduser_ sudo
Re-login as hduser_
Krok 2) Nakonfigurujte SSH
Na správu uzlov v klastri vyžaduje Hadoop prístup SSH
Najskôr prepnite používateľa, zadajte nasledujúci príkaz
su - hduser_
Týmto príkazom sa vytvorí nový kľúč.
ssh-keygen -t rsa -P ""
Pomocou tohto kľúča povoľte prístup SSH k miestnemu počítaču.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Teraz otestujte nastavenie SSH pripojením k localhost ako používateľ „hduser“.
ssh localhost
Poznámka: Upozorňujeme, že ak sa vám v reakcii na „ssh localhost“ zobrazí chyba uvedená nižšie, existuje možnosť, že SSH nie je v tomto systéme k dispozícii -
Ak to chcete vyriešiť -
Vyčistiť SSH pomocou,
sudo apt-get purge openssh-server
Osvedčeným postupom je čistenie pred začiatkom inštalácie
Nainštalujte SSH pomocou príkazu
sudo apt-get install openssh-server
Krok 3) Ďalším krokom je stiahnutie aplikácie Hadoop
Vyberte možnosť Stabilný
Vyberte súbor tar.gz (nie súbor so src)
Po dokončení sťahovania prejdite do adresára obsahujúceho súbor tar
Vstúpiť,
sudo tar xzf hadoop-2.2.0.tar.gz
Teraz premenujte hadoop-2.2.0 na hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Časť 2) Konfigurácia Hadoop
Krok 1) Upravte súbor ~ / .bashrc
Pridajte nasledujúce riadky na koniec súboru ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Teraz zadajte túto konfiguráciu prostredia pomocou nižšie uvedeného príkazu
. ~/.bashrc
Krok 2) Konfigurácie súvisiace s HDFS
Nastaviť JAVA_HOME vo vnútri súboru $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
S
V $ HADOOP_HOME / etc / hadoop / core-site.xml sú dva parametre, ktoré je potrebné nastaviť-
1. „hadoop.tmp.dir“ - slúži na určenie adresára, ktorý použije Hadoop na ukladanie svojich dátových súborov.
2. „fs.default.name“ - toto určuje predvolený systém súborov.
Ak chcete nastaviť tieto parametre, otvorte core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Skopírujte pod riadok medzi značky
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Prejdite do adresára $ HADOOP_HOME / etc / Hadoop
Teraz vytvorte adresár uvedený v core-site.xml
sudo mkdir -p
Udeľte oprávnenie adresáru
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Krok 3) Mapa Znížte konfiguráciu
Predtým, ako začnete s týmito konfiguráciami, nastavíme cestu HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
A vstúpte
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Ďalej vstúpte
sudo chmod +x /etc/profile.d/hadoop.sh
Ukončite terminál a reštartujte znova
Zadajte echo $ HADOOP_HOME. Na overenie cesty
Teraz skopírujte súbory
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Otvorte mapred-site.xml súbor
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Pridajte nižšie riadky nastavenia medzi značky
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Otvorte $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, ako je uvedené nižšie,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Pridajte nižšie riadky nastavenia medzi značky
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Vytvorte adresár uvedený vo vyššie uvedenom nastavení-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Krok 4) Predtým, ako prvýkrát spustíme Hadoop, naformátujte HDFS pomocou nasledujúceho príkazu
$HADOOP_HOME/bin/hdfs namenode -format
Krok 5) Spustite klaster s jedným uzlom Hadoop pomocou nižšie uvedeného príkazu
$HADOOP_HOME/sbin/start-dfs.sh
Výstup vyššie uvedeného príkazu
$HADOOP_HOME/sbin/start-yarn.sh
Pomocou nástroja / príkazu „jps“ overte, či sú spustené všetky procesy súvisiace s Hadoop.
Ak sa program Hadoop úspešne spustil, potom by mal výstup súboru jps obsahovať NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Krok 6) Zastavenie Hadoopu
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh