0% menganggap dokumen ini bermanfaat (0 suara)
123 tayangan10 halaman

Tutorial Install Dan Konfigurasi Apache Hadoop Di Ubuntu

Tutorial ini menjelaskan langkah-langkah untuk menginstal dan mengkonfigurasi Apache Hadoop versi 3.1.2 dalam mode single-node cluster di Ubuntu, termasuk menginstal prasyarat seperti Java, membuat pengguna Hadoop, mengunduh dan mengkonfigurasi file konfigurasi Hadoop, memformat namenode, menjalankan cluster Hadoop, dan menguji pengaturan dengan menyalin file antara sistem file lokal dan terdistribusi Hadoop.

Diunggah oleh

mjr
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
123 tayangan10 halaman

Tutorial Install Dan Konfigurasi Apache Hadoop Di Ubuntu

Tutorial ini menjelaskan langkah-langkah untuk menginstal dan mengkonfigurasi Apache Hadoop versi 3.1.2 dalam mode single-node cluster di Ubuntu, termasuk menginstal prasyarat seperti Java, membuat pengguna Hadoop, mengunduh dan mengkonfigurasi file konfigurasi Hadoop, memformat namenode, menjalankan cluster Hadoop, dan menguji pengaturan dengan menyalin file antara sistem file lokal dan terdistribusi Hadoop.

Diunggah oleh

mjr
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 10

Tutorial Install dan Konfigurasi

Apache Hadoop di Ubuntu


Apache Hadoop adalah kumpulan software utilitas open-source yang
memfasilitasi penggunaan jaringan di banyak komputer untuk memecahkan
masalah yang melibatkan data dan komputasi dalam jumlah besar. Hadoop
menyediakan framework untuk penyimpanan terdistribusi dan pemrosesan
data besar menggunakan model pemrograman MapReduce.

Awalnya dirancang untuk komputer cluster yang dibangun dari perangkat


keras komoditas namun masih merupakan penggunaan umum, dan juga
digunakan pada kelompok hardware high-end. Semua modul di Hadoop
dirancang dengan asumsi mendasar bahwa kegagalan hardware adalah
kejadian umum dan harus ditangani secara otomatis oleh framework itu
sendiri.

Apache Hadoop 3.1 memiliki peningkatan yang nyata setiap perbaikan bug
lebih dari rilis stabil 3.0 sebelumnya. Versi ini memiliki banyak peningkatan di
HDFS dan MapReduce. Tutorial ini akan membantu Anda untuk menginstal dan
mengkonfigurasi Hadoop 3.1.2 Single-Node Cluster di Ubuntu 18.04, 16.04
LTS dan Sistem LinuxMint. Artikel ini telah diuji dengan Ubuntu 18.04 LTS.

Langkah 1 – Prasyarat
Java adalah persyaratan utama untuk menjalankan Hadoop pada sistem apa
pun, jadi pastikan Anda menginstal Java pada sistem Anda
menggunakan perintah berikut.

Step 2 – Create User for Haddop


Kami sarankan untuk membuat akun normal untuk Hadoop berfungsi. Untuk
membuat akun menggunakan perintah berikut.
adduser hadoop
Setelah membuat akun, perlu juga untuk mengatur ssh berbasis kunci ke
akun sendiri. Untuk melakukan ini jalankan perintah berikut.

su - hadoop

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 0600 ~/.ssh/authorized_keys


Sekarang, SSH ke localhost dengan user Hadoop. Ini seharusnya tidak
meminta kata sandi, tetapi ketika ini adalah koneksi untuk pertama kali,
sistem akan meminta untuk menambahkan RSA ke daftar host yang dikenal.

ssh localhost

exit

Langkah 3 – Unduh Arsip Source Hadoop


Pada langkah ini, unduh file arsip source hadoop 3.1 menggunakan perintah
di bawah ini. Anda juga dapat memilih download mirror untuk mencari server
terdekat dengan Anda untuk meningkatkan kecepatan download. Yah
meskipun Hanya ada dua, yaitu eropa dan usa, jadi kita pilih us. download
source Hadoop mengunakan perintah wget.

cd ~
wget https://www-us.apache.org/dist/hadoop/common/hadoop-
3.1.2/hadoop-3.1.2.tar.gz

tar xzf hadoop-3.1.2.tar.gz

mv hadoop-3.1.2 hadoop

Langkah 4 – Setup Hadoop Pseudo-Distributed


Mode

4.1. Setup Variabel Environment Hadoop

Atur variabel lingkungan yang digunakan oleh Hadoop. Edit


file ~/.bashrc dan tambahkan nilai berikut di akhir file.

export HADOOP_HOME=/home/hadoop/hadoop

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Kemudian, setelah selesai save dan tutup file. dan jalankan perintah berikut
agar perubahan segera diterapkan.

source ~/.bashrc
Sekarang edit $HADOOP_HOME/etc/hadoop/hadoop-env.sh file dan set
variabel environment JAVA_HOME. Ubah jalur JAVA sesuai pengaturan
instalasi di sistem Anda. Jalur ini dapat bervariasi sesuai versi sistem operasi
dan sumber instalasi Anda. Jadi pastikan Anda menggunakan jalur yang
benar.

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
kemudian tambahkan entri berikut ini.

export JAVA_HOME=/usr/lib/jvm/java-11-oracle

4.2. Setup Hadoop Configuration Files

Hadoop memiliki banyak file konfigurasi, yang perlu dikonfigurasi sesuai


persyaratan infrastruktur Hadoop Anda. Mari kita mulai dengan konfigurasi
dengan pengaturan dasar node tunggal Hadoop. pertama, navigasikan ke
lokasi di bawah ini

cd $HADOOP_HOME/etc/hadoop

Edit core-site.xml

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>
</configuration>

Edit hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.name.dir</name>

<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>

</property>

</configuration>
Edit mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

Edit yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

4.3. Format Namenode

Sekarang format namenode menggunakan perintah berikut, pastikan


direktori Storage adalah

hdfs namenode -format


Ini adalah Sample output :
WARNING: /home/hadoop/hadoop/logs does not exist. Creating.

2018-05-02 17:52:09,678 INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG: host = vmnode/127.0.1.1

STARTUP_MSG: args = [-format]

STARTUP_MSG: version = 3.1.2

...

...

...

2018-05-02 17:52:13,717 INFO common.Storage: Storage directory


/home/hadoop/hadoopdata/hdfs/namenode has been successfully
formatted.

2018-05-02 17:52:13,806 INFO namenode.FSImageFormatProtobuf:


Saving image file
/home/hadoop/hadoopdata/hdfs/namenode/current/fsimage.ckpt_000000
0000000000000 using no compression

2018-05-02 17:52:14,161 INFO namenode.FSImageFormatProtobuf:


Image file
/home/hadoop/hadoopdata/hdfs/namenode/current/fsimage.ckpt_000000
0000000000000 of size 391 bytes saved in 0 seconds .

2018-05-02 17:52:14,224 INFO namenode.NNStorageRetentionManager:


Going to retain 1 images with txid >= 0
2018-05-02 17:52:14,282 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down NameNode at vmnode/127.0.1.1

************************************************************/

Langkah 5 – Jalankan Cluster Hadoop


Mari mulai cluster Hadoop Anda menggunakan skrip yang disediakan oleh
Hadoop. Cukup navigasikan ke direktori $HADOOP_HOME/sbin dan laksanakan
skrip satu per satu.

cd $HADOOP_HOME/sbin/
Kemudian eksekusi skrip start-dfs.sh.

./start-dfs.sh
Kemudian eksekusi skrip start-yarn.sh.

./start-yarn.sh

Langkah 6 – Akses Layanan Hadoop di Browser


Hadoop NameNode dimulai pada port default 9870. Akses server Anda pada
port 9870 di browser web favorit Anda.

http://ip-atau-domain:9870/
Sekarang akses port 8042 untuk mendapatkan informasi tentang cluster dan
semua aplikasi

http://ip-atau-domain:8042/
Akses port 9864 untuk mendapatkan detail tentang node Hadoop Anda.

Langkah 7 – Uji Pengaturan Hadoop Node


7.1. Buat direktori HDFS diperlukan menggunakan perintah berikut.

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir /user/hadoop


7.2. Salin semua file dari sistem file lokal /var/log/httpd ke file
sistem terdistribusi hadoop menggunakan perintah di bawah ini

bin/hdfs dfs -put /var/log/apache2 logs


7.3. Jelajahi sistem file terdistribusi Hadoop dengan membuka URL di bawah
ini di browser. Anda akan melihat folder apache2 dalam daftar. Klik pada
nama folder untuk membuka dan Anda akan menemukan semua file log di
sana.

http://ip-atau-domain:9870/explorer.html#/user/hadoop/logs/

7.4 – Sekarang salin direktori log untuk sistem file hadoop didistribusikan ke
sistem file lokal.

bin/hdfs dfs -get logs /tmp/logs

ls -l /tmp/logs/

Anda mungkin juga menyukai