Setting up Hadoop YARN Clustering

Danairat T., 2013, danairat@gmail.comBig Data Hadoop – Hands On Workshop
Setting up Hadoop Clustering
Hands-On Workshop
Danairat T.
Line ID: Danairat
FB: Danairat Thanabodithammachari
+668-1559-1446, danairat@gmail.com, Certified Java Programmer

Danairat T., danairat@gmail.com:Big Data Hadoop – Hands On Workshop
Big Data Introduction
Volume
Variety Velocity
DB Table
Delimited Text
XML, HTML
Free Form Text
Image, Music, VDO, Binary
Batch
Near real time
Real time
GB
TB
PB
XB
ZB

Big Data Architecture
Big Data InfrastructureBig Data Infrastructure
BI/Report
Next Best
Action
Distributed Data Processing
Integration and Metadata Framework
Distributed Data Store and DWH
Monitoring
and
Management
Framework
Security
Framework
Predictive
Analytics
Descriptive
Analytics
Prescriptive
Analytics
Big Data Platform
Big Data Applications
Hardware, Storage, Network
Fraud
Analysis
Cyber
Security
Talent
Search

Hadoop Timeline

Apache Hadoop Core Technology
j2eedev.org/ecosystem-hadoop

Apache Hadoop Ecosystem
j2eedev.org/ecosystem-hadoop

Big Data Platform & Big Data Analytics
Hadoop Technology

Block Size = 64MB
Replication Factor = 3
HDFS: Hadoop Distributed File System
Cost/GB is a few
¢/month vs $/month
apache.org/hadoop/

YARN: Yet Another Resource Negotiator
Hadoop.apache.org
MRV2 maintains API compatibility with previous stable release
(hadoop-1.x). This means that all Map-Reduce jobs should still run
unchanged on top of MRv2 with just a recompile.

Hadoop 1.0 vs Hadoop 2.0
Hortonwork.com

Hadoop 2
Hortonworks.com

Hadoop Symbols and Reasons Behind
1
3

Clone hadoop master to slave1 and slave2
master
slave1
slave2

At master node: Edit host file

At master node : Copy key file to slave1 and slave2
scp /home/ubuntu/.ssh/id_dsa.pub ip-172-31-1-8:/home/ubuntu/.ssh/master.pub
scp /home/ubuntu/.ssh/id_dsa.pub 172.31.15.16:/home/ubuntu/.ssh/master.pub

After this slide, we will use 3 cascaded
windows to represent master node, slave1
node and slave2 node
master node
slave1 node
slave2 node

At slave1 and slave2: cat /home/ubuntu/.ssh/master.pub >> /home/ubuntu/.ssh/authorized_keys

At master: Test ssh to slave1 and slave 2
$ ssh ip-172-31-1-8
$ exit
$ ssh ip-172-31-15-16
$ exit

At master: add slave1 and slave2 to Hadoop slave file

At master: edit hdfs-site.xml

At master: edit hdfs-site.xml for 2 replication servers

At all nodes: remove directories of namenode and datanode

At master: format namenode

At master: Execute start-dfs.sh

At slave1: Check jps result, you will see DataNode has been started

At slave2: Check jps result, you will see DataNode has been started

At master: Execute start-yarn.sh

At slave1: Check jps result, you will see NodeManager has been started

At slave2: Check jps result, you will see NodeManager has been started

Importing data into HDFS Cluster

At master: import data to hdfs

At slave1: review imported result data from hdfs

At slave2: review imported result data from hdfs

Running MapReduce in Cluster Mode

At master: execute YARN mapreduce program

At slave1, slave2: you will see Application Master and Yarn Child Container

At master: review output file from hdfs

At slave1, slave2: review output file from hdfs by using command:-
hdfs dfs -cat /outputs/wordcount_output_dir01/part-r-00000

At master: review output result data from
web console

Stopping Hadoop Cluster

At master: execute stop-yarn.sh

At slave1: use jps to review NodeManager has been stopped

At slave2: use jps to review NodeManager has been stopped

At master: execute stop-dfs.sh

At slave1: use jps to review DataNode has been stopped

At slave2: use jps to review DataNode has been stopped

Thank you very much
Danairat T.
Line ID: Danairat
FB: Danairat Thanabodithammachari
+668-1559-1446, danairat@gmail.com, Certified Java Programmer

Setting up Hadoop YARN Clustering

More Related Content

What's hot (20)

Viewers also liked (15)

Similar to Setting up Hadoop YARN Clustering (20)

More from Danairat Thanabodithammachari (20)

Recently uploaded (20)

Setting up Hadoop YARN Clustering