9 Practicas+BigData MapReduce

The document provides an overview of practicing MapReduce on Apasoft Training. It describes running a word count job on the text of Don Quixote stored in HDFS, viewing the results on the YARN application interface, and accessing log details of mappers and reducers.

Uploaded by

Fabian Forero

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

100 views6 pages

9 Practicas+BigData MapReduce

Uploaded by

Fabian Forero

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Apasoft Training

Prácticas BigData
1. MapReduce
• Vamos a subir al directorio prácticas un fichero denominado “quijote.txt” que
contiene el Quijote. Lo tienes disponible en los recursos de las prácticas. Lo más
sencillo es que lo descargues desde la propia máquina virtual
hdfs dfs -put /home/hadoop/Descargas/quijote.txt /practicas
• NOTA IMPORTANTE: Aquellos que estáis usando Hadoop 3, es posible que
el siguiente ejemplo no funcione correctamente. En ese caso tenemos que añadir
al fichero yarn-site.xml el siguiente contenido. Por supuesto adaptarlo a vuestro
HADOOP_PATH
<property>
<name>yarn.application.classpath</name>
<value>
/opt/hadoop3/hadoop/etc/hadoop,
/opt/hadoop3/share/hadoop/common/*,
/opt/hadoop3/share/hadoop/common/lib/*,
/opt/hadoop3/share/hadoop/hdfs/*,
/opt/hadoop3/share/hadoop/hdfs/lib/*,
/opt/hadoop3/share/hadoop/mapreduce/*,
/opt/hadoop3/share/hadoop/mapreduce/lib/*,
/opt/hadoop3/share/hadoop/yarn/*,
/opt/hadoop3/share/hadoop/yarn/lib/*
</value>
</property>
• Lanzamos el wordcount contra el fichero. Indicamos el directorio de salida
donde dejar el resultado, en este caso en /practicas/resultado (siempre en HDFS)
hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-
examples-2.9.0.jar wordcount /practicas/quijote.txt /practicas/resultado
8/01/06 19:29:24 INFO Configuration.deprecation: session.id is deprecated.
Instead, use dfs.metrics.session-id
18/01/06 19:29:24 INFO jvm.JvmMetrics: Initializing JVM Metrics with
processName=JobTracker, sessionId=
18/01/06 19:29:26 INFO input.FileInputFormat: Total input files to process : 1
18/01/06 19:29:27 INFO mapreduce.JobSubmitter: number of splits:1
18/01/06 19:29:28 INFO mapreduce.JobSubmitter: Submitting tokens for job:
job_local382862986_0001
18/01/06 19:29:28 INFO mapreduce.Job: The url to track the job:
http://localhost:8080/
18/01/06 19:29:28 INFO mapreduce.Job: Running job:
job_local382862986_0001

www.apasoft-training.com 1
Apasoft Training

18/01/06 19:29:28 INFO mapred.LocalJobRunner: OutputCommitter set in

config null
18/01/06 19:29:28 INFO output.FileOutputCommitter: File Output Committer
Algorithm version is 1
18/01/06 19:29:28 INFO output.FileOutputCommitter: FileOutputCommitter
skip cleanup _temporary folders under output directory:false, ignore cleanup
failures: false
18/01/06 19:29:28 INFO mapred.LocalJobRunner: OutputCommitter is
org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
…..
……
……
8/01/06 19:29:35 INFO mapreduce.Job: Job job_local382862986_0001
completed successfully
18/01/06 19:29:35 INFO mapreduce.Job: Counters: 35
File System Counters
FILE: Number of bytes read=1818006
FILE: Number of bytes written=3374967
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=4397854
HDFS: Number of bytes written=448894
HDFS: Number of read operations=13
HDFS: Number of large read operations=0
HDFS: Number of write operations=4
Map-Reduce Framework
Map input records=37861
Map output records=384260
Map output bytes=3688599
Map output materialized bytes=605509
Input split bytes=108
Combine input records=384260
Combine output records=40059
Reduce input groups=40059
Reduce shuffle bytes=605509
Reduce input records=40059

www.apasoft-training.com 2
Apasoft Training

Reduce output records=40059

Spilled Records=80118
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=100
Total committed heap usage (bytes)=331489280
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=2198927
File Output Format Counters
Bytes Written=448894
• Vemos que nos hace un resumen del resultado
• Podemos ver el contenido del directorio
hdfs dfs -ls /practicas/resultado
Found 2 items
-rw-r--r-- 1 hadoop supergroup 0 2018-01-06 19:29
/practicas/resultado/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 448894 2018-01-06 19:29
/practicas/resultado/part-r-00000
• Podemos traerlo desde HDFS al Linux con el comando “get” y lo dejamos en
/tmp con otro nombre
hdfs dfs -get /practicas/resultado/part-r-00000 /tmp/palabras_quijote.txt
Con “vi” podemos ver el contenido
Mal 1
"Al 1
"Cuando 2
"Cuidados 1
"De 2

www.apasoft-training.com 3
Apasoft Training

"Defects," 1
"Desnudo 1
"Dijo 1
"Dime 1
"Don 1
"Donde 1
"Dulcinea 1
"El 2
"Esta 1
"Harto 1
"Iglesia, 1
"Information 1
"Más 2
"No 5
"Nunca 1
"Plain 2
"Project 5
"Que 1
"Quien 1
"Right 1
"Salta 1
"Sancho 1
"Si 3
"Tened 1
"Toda 1
"Vengan 1
"Vete, 1
"/tmp/palabras_quijote.txt" 40059L, 448894C
• Accedemos a la WEB de Administración de YARN.
• Si seleccionamos la opción “Applications” podemos ver la aplicación que
acabamos de lanzar

www.apasoft-training.com 4
Apasoft Training

• A la derecha de la aplicación, si pulsamos sobre “history”, podremos ver

el detalle completo de la aplicación

• Podemos ver información muy valiosa

•

www.apasoft-training.com 5
Apasoft Training

• Seleccionando un mapper o un reducer podemos acceder a su

información: nodo en el que se ha ejecutado, etc…

www.apasoft-training.com 6

Steps in Syniti ADMM For Development
No ratings yet
Steps in Syniti ADMM For Development
11 pages
AWS Cloud Practitioner Practice Set 2
100% (1)
AWS Cloud Practitioner Practice Set 2
63 pages
General 14-1-2025 All Jobs
No ratings yet
General 14-1-2025 All Jobs
336 pages
Azure Data Engineering Interview Q & A - Topicwise
No ratings yet
Azure Data Engineering Interview Q & A - Topicwise
57 pages
MDM System Management Training
No ratings yet
MDM System Management Training
199 pages
Oracle DataGuard Physical Standby Installation Step by Step Using RMAN
No ratings yet
Oracle DataGuard Physical Standby Installation Step by Step Using RMAN
10 pages
Unit-Iii Advanced Database Systems
No ratings yet
Unit-Iii Advanced Database Systems
29 pages
Introduction To MapReduce
No ratings yet
Introduction To MapReduce
17 pages
eBOOKPython5 3 2023
No ratings yet
eBOOKPython5 3 2023
39 pages
CS441 FinalTerm PPT by AC 03222254114
No ratings yet
CS441 FinalTerm PPT by AC 03222254114
456 pages
Map Reduce
No ratings yet
Map Reduce
30 pages
Talend Subramanyam B Feb 2022
No ratings yet
Talend Subramanyam B Feb 2022
283 pages
Unit II Hadoop and Map Reduce Overview
No ratings yet
Unit II Hadoop and Map Reduce Overview
136 pages
02 Hadoop
No ratings yet
02 Hadoop
117 pages
Class Xii - Cs - Split Up 2024-25 Kvs
No ratings yet
Class Xii - Cs - Split Up 2024-25 Kvs
4 pages
Mindtree Technical Interview Questions For Freshers
No ratings yet
Mindtree Technical Interview Questions For Freshers
4 pages
Bda Lab S
No ratings yet
Bda Lab S
92 pages
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
No ratings yet
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
54 pages
Big Data Lab Manual Printout
No ratings yet
Big Data Lab Manual Printout
51 pages
Bigdata Lab
No ratings yet
Bigdata Lab
55 pages
Bda Megh
No ratings yet
Bda Megh
50 pages
Unit 3
No ratings yet
Unit 3
70 pages
38 GM - ASAP-Association Rule Mining
No ratings yet
38 GM - ASAP-Association Rule Mining
64 pages
Practical Slips Answers Java
No ratings yet
Practical Slips Answers Java
58 pages
BDA Manual
No ratings yet
BDA Manual
41 pages
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
No ratings yet
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
71 pages
Blue Orange Hiking Bag Sales Presentation
No ratings yet
Blue Orange Hiking Bag Sales Presentation
63 pages
BDA Lab Manual - Organized
No ratings yet
BDA Lab Manual - Organized
69 pages
Unit 4 Da
No ratings yet
Unit 4 Da
57 pages
CS702 Big Data Programs
No ratings yet
CS702 Big Data Programs
58 pages
CS-702 (D) BigData
No ratings yet
CS-702 (D) BigData
61 pages
Big Data Akshat
No ratings yet
Big Data Akshat
57 pages
09b - MapReduce
No ratings yet
09b - MapReduce
44 pages
006 Practical List of DM-2023
No ratings yet
006 Practical List of DM-2023
1 page
Unit Iii
No ratings yet
Unit Iii
38 pages
Hadoop BigData Testing Overview
No ratings yet
Hadoop BigData Testing Overview
37 pages
@bigdatalabfile 09
No ratings yet
@bigdatalabfile 09
35 pages
CS702 Big Data Programs
No ratings yet
CS702 Big Data Programs
59 pages
Map Reduce Notes and Learning
No ratings yet
Map Reduce Notes and Learning
48 pages
Blood Bank Mini Project Batch-12 Final (1) .1 (3.1)
No ratings yet
Blood Bank Mini Project Batch-12 Final (1) .1 (3.1)
51 pages
M4 06 MapReduce
No ratings yet
M4 06 MapReduce
28 pages
Parlab Parallel Boot Camp Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp Cloud Computing With Mapreduce and Hadoop
49 pages
Cloud Based Complaint Management Service
No ratings yet
Cloud Based Complaint Management Service
67 pages
Cloud PDF
No ratings yet
Cloud PDF
47 pages
Hadoop Module1
No ratings yet
Hadoop Module1
37 pages
Practical-1: Aim:-Make A Single Node Cluster in Hadoop. Solution
No ratings yet
Practical-1: Aim:-Make A Single Node Cluster in Hadoop. Solution
49 pages
Lsde Workshop wk9
No ratings yet
Lsde Workshop wk9
31 pages
Module 3 - Mapreduce
No ratings yet
Module 3 - Mapreduce
40 pages
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
55 pages
Lecture 1 - Map Reduce
No ratings yet
Lecture 1 - Map Reduce
31 pages
Week 14
No ratings yet
Week 14
33 pages
Chapter3 HDFS MapReduce YARN
No ratings yet
Chapter3 HDFS MapReduce YARN
35 pages
Map Reduce
No ratings yet
Map Reduce
25 pages
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
24 pages
Lecture - 3
No ratings yet
Lecture - 3
25 pages
Hadoop Spark
No ratings yet
Hadoop Spark
34 pages
TP 2
No ratings yet
TP 2
30 pages
BDF Programs
No ratings yet
BDF Programs
32 pages
1.4 Map Reduce
No ratings yet
1.4 Map Reduce
30 pages
How To Find Articles
No ratings yet
How To Find Articles
27 pages
3.4 Map Scheduler
No ratings yet
3.4 Map Scheduler
23 pages
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
24 pages
Bda Lab Manual
No ratings yet
Bda Lab Manual
20 pages
DatabaseDesignDocumentV1 1
No ratings yet
DatabaseDesignDocumentV1 1
15 pages
Module-1: Hdfs Basics Running Example Programs and Benchmarks Hadoop Mapreduce Framework Mapreduce Programming
No ratings yet
Module-1: Hdfs Basics Running Example Programs and Benchmarks Hadoop Mapreduce Framework Mapreduce Programming
33 pages
Hadoop Lab Hdfs FSB
No ratings yet
Hadoop Lab Hdfs FSB
10 pages
Map Reduce
No ratings yet
Map Reduce
28 pages
Bda Experiment No2
No ratings yet
Bda Experiment No2
12 pages
UNIT III Programs
No ratings yet
UNIT III Programs
18 pages
BDA Lab
No ratings yet
BDA Lab
13 pages
DSBDA GRP B 1
No ratings yet
DSBDA GRP B 1
8 pages
Hadoop Administrator Training - Lab Hand Book
No ratings yet
Hadoop Administrator Training - Lab Hand Book
12 pages
Practice 2
No ratings yet
Practice 2
7 pages
Bda 1
No ratings yet
Bda 1
6 pages
Introduction To MySQL
No ratings yet
Introduction To MySQL
16 pages
5-Practicas+BigData Trabajar Hdfs
No ratings yet
5-Practicas+BigData Trabajar Hdfs
10 pages
Application Based, Advantageous K-Means Clustering Algorithm in Data Mining - A Review
No ratings yet
Application Based, Advantageous K-Means Clustering Algorithm in Data Mining - A Review
6 pages
SAP Memory Management
No ratings yet
SAP Memory Management
8 pages
$ Hdfs Dfsadmin - Report
No ratings yet
$ Hdfs Dfsadmin - Report
7 pages
BI Developer
No ratings yet
BI Developer
8 pages
Tarala Leizel Oracle Laboratory 2
No ratings yet
Tarala Leizel Oracle Laboratory 2
7 pages
Prerequisites: Single Node Setup Cluster Setup
No ratings yet
Prerequisites: Single Node Setup Cluster Setup
5 pages
SQL Server 2019 Editions Datasheet
No ratings yet
SQL Server 2019 Editions Datasheet
3 pages
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
No ratings yet
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
3 pages
Study The Image Below This Question. What Happens If You Press The Icon Circled in Orange Located at The Top Left-Hand Corner of The Worksheet?
No ratings yet
Study The Image Below This Question. What Happens If You Press The Icon Circled in Orange Located at The Top Left-Hand Corner of The Worksheet?
3 pages
Chapter 11
No ratings yet
Chapter 11
28 pages
Setup Hadoop Gettingstart
No ratings yet
Setup Hadoop Gettingstart
4 pages

9 Practicas+BigData MapReduce

Uploaded by

9 Practicas+BigData MapReduce

Uploaded by

Apasoft Training

18/01/06 19:29:28 INFO mapred.LocalJobRunner: OutputCommitter set in

Reduce output records=40059

• A la derecha de la aplicación, si pulsamos sobre “history”, podremos ver

• Podemos ver información muy valiosa

• Seleccionando un mapper o un reducer podemos acceder a su

You might also like