6 - Simple Wordcount

This document defines a Java program that performs word counting on text files stored in HDFS. It uses MapReduce where the Map class tokenizes the text by whitespace and outputs each word along with a count of 1. The Reduce class sums the counts for each word. The main method runs a MapReduce job that takes the input path, runs the Map and Reduce classes, and outputs the results to the provided output path.

Uploaded by

Xavier TxA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views2 pages

6 - Simple Wordcount

Uploaded by

Xavier TxA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

package wc;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;

public class wordcount1

{

public static class Map extends MapReduceBase implements

Mapper<LongWritable, Text, Text, IntWritable>
{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value, OutputCollector<Text,

IntWritable> output, Reporter reporter) throws IOException
{
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens())
{
word.set(tokenizer.nextToken());
output.collect(word, one);
}
}
}
public static class Reduce extends MapReduceBase implements Reducer<Text,
IntWritable, Text, IntWritable>
{
public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text,
IntWritable> output, Reporter reporter) throws IOException
{
int sum = 0;
while (values.hasNext())
{
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
}

public static void main(String[] args) throws Exception

{
JobConf conf = new JobConf(wordcount1.class);
conf.setJobName("wordcount");

conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);

conf.setMapperClass(Map.class);
conf.setCombinerClass(Reduce.class);
conf.setReducerClass(Reduce.class);

conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);

FileInputFormat.setInputPaths(conf, new Path(args[0]));

FileOutputFormat.setOutputPath(conf, new Path(args[1]));

JobClient.runJob(conf);
}
}

Input file: test.txt in HDFS

This is first lab

This is first program
Output file: part-00000 in HDFS

first,2
is,2
lab,1
program,1
This,2

Advanced Mapreduce
No ratings yet
Advanced Mapreduce
37 pages
8 - Pantum5103MFP Series Service Manual-20171205
No ratings yet
8 - Pantum5103MFP Series Service Manual-20171205
88 pages
CCBDI Full Lab Manual Anurag Removed
No ratings yet
CCBDI Full Lab Manual Anurag Removed
97 pages
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
No ratings yet
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
5 pages
BDF Programs
No ratings yet
BDF Programs
32 pages
M800-M80-E80 Series Instruction Manual Ib1501274engk
No ratings yet
M800-M80-E80 Series Instruction Manual Ib1501274engk
794 pages
Unit IV Programming Model
No ratings yet
Unit IV Programming Model
30 pages
3 MapReduce Program Ex Code
No ratings yet
3 MapReduce Program Ex Code
14 pages
Hadoop Wordcount Program
No ratings yet
Hadoop Wordcount Program
20 pages
MR Progs For Self Excercise
No ratings yet
MR Progs For Self Excercise
14 pages
ADA Lab Manual
No ratings yet
ADA Lab Manual
34 pages
Big Data Practical 2
No ratings yet
Big Data Practical 2
11 pages
Lab3 BigData-MapReduce
No ratings yet
Lab3 BigData-MapReduce
8 pages
B1 Instructions
No ratings yet
B1 Instructions
9 pages
Customer - 3.java: Import Import Import Import Import Import Import Import
No ratings yet
Customer - 3.java: Import Import Import Import Import Import Import Import
15 pages
BDA3
No ratings yet
BDA3
7 pages
BDA MapReduce Program
No ratings yet
BDA MapReduce Program
8 pages
Run Wordcount
No ratings yet
Run Wordcount
3 pages
DSBDA GRP B 1
No ratings yet
DSBDA GRP B 1
8 pages
MapReduce Programs
No ratings yet
MapReduce Programs
10 pages
DSBDA GRP B 1
No ratings yet
DSBDA GRP B 1
8 pages
Experiment-4 BDA LAB
No ratings yet
Experiment-4 BDA LAB
7 pages
Practical-2 Aim: Write A Program of Word Count in Map Reduce Over HDFS. Description
No ratings yet
Practical-2 Aim: Write A Program of Word Count in Map Reduce Over HDFS. Description
6 pages
Hadoop Mini Project
No ratings yet
Hadoop Mini Project
8 pages
Practical 3bcbs
No ratings yet
Practical 3bcbs
5 pages
Word Count Example
No ratings yet
Word Count Example
4 pages
Part B Assignment - No - 1
No ratings yet
Part B Assignment - No - 1
6 pages
Steps To Create Jar File and Execute Word Count Problem in Mapper Reducer
No ratings yet
Steps To Create Jar File and Execute Word Count Problem in Mapper Reducer
5 pages
Cloud LAB 10.1,11.1,12.1
No ratings yet
Cloud LAB 10.1,11.1,12.1
6 pages
DA Lab Program-2
No ratings yet
DA Lab Program-2
6 pages
Word Count Example
No ratings yet
Word Count Example
4 pages
Map Reduce
No ratings yet
Map Reduce
4 pages
Exp 3-Word Count
No ratings yet
Exp 3-Word Count
4 pages
Palak
No ratings yet
Palak
10 pages
PART 1 - Install Java and Hadoop On Ubuntu
No ratings yet
PART 1 - Install Java and Hadoop On Ubuntu
4 pages
Experiment 6 BDA
No ratings yet
Experiment 6 BDA
4 pages
Source Code For Wordcount
No ratings yet
Source Code For Wordcount
3 pages
Word Count Program
No ratings yet
Word Count Program
3 pages
Import Import Import Import Import Import Import Import Public Class Extends Implements
No ratings yet
Import Import Import Import Import Import Import Import Public Class Extends Implements
7 pages
Guide To Graph Colouring Algorithms and Applications
No ratings yet
Guide To Graph Colouring Algorithms and Applications
315 pages
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
No ratings yet
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
13 pages
Wordcount
No ratings yet
Wordcount
3 pages
Classcreation
No ratings yet
Classcreation
2 pages
1 Word Count
No ratings yet
1 Word Count
2 pages
Sribharanitharan.M 71762234049
No ratings yet
Sribharanitharan.M 71762234049
2 pages
Map Reduce Java Program
No ratings yet
Map Reduce Java Program
2 pages
Hadoop WordCount
No ratings yet
Hadoop WordCount
2 pages
Exp 4 Word Count
No ratings yet
Exp 4 Word Count
4 pages
Word Count Program
No ratings yet
Word Count Program
2 pages
WordCountApp
No ratings yet
WordCountApp
2 pages
Wrordcount
No ratings yet
Wrordcount
2 pages
BDC Output 3
No ratings yet
BDC Output 3
4 pages
Prerequisites: Single Node Setup Cluster Setup
No ratings yet
Prerequisites: Single Node Setup Cluster Setup
5 pages
Practical 2c
No ratings yet
Practical 2c
2 pages
Steps: /usr/lib/hadoop-0.20/ Usr/lib/hadoop-0.20/lib
No ratings yet
Steps: /usr/lib/hadoop-0.20/ Usr/lib/hadoop-0.20/lib
4 pages
Codigo Haddop
No ratings yet
Codigo Haddop
3 pages
02-Wordcount Mapreduce
No ratings yet
02-Wordcount Mapreduce
5 pages
579 BDA Week-04
No ratings yet
579 BDA Week-04
1 page
MapReduce Example
No ratings yet
MapReduce Example
3 pages
Word Count
No ratings yet
Word Count
3 pages
Map Reduce Program
No ratings yet
Map Reduce Program
2 pages
To Count Using Map and Reduce Program: Wordcount - Java
No ratings yet
To Count Using Map and Reduce Program: Wordcount - Java
2 pages
Bigdata-Bigdata (Set 1)
No ratings yet
Bigdata-Bigdata (Set 1)
11 pages
Thrisith Resume - React JS Frontend Developer
No ratings yet
Thrisith Resume - React JS Frontend Developer
1 page
Sidebar
No ratings yet
Sidebar
115 pages
01-10 CANBUS Signal Description
No ratings yet
01-10 CANBUS Signal Description
11 pages
Drone RP1
No ratings yet
Drone RP1
1 page
New PT Study Finds That Dell EMC PowerStore 7000 Series Arrays Outperformed The HPE Primera A670 in Data Reduction, Performance, Out Of-The-Box VM Deployment and More
No ratings yet
New PT Study Finds That Dell EMC PowerStore 7000 Series Arrays Outperformed The HPE Primera A670 in Data Reduction, Performance, Out Of-The-Box VM Deployment and More
2 pages
PGMP Catalog
No ratings yet
PGMP Catalog
13 pages
Advertisement For Recruitment of Trainee JO & Clerks May 2022
No ratings yet
Advertisement For Recruitment of Trainee JO & Clerks May 2022
10 pages
Position S + 1 in Text T) If 0 S N - M and T (S + 1 - . S + M) P (1 - . M) (That Is, If T (S + J) P (J), For 1 J M) - If
100% (1)
Position S + 1 in Text T) If 0 S N - M and T (S + 1 - . S + M) P (1 - . M) (That Is, If T (S + J) P (J), For 1 J M) - If
2 pages
Timedtrial Log
No ratings yet
Timedtrial Log
61 pages
Data Acquisition and Quality
No ratings yet
Data Acquisition and Quality
5 pages
Log TGT101MM2 26082023
No ratings yet
Log TGT101MM2 26082023
7 pages
Chirag Mahaveer Chivate SEMINARREPORT
No ratings yet
Chirag Mahaveer Chivate SEMINARREPORT
20 pages
CSS Lab Manual - Print
No ratings yet
CSS Lab Manual - Print
45 pages
9305 - Datasheet UPS
No ratings yet
9305 - Datasheet UPS
2 pages
Os101 Reviewer
No ratings yet
Os101 Reviewer
14 pages
Business Process Reengineering (BPR) : A Case Study On Computer Center Service
No ratings yet
Business Process Reengineering (BPR) : A Case Study On Computer Center Service
15 pages
3.1. Evaluarea Satisfactiei Beneficiarilor Educationali - 1. Managemantul Clasei
No ratings yet
3.1. Evaluarea Satisfactiei Beneficiarilor Educationali - 1. Managemantul Clasei
20 pages
Introduction To MSIL
No ratings yet
Introduction To MSIL
33 pages
Kulkarni 2019
No ratings yet
Kulkarni 2019
6 pages
VideoLogic Multiple Region Headers Example Uses
No ratings yet
VideoLogic Multiple Region Headers Example Uses
9 pages
Stack ADT Java
No ratings yet
Stack ADT Java
10 pages
Linear Search&binary Search
No ratings yet
Linear Search&binary Search
5 pages
Extractive Text Summarization Using Sentence Ranking: J.N.Madhuri Ganesh Kumar.R
No ratings yet
Extractive Text Summarization Using Sentence Ranking: J.N.Madhuri Ganesh Kumar.R
3 pages
Reseacrh Format
No ratings yet
Reseacrh Format
5 pages
Logic Development
No ratings yet
Logic Development
4 pages
Intrusion Detection Technique (Idt) 4.1 Introduction To Intrusion Detection (ID)
No ratings yet
Intrusion Detection Technique (Idt) 4.1 Introduction To Intrusion Detection (ID)
10 pages
Angular 10 With ASP - NET Core 3.1
No ratings yet
Angular 10 With ASP - NET Core 3.1
4 pages
Gravity Workout
No ratings yet
Gravity Workout
4 pages
AISpace Idea
No ratings yet
AISpace Idea
4 pages
Packing Slip
No ratings yet
Packing Slip
2 pages
1.what Is Dynamic Programming?
No ratings yet
1.what Is Dynamic Programming?
3 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet

6 - Simple Wordcount

Uploaded by

6 - Simple Wordcount

Uploaded by

package wc;

public class wordcount1

public static class Map extends MapReduceBase implements

public void map(LongWritable key, Text value, OutputCollector<Text,

public static void main(String[] args) throws Exception

FileInputFormat.setInputPaths(conf, new Path(args[0]));

Input file: test.txt in HDFS

This is first lab

You might also like