Mapreduce

1) The document discusses cheating policies for an autograded assignment and paper presentation dates. It states that getting perfect scores should not be possible without cheating or a bug. 2) It then explains how sorting and streaming algorithms can be expressed as sequences of map, sort, and reduce operations on key-value pairs. 3) Finally, it discusses how Hadoop can parallelize these operations by distributing the data across multiple machines and disks, in order to speed up I/O-bound algorithms like searching large datasets.

Uploaded by

jefferyleclerc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views

Mapreduce

Uploaded by

jefferyleclerc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Map-Reduce With

Hadoop!
Announcement - 1!
• Assignment 1B:!
• Autolab is not secure and assignments aren’t
designed for adversarial interactions!
• Our policy: deliberately “gaming” an
autograded assignment is considered
cheating.!
• The default penalty for cheating is failing
the course.!
• Getting perfect test scores should not be
possible: you’re either cheating, or it’s a bug.!
Announcement - 2!
• Paper presentations: 3/3 and 3/5!
• Projects: !
• see “project info” on wiki!
• 1-2 page writeup of your idea: 2/17!
• Response to my feedback: 3/5!
• Option for 605 students to collaborate:!
• Proposals will be posted; proposers can
advertise slots for collaborators, who can be
605 students (1-2 per project max)!
• “Pay”: 1 less assignment, no exam!
Today: from stream+sort to hadoop!

• Looked at algorithms consisting of!

• Sorting (to organize messages)!
• Streaming (low-memory, line-by-line) file
transformations (“map” operations)!
• Streaming “reduce” operations, like summing
counts, that input files sorted by keys and operate
on contiguous runs of lines with the same keys!

• è Our algorithms could be expressed as sequences of

map-sort-reduce triples (allowing identity maps and
reduces) operating on sequences of key-value pairs!
• è To parallelize we can look at parallelizing these …!
Today: from stream+sort to hadoop!

• Important point:!
• Our code is not CPU-bound!
• It’s I/O bound!
• To speed it up, we need to add more disk drives, not
more CPUs.!
• Example: finding a particular line in 1 TB of data!

• è Our algorithms could be expressed as sequences of

map-sort-reduce triples (allowing identity maps and
reduces) operating on sequences of key-value pairs!
• è To parallelize we can look at parallelizing these …!
Write code to run assignment 1B
in parallel!!
• What infrastructure would you need?!

• How could you run a generic stream-and-sort algorithm in

parallel?!

• cat input.txt | MAP | sort | REDUCE > output.txt!

Key-value Sorted
Key-value pairs
Key-value pairs

pairs
key-val
(one/line)
(one/line)

(one/line)
pairs

e.g., labeled docs
e.g., aggregate
e.g. event
counts

counts

Marco Russo: DAX Optimization Examples
100% (1)
Marco Russo: DAX Optimization Examples
30 pages
Beyond Effective Go: Part 1 - Achieving High-Performance Code
From Everand
Beyond Effective Go: Part 1 - Achieving High-Performance Code
Corey S Scott
No ratings yet
Hadoop Python MapReduce Tutorial For Beginners
No ratings yet
Hadoop Python MapReduce Tutorial For Beginners
15 pages
Configurator 4.0 Concepts Guide Issue 1.0
No ratings yet
Configurator 4.0 Concepts Guide Issue 1.0
38 pages
Mapreduce
No ratings yet
Mapreduce
94 pages
Lez.d-01-Hadoop (A) Intro
No ratings yet
Lez.d-01-Hadoop (A) Intro
58 pages
09b - MapReduce
No ratings yet
09b - MapReduce
44 pages
3a - MapReduce Data Flow Scheduling Combiner Partitioner PDF
No ratings yet
3a - MapReduce Data Flow Scheduling Combiner Partitioner PDF
22 pages
Map Reduce Notes and Learning
No ratings yet
Map Reduce Notes and Learning
48 pages
Ch02a Mapreduce
No ratings yet
Ch02a Mapreduce
53 pages
Lecture 03
No ratings yet
Lecture 03
26 pages
Lecture 4: Mapreduce and Hadoop: Indranil Gupta (Indy)
No ratings yet
Lecture 4: Mapreduce and Hadoop: Indranil Gupta (Indy)
37 pages
Lecture - 3
No ratings yet
Lecture - 3
25 pages
Hadoop-Yahoo - Tutorial Course 1
No ratings yet
Hadoop-Yahoo - Tutorial Course 1
149 pages
Module2 C MapReduceParadigm
No ratings yet
Module2 C MapReduceParadigm
74 pages
Map Reduce
No ratings yet
Map Reduce
30 pages
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
55 pages
Big Data Computing
No ratings yet
Big Data Computing
36 pages
Unit 3 MapReduce Part 2
No ratings yet
Unit 3 MapReduce Part 2
12 pages
ProgrammingHadoop ApacheConUS08
No ratings yet
ProgrammingHadoop ApacheConUS08
7 pages
Map Reduce 1
No ratings yet
Map Reduce 1
50 pages
Hadoop
No ratings yet
Hadoop
28 pages
Ir MR 1
No ratings yet
Ir MR 1
34 pages
Hadoop Wordcount Program
No ratings yet
Hadoop Wordcount Program
20 pages
BDA RepeatedImp Questions
No ratings yet
BDA RepeatedImp Questions
30 pages
Palak
No ratings yet
Palak
10 pages
Unit 2 - From Hadoop Streaming PDF
No ratings yet
Unit 2 - From Hadoop Streaming PDF
20 pages
Map Reduce
No ratings yet
Map Reduce
44 pages
Chapter 9 - Processing Big Data With Mapreduce
No ratings yet
Chapter 9 - Processing Big Data With Mapreduce
157 pages
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
53 pages
Mapreduce: Simplified Data Processing On Large Clusters by Jeffrey Dean and Sanjay Ghemawa Presented by Jon Logan
No ratings yet
Mapreduce: Simplified Data Processing On Large Clusters by Jeffrey Dean and Sanjay Ghemawa Presented by Jon Logan
30 pages
BDT UNIT - III
No ratings yet
BDT UNIT - III
12 pages
Bda Unit III r20csm
No ratings yet
Bda Unit III r20csm
54 pages
Map Reduce Programming
No ratings yet
Map Reduce Programming
74 pages
MapReduce Algo Design Final
No ratings yet
MapReduce Algo Design Final
46 pages
3.4 Map Scheduler
No ratings yet
3.4 Map Scheduler
23 pages
Big Data
No ratings yet
Big Data
43 pages
BDA Lab 8 Manual
No ratings yet
BDA Lab 8 Manual
7 pages
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
24 pages
Hadoop: A Seminar Report On
No ratings yet
Hadoop: A Seminar Report On
28 pages
Bda Winter 2021 Solution
No ratings yet
Bda Winter 2021 Solution
27 pages
TM2 ch02 Mapreduce
No ratings yet
TM2 ch02 Mapreduce
51 pages
By Pallavi Mandal Class: CS-B Roll No.: 2014BCS1150
No ratings yet
By Pallavi Mandal Class: CS-B Roll No.: 2014BCS1150
17 pages
Big Data Analytics Module 3: Mapreduce Paradigm: Faculty Name: Ms. Varsha Sanap Dr. Vivek Singh
No ratings yet
Big Data Analytics Module 3: Mapreduce Paradigm: Faculty Name: Ms. Varsha Sanap Dr. Vivek Singh
36 pages
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
No ratings yet
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
54 pages
Unit v Programming Model
No ratings yet
Unit v Programming Model
53 pages
Bda CHP2
No ratings yet
Bda CHP2
105 pages
Ecs765p W2
No ratings yet
Ecs765p W2
55 pages
Map Reduce
No ratings yet
Map Reduce
25 pages
CC UNIT-7
No ratings yet
CC UNIT-7
16 pages
BDA Unit 3 1
No ratings yet
BDA Unit 3 1
37 pages
Big Data Analytics Unit-3
No ratings yet
Big Data Analytics Unit-3
29 pages
Map Reduce
No ratings yet
Map Reduce
26 pages
Introduction To MapReduce
No ratings yet
Introduction To MapReduce
9 pages
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
No ratings yet
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
71 pages
Map Reduce PDF
No ratings yet
Map Reduce PDF
29 pages
Best Hadoop Online Training
No ratings yet
Best Hadoop Online Training
41 pages
The Map Reduce Programming
No ratings yet
The Map Reduce Programming
15 pages
Big Data Unit 2_PPT1
No ratings yet
Big Data Unit 2_PPT1
15 pages
Map Reduce
No ratings yet
Map Reduce
28 pages
Hadoop: A Report Writing On
No ratings yet
Hadoop: A Report Writing On
13 pages
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
From Everand
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
Hunter Davis
No ratings yet
2 Mapreduce Model Principles
No ratings yet
2 Mapreduce Model Principles
7 pages
MapReduce - What It Is, and Why It Is So Popular
No ratings yet
MapReduce - What It Is, and Why It Is So Popular
7 pages
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-A
No ratings yet
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-A
7 pages
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-C
No ratings yet
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-C
10 pages
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-H
No ratings yet
2023 Data, Analytics, and Artificial Intelligence Adoption Strategy-H
4 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-5
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-5
4 pages
Balanced K-Means Revisited-1
No ratings yet
Balanced K-Means Revisited-1
3 pages
Paper Dvi
No ratings yet
Paper Dvi
7 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-1Q
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-1Q
2 pages
Balanced K-Means Revisited-5
No ratings yet
Balanced K-Means Revisited-5
3 pages
Hadoop
No ratings yet
Hadoop
7 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-17
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-17
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-1E
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-1E
2 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-P
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-P
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-O
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-O
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-16
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-16
3 pages
A Distance-Based Kernel For Classification Via Support Vector Machines - PMC-17
No ratings yet
A Distance-Based Kernel For Classification Via Support Vector Machines - PMC-17
1 page
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-14
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-14
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-4
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-4
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community
3 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-9
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-9
4 pages
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-A
No ratings yet
SAP HANA PAL - K-Means Algorithm or How To Do Cust... - SAP Community-A
6 pages
Fast Scalable K-Means++ Algorithm With Mapreduce
No ratings yet
Fast Scalable K-Means++ Algorithm With Mapreduce
2 pages
K-Means Clustering Optimization Algorithm Based On Mapreduce
No ratings yet
K-Means Clustering Optimization Algorithm Based On Mapreduce
6 pages
Tutorial For K Means Clustering in Python Sklearn - MLK - Machine Learning Knowledge-5
No ratings yet
Tutorial For K Means Clustering in Python Sklearn - MLK - Machine Learning Knowledge-5
3 pages
Data Visualization Cheat Sheet For Basic Machine Learning Algorithms - by Boriharn K - Mar, 2024 - Towards Data Science
No ratings yet
Data Visualization Cheat Sheet For Basic Machine Learning Algorithms - by Boriharn K - Mar, 2024 - Towards Data Science
3 pages
The Incremental Online K Means Clustering Algorithm and Its Application To Color Quantization
No ratings yet
The Incremental Online K Means Clustering Algorithm and Its Application To Color Quantization
42 pages
Improved K-Means Map Reduce Algorithm For Big Data Cluster Analysis
No ratings yet
Improved K-Means Map Reduce Algorithm For Big Data Cluster Analysis
7 pages
Analysis of Mapreduce Algorithms: Harini Padmanaban
No ratings yet
Analysis of Mapreduce Algorithms: Harini Padmanaban
6 pages
Fuzzy K-Mean Clustering in Mapreduce On Cloud Based Hadoop: Dweepna Garg
No ratings yet
Fuzzy K-Mean Clustering in Mapreduce On Cloud Based Hadoop: Dweepna Garg
4 pages
Web Vulnerability Scanner Project Report
No ratings yet
Web Vulnerability Scanner Project Report
51 pages
OAAM Design Document
No ratings yet
OAAM Design Document
10 pages
Cid 2 Code
No ratings yet
Cid 2 Code
662 pages
The Network Protocol Cheatsheet: Riddhi Suryavanshi
No ratings yet
The Network Protocol Cheatsheet: Riddhi Suryavanshi
6 pages
M.tech. (CSE) (Regular) Part I (Semester I & II)
No ratings yet
M.tech. (CSE) (Regular) Part I (Semester I & II)
23 pages
DB Assignment
No ratings yet
DB Assignment
6 pages
SAP HANA
No ratings yet
SAP HANA
13 pages
Comparative Analysis NVMe vs SATA
No ratings yet
Comparative Analysis NVMe vs SATA
3 pages
F3 Progression Form 19-20
No ratings yet
F3 Progression Form 19-20
1 page
CS3251 Programming in C Notes
No ratings yet
CS3251 Programming in C Notes
179 pages
Data Structures and Algorithms: Binary Search Trees BST Insertion
No ratings yet
Data Structures and Algorithms: Binary Search Trees BST Insertion
58 pages
Solutions Assignment1 Seg3155 2011w
No ratings yet
Solutions Assignment1 Seg3155 2011w
5 pages
Select Modifying Data: SQL Cheat Sheet - Mysql
No ratings yet
Select Modifying Data: SQL Cheat Sheet - Mysql
3 pages
Chapter 1: Cognos 8
No ratings yet
Chapter 1: Cognos 8
12 pages
SQL notes Part 1
No ratings yet
SQL notes Part 1
10 pages
Practice Set: Questions
No ratings yet
Practice Set: Questions
6 pages
Use of Session and Cookie in Login System
No ratings yet
Use of Session and Cookie in Login System
4 pages
CCNA Descovery 2 Lacture 1&2
No ratings yet
CCNA Descovery 2 Lacture 1&2
5 pages
PCVL Nle B2
No ratings yet
PCVL Nle B2
5 pages
Niam/Orm: References: G. M. Nijssen and Terry Halpin, Conceptual Schema and
No ratings yet
Niam/Orm: References: G. M. Nijssen and Terry Halpin, Conceptual Schema and
8 pages
AIA 900HostCommunicationSpecificationsRev1
No ratings yet
AIA 900HostCommunicationSpecificationsRev1
27 pages
CICS & COBOL Technical FAQ's Part III
No ratings yet
CICS & COBOL Technical FAQ's Part III
3 pages
Cracking PCGuard
No ratings yet
Cracking PCGuard
8 pages
Mcan Iso Compatibility 20160404
No ratings yet
Mcan Iso Compatibility 20160404
3 pages
Homework 1
No ratings yet
Homework 1
1 page
Jboss Eap Infinispan
No ratings yet
Jboss Eap Infinispan
2 pages
Computer Fundamentals - Quick Guide
100% (1)
Computer Fundamentals - Quick Guide
87 pages
Soa VS Mom
No ratings yet
Soa VS Mom
8 pages

Mapreduce

Uploaded by

Mapreduce

Uploaded by

Map-Reduce With

• Looked at algorithms consisting of!

• è Our algorithms could be expressed as sequences of

• è Our algorithms could be expressed as sequences of

• How could you run a generic stream-and-sort algorithm in

• cat input.txt | MAP | sort | REDUCE > output.txt!

You might also like