0% found this document useful (0 votes)

9 views36 pages

Spark Context, Resilient Distributed Datasets

Uploaded by

cakvlr

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views36 pages

Spark Context, Resilient Distributed Datasets

Uploaded by

cakvlr

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 36

Preface

Content of this Lecture:

In this lecture, we will discuss the ‘framework of

spark’, Resilient Distributed Datasets (RDDs) and also
discuss Spark execution.

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Apache Spark is a big data analytics framework that
was originally developed at the University of
California, Berkeley's AMPLab, in 2012. Since then, it
has gained a lot of attraction both in academia and in
industry.

It is an another system for big data analytics

Isn’t MapReduce good enough?

Simplifies batch processing on large commodity clusters

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Map Reduce

Input Output

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
Map Reduce

Expensive save to disk for fault

tolerance
Input Output

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
MapReduce can be expensive for some applications e.g.,
Iterative
Interactive

Lacks efficient data sharing

Specialized frameworks did evolve for different programming

models
Bulk Synchronous Processing (Pregel)
Iterative MapReduce (Hadoop) ….

Big Data Computing Vu Pham Introduction to Spark

Solution: Resilient Distributed Datasets (RDDs)

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Built through coarse grained transformations (map, join …)
Can be cached for efficient reuse

Big Data Computing Vu Pham Introduction to Spark

Need of Spark
RDD RDD RDD

Read

HDFS
Read Cache

Map Reduce
Big Data Computing Vu Pham Introduction to Spark
Solution: Resilient Distributed Datasets (RDDs)

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Built through coarse grained transformations (map, join …)

Fault Recovery?
Lineage!
Log the coarse grained operation applied to a
partitioned dataset
Simply recompute the lost partition if failure occurs!
No cost if no failure

Big Data Computing Vu Pham Introduction to Spark

RDD RDD RDD

Read

HDFS
Read Cache

Map Reduce

Big Data Computing Vu Pham Introduction to Spark

Read
HDFS Map Reduce
Lineage

Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

RDD RDD RDD

Read

HDFS RDDs track the graph of

Read transformations that built them Cache
(their lineage) to rebuild lost data

Map Reduce

Big Data Computing Vu Pham Introduction to Spark

What can you do with Spark?
RDD operations
Transformations e.g., filter, join, map, group-by …
Actions e.g., count, print …

Control
Partitioning: Spark also gives you control over how you can
partition your RDDs.

Persistence: Allows you to choose whether you want to

persist RDD onto disk or not.

Big Data Computing Vu Pham Introduction to Spark

Spark Applications
i. Twitter spam classification

ii. EM algorithm for traffic prediction

iii. K-means clustering

iv. Alternating Least Squares matrix factorization

v. In-memory OLAP aggregation on Hive data

vi. SQL on Spark

Big Data Computing Vu Pham Introduction to Spark

Reading Material
Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin,
Scott Shenker, Ion Stoica
“Spark: Cluster Computing with Working Sets”

Matei Zaharia, Mosharaf Chowdhury et al.

“Resilient Distributed Datasets: A Fault-Tolerant
Abstraction for In-Memory Cluster Computing”

https://spark.apache.org/

Big Data Computing Vu Pham Introduction to Spark

Spark Execution

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Broadcast)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Take)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (DAG Action)

Big Data Computing Vu Pham Introduction to Spark

Distributed Programming (Shuffle)

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)
Action
Count
Take
Foreach
Transformation
Map
ReduceByKey
GroupByKey
JoinByKey

Big Data Computing Vu Pham Introduction to Spark

DAG (Directed Acyclic Graph)

Big Data Computing Vu Pham Introduction to Spark

Flume Java

Big Data Computing Vu Pham Introduction to Spark

Spark Implementation

Big Data Computing Vu Pham Introduction to Spark

Spark ideas
Expressive computing system, not limited to
map-reduce model

Facilitate system memory

avoid saving intermediate results to disk
cache data for repetitive queries (e.g. for machine
learning)

Compatible with Hadoop

Big Data Computing Vu Pham Introduction to Spark

RDD abstraction

Resilient Distributed Datasets

Partitioned collection of records
Spread across the cluster
Read-only
Caching dataset in memory
different storage levels available
fallback to disk possible

Big Data Computing Vu Pham Introduction to Spark

RDD operations
Transformations to build RDDs through
deterministic operations on other RDDs
transformations include map, filter, join
lazy operation

Actions to return value or export data

actions include count, collect, save
triggers execution

Big Data Computing Vu Pham Introduction to Spark

Spark Components

Big Data Computing Vu Pham Introduction to Spark

Job example
val log = sc.textFile(“hdfs://...”)
val errors = file.filter(_.contains(“ERROR”))
errors.cache()
Driver
errors.filter(_.contains(“I/O”)).count()
errors.filter(_.contains(“timeout”)).count()

Action!

Worker Worker Worker

Cache1 Cache2 Cache2

Block1 Block2 Block3

Big Data Computing Vu Pham Introduction to Spark

RDD partition-level view

Dataset-level view: Partition-level view:

log:
HadoopRDD
path = hdfs://...

errors:
FilteredRDD
func = _.contains(…)
shouldCache = true
Task 1 Task 2 ...

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals

Big Data Computing Vu Pham Introduction to Spark

Job scheduling

RDD Objects DAGScheduler TaskScheduler Worker

Cluster Threads
DAG TaskSet manager Task Block
manager

rdd1.join(rdd2) split graph into launch tasks via execute tasks

.groupBy(…)
stages of tasks cluster manager
.filter(…)
submit each retry failed or store and serve
build operator DAG
stage as ready straggling tasks blocks

source: https://cwiki.apache.org/confluence/display/SPARK/Spark+Internals

Big Data Computing Vu Pham Introduction to Spark

Available APIs
You can write in Java, Scala or Python

Interactive interpreter: Scala & Python only

Standalone applications: any

Performance: Java & Scala are faster thanks to

static typing

Big Data Computing Vu Pham Introduction to Spark

Hand on - interpreter

script
http://cern.ch/kacper/spark.txt

run scala spark interpreter

$ spark-shell

or python interpreter
$ pyspark

Big Data Computing Vu Pham Introduction to Spark

Hand on – build and submission

download and unpack source code

wget http://cern.ch/kacper/GvaWeather.tar.gz; tar -xzf GvaWeather.tar.gz
build definition in
GvaWeather/gvaweather.sbt
source code
GvaWeather/src/main/scala/GvaWeather.scala
building
cd GvaWeather
sbt package
job submission
spark-submit --master local --class GvaWeather \
target/scala-2.10/gva-weather_2.10-1.0.jar

Big Data Computing Vu Pham Introduction to Spark

Summary
Concept not limited to single pass map-reduce

Avoid sorting intermediate results on disk or

HDFS

Speedup computations when reusing datasets

Big Data Computing Vu Pham Introduction to Spark

Conclusion

RDDs (Resilient Distributed Datasets (RDDs) provide

a simple and efficient programming model

Generalized to a broad set of applications

Leverages coarse-grained nature of parallel

algorithms for failure recovery

Big Data Computing Vu Pham Introduction to Spark

Q.1. Define Problem. What Are Steps in Problem Solving? Definition of Problem
100% (1)
Q.1. Define Problem. What Are Steps in Problem Solving? Definition of Problem
30 pages
SPARK
No ratings yet
SPARK
66 pages
Chapter Three
No ratings yet
Chapter Three
25 pages
Week 8 - Lecture Notes
No ratings yet
Week 8 - Lecture Notes
75 pages
Spark Architecture
No ratings yet
Spark Architecture
7 pages
MDN 0212DG
No ratings yet
MDN 0212DG
96 pages
Introduction To Spark PDF
No ratings yet
Introduction To Spark PDF
37 pages
Pyspark
No ratings yet
Pyspark
31 pages
Spark PPT
No ratings yet
Spark PPT
55 pages
SPARK
No ratings yet
SPARK
35 pages
BD 07 Spark
No ratings yet
BD 07 Spark
49 pages
bd1718 10 Spark
No ratings yet
bd1718 10 Spark
55 pages
Lecture - Spark
No ratings yet
Lecture - Spark
48 pages
Comp9313: Big Data Management: Introduction To Mapreduce and Spark
No ratings yet
Comp9313: Big Data Management: Introduction To Mapreduce and Spark
30 pages
PAN OS 6.0 Admin Guide PDF
No ratings yet
PAN OS 6.0 Admin Guide PDF
348 pages
BDA Lect5 Apache Spark 2023
No ratings yet
BDA Lect5 Apache Spark 2023
115 pages
Bda Notes
No ratings yet
Bda Notes
241 pages
A Practical Guide To Azure DevOps Learn by Doing
100% (11)
A Practical Guide To Azure DevOps Learn by Doing
170 pages
Big Data - Spark
100% (1)
Big Data - Spark
72 pages
Intro To Spark Development
No ratings yet
Intro To Spark Development
172 pages
SPARK
No ratings yet
SPARK
47 pages
Chapter 7 Spark Computing Engine
No ratings yet
Chapter 7 Spark Computing Engine
42 pages
Big Data Engineering - PySpark
100% (2)
Big Data Engineering - PySpark
120 pages
Pyspark DataEngineering Power Guide
No ratings yet
Pyspark DataEngineering Power Guide
73 pages
BDM Spark Sparksq
No ratings yet
BDM Spark Sparksq
63 pages
Spark
No ratings yet
Spark
96 pages
Unit-V Spark
No ratings yet
Unit-V Spark
69 pages
Spark A To Z
No ratings yet
Spark A To Z
63 pages
Lecture 19-RDD in Spark
No ratings yet
Lecture 19-RDD in Spark
12 pages
SPARK Architecture
No ratings yet
SPARK Architecture
22 pages
Security Control Types
100% (1)
Security Control Types
4 pages
8 Apache Spark
No ratings yet
8 Apache Spark
25 pages
Intro To Apache Spark
No ratings yet
Intro To Apache Spark
66 pages
4 Spark SBP
No ratings yet
4 Spark SBP
74 pages
Course Slideware
No ratings yet
Course Slideware
60 pages
Spark (Introduction, RDD)
No ratings yet
Spark (Introduction, RDD)
28 pages
Spark Class 1
No ratings yet
Spark Class 1
33 pages
Bda Unit 5 - Mam
No ratings yet
Bda Unit 5 - Mam
44 pages
Lecture 25
No ratings yet
Lecture 25
59 pages
Apache Spark
No ratings yet
Apache Spark
31 pages
Introduction To Spark
No ratings yet
Introduction To Spark
54 pages
BDA Lec7
No ratings yet
BDA Lec7
32 pages
Spark Introduction
No ratings yet
Spark Introduction
26 pages
7 Spark
No ratings yet
7 Spark
9 pages
BDA Lec8
No ratings yet
BDA Lec8
39 pages
C5-SPARK Technology
No ratings yet
C5-SPARK Technology
39 pages
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
No ratings yet
CISD 42 Introduction To Spark - Spark Transformation - Spark Actions
27 pages
Introduction To Big Data With Apache Spark: Uc Berkeley
No ratings yet
Introduction To Big Data With Apache Spark: Uc Berkeley
43 pages
Spark Class 1 PPT
No ratings yet
Spark Class 1 PPT
33 pages
Apache Hadoop and Spark:: and Use Cases For Data Analysis
No ratings yet
Apache Hadoop and Spark:: and Use Cases For Data Analysis
48 pages
Cse3002 Big Data m3 Detailed
No ratings yet
Cse3002 Big Data m3 Detailed
39 pages
Distributed Database Systems: - Spark I
No ratings yet
Distributed Database Systems: - Spark I
59 pages
Module 3
No ratings yet
Module 3
51 pages
Bootcamp Keynote
No ratings yet
Bootcamp Keynote
47 pages
Spark Summit East 2015 - Adv Dev Ops - Student Slides
No ratings yet
Spark Summit East 2015 - Adv Dev Ops - Student Slides
219 pages
Spark Overview
No ratings yet
Spark Overview
31 pages
Analytics at Large Scale in Spark
No ratings yet
Analytics at Large Scale in Spark
13 pages
Introduction To Spark
No ratings yet
Introduction To Spark
30 pages
Scala and Spark Overview PDF
No ratings yet
Scala and Spark Overview PDF
37 pages
Apache Spark With Java
No ratings yet
Apache Spark With Java
209 pages
Big Data Computing Spark Basics and RDD: Ke Yi
No ratings yet
Big Data Computing Spark Basics and RDD: Ke Yi
43 pages
Apach Spark With Scala Slides
No ratings yet
Apach Spark With Scala Slides
187 pages
Apache Spark: The Next Gen Toolset For Big Data Processing
No ratings yet
Apache Spark: The Next Gen Toolset For Big Data Processing
9 pages
Readme (Edrw)
No ratings yet
Readme (Edrw)
2 pages
Big Data Assignment
No ratings yet
Big Data Assignment
6 pages
Title: - Develop Javascript To Use Decision Making and Looping Statements
No ratings yet
Title: - Develop Javascript To Use Decision Making and Looping Statements
8 pages
Topic1 - Introduction To Python
No ratings yet
Topic1 - Introduction To Python
10 pages
6 JAVA MODULE5 Accessing Database
No ratings yet
6 JAVA MODULE5 Accessing Database
48 pages
Amit Dbms File
No ratings yet
Amit Dbms File
25 pages
m3 Relational Model Part1
No ratings yet
m3 Relational Model Part1
35 pages
Guidelines For DSC
No ratings yet
Guidelines For DSC
13 pages
ClearSCADA Automation Interface Training Rev 3.0 2007 PDF
No ratings yet
ClearSCADA Automation Interface Training Rev 3.0 2007 PDF
35 pages
ACI Virtualization Guide 60x Aci With Vmware Vds
No ratings yet
ACI Virtualization Guide 60x Aci With Vmware Vds
30 pages
Sparrow Softech PVT LTD
No ratings yet
Sparrow Softech PVT LTD
10 pages
Zero (1) 1
No ratings yet
Zero (1) 1
12 pages
Walkthrough Introduction To Vertex AI Pipelines
No ratings yet
Walkthrough Introduction To Vertex AI Pipelines
44 pages
Online Job Portal System
No ratings yet
Online Job Portal System
3 pages
Chp3 Data Warehouse and Hadoop
No ratings yet
Chp3 Data Warehouse and Hadoop
49 pages
EsDA 0.3.0
No ratings yet
EsDA 0.3.0
16 pages
Computer Organization: A Presentation Submitted by Disha Bhagwat (3503) Anuja Suryan (3546) Ruchita Wani (3551)
No ratings yet
Computer Organization: A Presentation Submitted by Disha Bhagwat (3503) Anuja Suryan (3546) Ruchita Wani (3551)
9 pages
03 Secure Azure AI Services
No ratings yet
03 Secure Azure AI Services
20 pages
Command-Line Support Tools
No ratings yet
Command-Line Support Tools
1 page
Powercenter Real Time Data Sheet 6812
No ratings yet
Powercenter Real Time Data Sheet 6812
8 pages
Manazerul Haque Jamali: About Me Software Engineer
No ratings yet
Manazerul Haque Jamali: About Me Software Engineer
2 pages
I Have An Existing Flex Card Which Dispays Cart Items at Cart Level From Opportunity
No ratings yet
I Have An Existing Flex Card Which Dispays Cart Items at Cart Level From Opportunity
5 pages
Report EDITED Jurassic Park
No ratings yet
Report EDITED Jurassic Park
6 pages
Research Proposal for Masters in China 攻读硕
No ratings yet
Research Proposal for Masters in China 攻读硕
7 pages
Amazon Connect Flows Intermediate Course Summary
No ratings yet
Amazon Connect Flows Intermediate Course Summary
2 pages
Learning Apache Spark 2
From Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
No ratings yet
Learning Cascading
From Everand
Learning Cascading
Michael Covert
No ratings yet

Spark Context, Resilient Distributed Datasets

Uploaded by

Spark Context, Resilient Distributed Datasets

Uploaded by

Preface

Content of this Lecture:

In this lecture, we will discuss the ‘framework of

Big Data Computing Vu Pham Introduction to Spark

It is an another system for big data analytics

Isn’t MapReduce good enough?

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Expensive save to disk for fault

Big Data Computing Vu Pham Introduction to Spark

Lacks efficient data sharing

Specialized frameworks did evolve for different programming

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets (RDDs)

Immutable, partitioned collection of records

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

HDFS RDDs track the graph of

Big Data Computing Vu Pham Introduction to Spark

Persistence: Allows you to choose whether you want to

Big Data Computing Vu Pham Introduction to Spark

ii. EM algorithm for traffic prediction

iii. K-means clustering

iv. Alternating Least Squares matrix factorization

v. In-memory OLAP aggregation on Hive data

vi. SQL on Spark

Big Data Computing Vu Pham Introduction to Spark

Matei Zaharia, Mosharaf Chowdhury et al.

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Facilitate system memory

Compatible with Hadoop

Big Data Computing Vu Pham Introduction to Spark

Resilient Distributed Datasets

Big Data Computing Vu Pham Introduction to Spark

Actions to return value or export data

Big Data Computing Vu Pham Introduction to Spark

Big Data Computing Vu Pham Introduction to Spark

Worker Worker Worker

Block1 Block2 Block3

Big Data Computing Vu Pham Introduction to Spark

Dataset-level view: Partition-level view:

Big Data Computing Vu Pham Introduction to Spark

RDD Objects DAGScheduler TaskScheduler Worker

rdd1.join(rdd2) split graph into launch tasks via execute tasks

Big Data Computing Vu Pham Introduction to Spark

Interactive interpreter: Scala & Python only

Standalone applications: any

Performance: Java & Scala are faster thanks to

Big Data Computing Vu Pham Introduction to Spark

run scala spark interpreter

Big Data Computing Vu Pham Introduction to Spark

download and unpack source code

Big Data Computing Vu Pham Introduction to Spark

Avoid sorting intermediate results on disk or

Speedup computations when reusing datasets

Big Data Computing Vu Pham Introduction to Spark

RDDs (Resilient Distributed Datasets (RDDs) provide

Generalized to a broad set of applications

Leverages coarse-grained nature of parallel

Big Data Computing Vu Pham Introduction to Spark

You might also like