0% found this document useful (0 votes)

151 views20 pages

5 Spark Kafka Cassandra Slides PDF

Apache Kafka is a distributed publish-subscribe messaging system. The document discusses using Kafka with Spark Streaming to ingest streaming data. It covers Kafka concepts like brokers, producers, consumers and partitions. It then summarizes the receiver-based and direct stream approaches in Spark Streaming for integrating with Kafka, and how to build resiliency through checkpoints, offsets and recovery from failures or upgrades. Finally, it mentions saving streaming data from Kafka to HDFS and integrating the batch and streaming layers.

Uploaded by

usernameuserna

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

151 views20 pages

5 Spark Kafka Cassandra Slides PDF

Uploaded by

usernameuserna

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 20

Streaming Ingest with Kafka and

Spark Streaming

Ahmad Alkilani
DATA ARCHITECT

@akizl
Streaming Ingest with Kafka and Spark
Streaming
§ Introduction to Kafka
§ Architecture
§ Producers and Consumers

§ Create a Kafka Producer

§ Spark Streaming Integration with Kafka
§ Integrate Batch and Streaming
Distributed publish-subscribe messaging system
Introduction to Kafka
Producers Brokers Consumers
@ 65

Push Pull @ 320

@ 951
The Kafka Broker
Topic WebLogs
Partitions 2
RF 2
… …

partitioner P1: Leader

Producer P2: Replica

ack
P1: Replica
ack
P2: Leader
Producer gets
topic meta-data
Partition Assignment & Consumers
Kafka Consumers
Topics
weblogs
Broker 1 Broker 2 Broker 3
Partitions 3
RF 1 P1 (LR) P1 (LR) P1

P2 (LR) P2 P2 (LR)

telemetry P3 P3 (LR) P3 (LR)

Partitions 3
RF 2

C1 C2 C1 C2 C3 C4
P1,P3 P2 P1,P3
Consumer Group A Consumer Group B
Consumer Group A

C1 C2 C3
Zookeeper

Partition 1

Partition 2

Partition 3

C1 C2 C3

Consumer Group B
Messaging Models
Messaging Models

Publish-Subscribe C2
CG: B

Broker 1 Broker 2 Broker 3

P1 (LR) P3 (LR) P2 (LR)

Topics
weblogs
Partitions 3
RF 1 C1
CG: A
Messaging Models

Queue Semantics

Broker 1 Broker 2 Broker 3

P1(LR) P3 (LR) P2 (LR)

Topics
weblogs
Partitions 3
C1 C2 C3
RF 1
CG: MyQueue
Receiver Model
val lines1 = ssc.socketTextStream("localhost", 9999)
val lines2 = ssc.socketTextStream("localhost", 9998)
Spark Executor
Cache
val linesUnion = lines1.union(lines2)
val words = linesUnion.flatMap(_.split(" ")) Task

Task Task

Input
Data Spark Executor
Cache
Stream
Task

Task Task
Spark Kafka Integration
Spark Streaming Kafka Integration

Receiver Approach
High-Level
Kafka Consumer APIs

• Receivers to receive data

API

• Data stored in Spark executors

• Zero-data loss requires write-ahead log
• Allows for at-least-once semantics

Direct Approach
Simple API

• No receivers. Queries Kafka each batch for offset range

• Simplifies parallelism at the expense of latency
• Zero-data loss without write-ahead log; relies on Kafka’s retention
to replay messages. Better at processing larger datasets
• Allows for exactly-once semantics
Receiver-based Approach
Option 1: Create a single Kafka stream

val kafkaStream = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](

ssc, kafkaParams, Map(topic -> 1), StorageLevel.MEMORY_AND_DISK)
.map(_._2)

Kafka Spark Executor Cache

Task (R)

Task Task
Receiver-based Approach
Option 2: Create a Kafka stream per topic-partition
val receiverCount = 3
val kafkaStreams = (1 to receiverCount).map { _ =>
KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](
ssc, kafkaParams, Map(topic -> 1), StorageLevel.MEMORY_AND_DISK)
}
val kafkaStream = ssc.union(kafkaStreams)
.map(_._2)

Kafka Spark Executor Cache

Task (R)

Task (R) Task (R)

Direct Approach
Driver determines offsets since last batch
val params = Map(
"metadata.broker.list" -> "localhost:9092",
"group.id" -> "lambda",
"auto.offset.reset" -> "smallest"
)

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, params, Set(topic))

.map(_._2)

Offsets?

Kafka Driver Tasks scheduled to

Spark Executor Cache consume data for
batch and then
Topic|Partition|Offset Task
released for other
operations
Task Task
Save Data from Kafka to HDFS
Build Resiliency into the Application
- Recover from complete failures

Demo - Allow for application updates

Kafka Direct Stream to HDFS

HDFS
../KafkaTopic/KafkaPartition
data, fromOffset, untilOffset

Direct Kafka stream means there’s a 1-1 mapping between

Kafka partition and Spark partition

HasOffsetRanges val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

RDD offsetRanges(partitionNumber)
.topic
.partition
.fromOffset
.untilOffset
Streaming Resiliency

Receiver-based Approach

Spark Checkpoints Direct Stream Approach

Summary
§ Apache Kafka
§ Broker
§ Producer
§ Consumers and Partitions

§ Spark Streaming
o Receiver-based
o Direct Stream

§ Resiliency
§ Direct Stream Offsets
§ Recover from Upgrades

§ HDFS and Batch Layer Integration

Kafka Using Spring Boot
No ratings yet
Kafka Using Spring Boot
136 pages
JD Gyms Wythenshawe - Class Timetable
No ratings yet
JD Gyms Wythenshawe - Class Timetable
1 page
Letter Informing HMRC A New Company Will Be Dormant
No ratings yet
Letter Informing HMRC A New Company Will Be Dormant
1 page
Jbase Locking Mecanisme
No ratings yet
Jbase Locking Mecanisme
33 pages
Spark Kafkaintegration PDF
100% (1)
Spark Kafkaintegration PDF
71 pages
Kafka Notes
No ratings yet
Kafka Notes
7 pages
Kafka Sparkstreaming
No ratings yet
Kafka Sparkstreaming
75 pages
BDA Unit V
No ratings yet
BDA Unit V
21 pages
KAFKA
No ratings yet
KAFKA
11 pages
Kafka Clustering v1.0.0
No ratings yet
Kafka Clustering v1.0.0
20 pages
Kafka Using Spring Boot v2
No ratings yet
Kafka Using Spring Boot v2
150 pages
Cours - Kafka
No ratings yet
Cours - Kafka
72 pages
Kafka: Big Data Huawei Course
No ratings yet
Kafka: Big Data Huawei Course
14 pages
Kafka
No ratings yet
Kafka
23 pages
Kafka Notes
No ratings yet
Kafka Notes
7 pages
Unit 5 Apache Kafka Notes
No ratings yet
Unit 5 Apache Kafka Notes
54 pages
Slide 12 Spark Streaming
No ratings yet
Slide 12 Spark Streaming
55 pages
Apache Kafka
No ratings yet
Apache Kafka
10 pages
Kafka
No ratings yet
Kafka
43 pages
Kafka
No ratings yet
Kafka
88 pages
Kafka Architecture
No ratings yet
Kafka Architecture
5 pages
Apache Kafka Essentials
No ratings yet
Apache Kafka Essentials
10 pages
Why Is Kafka So Fast
No ratings yet
Why Is Kafka So Fast
10 pages
Kafka
No ratings yet
Kafka
5 pages
Apache Kafka Essentials
No ratings yet
Apache Kafka Essentials
10 pages
Spark Streaming: Tathagata "TD" Das
No ratings yet
Spark Streaming: Tathagata "TD" Das
28 pages
Apache Spark Streaming Presentation
100% (1)
Apache Spark Streaming Presentation
28 pages
5a - Streaming Data Analytics PDF
No ratings yet
5a - Streaming Data Analytics PDF
37 pages
Kafka TOC
No ratings yet
Kafka TOC
5 pages
BDA Lab A7
No ratings yet
BDA Lab A7
10 pages
Slide 5-6 Kafka
No ratings yet
Slide 5-6 Kafka
111 pages
Kafka Notes1
No ratings yet
Kafka Notes1
19 pages
Kafkha
No ratings yet
Kafkha
32 pages
AK
No ratings yet
AK
22 pages
Kafka
No ratings yet
Kafka
15 pages
Apache Kafka
No ratings yet
Apache Kafka
43 pages
Kafka Broker
No ratings yet
Kafka Broker
5 pages
An Introduction To Apache Kafka
No ratings yet
An Introduction To Apache Kafka
40 pages
Unit 3
No ratings yet
Unit 3
26 pages
Introduction To Apache Kafka and Its Setup
No ratings yet
Introduction To Apache Kafka and Its Setup
29 pages
Apache Kafka Beginner Guide Final
No ratings yet
Apache Kafka Beginner Guide Final
3 pages
Kafka
No ratings yet
Kafka
12 pages
Customizing Kafka Stream Procssing
No ratings yet
Customizing Kafka Stream Procssing
4 pages
Producing Messages With Kafka Producers: Ryan Plant
No ratings yet
Producing Messages With Kafka Producers: Ryan Plant
31 pages
Slide 13 - Kafka
No ratings yet
Slide 13 - Kafka
109 pages
ScaleUp Meetup - Building Apps Using Kafka @hotstar
No ratings yet
ScaleUp Meetup - Building Apps Using Kafka @hotstar
26 pages
Understanding Apache Kafka White Paper
No ratings yet
Understanding Apache Kafka White Paper
7 pages
5 Kafka 2.7m
No ratings yet
5 Kafka 2.7m
46 pages
Design Patterns For Working With Fast Data: © 2016 Mapr Technologies © 2016 Mapr Technologies
No ratings yet
Design Patterns For Working With Fast Data: © 2016 Mapr Technologies © 2016 Mapr Technologies
64 pages
Kafka
No ratings yet
Kafka
15 pages
HD Mod011 Kafka
No ratings yet
HD Mod011 Kafka
29 pages
Consuming Messages With Kafka Consumers and Consumer Groups: Ryan Plant
No ratings yet
Consuming Messages With Kafka Consumers and Consumer Groups: Ryan Plant
38 pages
Event Driven Architecture With Kafka
No ratings yet
Event Driven Architecture With Kafka
8 pages
KAFKA
No ratings yet
KAFKA
22 pages
Apache Kafka Key Concepts
100% (1)
Apache Kafka Key Concepts
8 pages
Kafka Patterns and Anti-Patterns
No ratings yet
Kafka Patterns and Anti-Patterns
7 pages
Documentation
No ratings yet
Documentation
105 pages
Real Time Analytics With Apache Kafka and Spark: Rahul Jain
No ratings yet
Real Time Analytics With Apache Kafka and Spark: Rahul Jain
54 pages
Apache Kafka
No ratings yet
Apache Kafka
17 pages
Configuring Kafka For High Throughput
No ratings yet
Configuring Kafka For High Throughput
11 pages
Fast Data Processing Systems with SMACK Stack
From Everand
Fast Data Processing Systems with SMACK Stack
Raúl Estrada
No ratings yet
Mastering Kafka Streams: From Basics to Expert Proficiency
From Everand
Mastering Kafka Streams: From Basics to Expert Proficiency
William Smith
No ratings yet
Advanced Apache Kafka: Engineering High-Performance Streaming Applications
From Everand
Advanced Apache Kafka: Engineering High-Performance Streaming Applications
Peter Jones
No ratings yet
Guidance 2021 PLP Mythology Competition
No ratings yet
Guidance 2021 PLP Mythology Competition
1 page
Aerospike A Distributed Database Zine
No ratings yet
Aerospike A Distributed Database Zine
8 pages
4 Spark Cassandra
No ratings yet
4 Spark Cassandra
15 pages
Extreme Modelling in Practice
No ratings yet
Extreme Modelling in Practice
13 pages
Berk Ay 2021 Penser Safe Things
No ratings yet
Berk Ay 2021 Penser Safe Things
7 pages
Tennis Camp - Tennis Centre
No ratings yet
Tennis Camp - Tennis Centre
1 page
The Lives of Others (Das Leben Der Anderen) .2006.BRRip - xvid-VLiS
No ratings yet
The Lives of Others (Das Leben Der Anderen) .2006.BRRip - xvid-VLiS
89 pages
Construction Budget Template
No ratings yet
Construction Budget Template
14 pages
Dinosaur.2000.DVDRip - xvid.DualAudio - int.CD2 CNXP - Hi
No ratings yet
Dinosaur.2000.DVDRip - xvid.DualAudio - int.CD2 CNXP - Hi
32 pages
Plumley Rail Trail Walk Route Download 2078753169
No ratings yet
Plumley Rail Trail Walk Route Download 2078753169
4 pages
Rail Walks in Knutsford and Surrounding Villages 2014
No ratings yet
Rail Walks in Knutsford and Surrounding Villages 2014
15 pages
Mining Interesting Locations and Travel Sequences From GPS Trajectories
No ratings yet
Mining Interesting Locations and Travel Sequences From GPS Trajectories
27 pages
SMIREP: Predicting Chemical Activity From SMILES: Andreas Karwath and Luc de Raedt
No ratings yet
SMIREP: Predicting Chemical Activity From SMILES: Andreas Karwath and Luc de Raedt
13 pages
Partial Order in Environmental Sciences and Chemistry
No ratings yet
Partial Order in Environmental Sciences and Chemistry
1 page
FortiGate Administration Guide
No ratings yet
FortiGate Administration Guide
472 pages
Tamil 3
No ratings yet
Tamil 3
69 pages
Module 4 ACA Notes
No ratings yet
Module 4 ACA Notes
53 pages
Code Converters
No ratings yet
Code Converters
6 pages
System Calls
No ratings yet
System Calls
5 pages
The Complete Use Net Guide
No ratings yet
The Complete Use Net Guide
29 pages
Using The Pentaho BI Suite Online Demonstration
No ratings yet
Using The Pentaho BI Suite Online Demonstration
14 pages
Tugas 1 SMBD
No ratings yet
Tugas 1 SMBD
6 pages
C LANGUAGE Material (C Questions)
No ratings yet
C LANGUAGE Material (C Questions)
226 pages
ESP-WROOM-32 Datasheet: Espressif Systems
No ratings yet
ESP-WROOM-32 Datasheet: Espressif Systems
21 pages
Hidden Files: CD /tmp/tutorial Ls Ls
No ratings yet
Hidden Files: CD /tmp/tutorial Ls Ls
2 pages
DRDO
No ratings yet
DRDO
21 pages
MCGM Vendor - User - Manual - PDF
No ratings yet
MCGM Vendor - User - Manual - PDF
84 pages
Thin-AP&AC200 Quick Configuration Guide - v1.0
No ratings yet
Thin-AP&AC200 Quick Configuration Guide - v1.0
15 pages
Buflab
No ratings yet
Buflab
11 pages
Adva - Training - FSP 150CC-GE20x R4.x Course - 10 - Troubleshooting
0% (2)
Adva - Training - FSP 150CC-GE20x R4.x Course - 10 - Troubleshooting
15 pages
Advantages of Microsoft Word
No ratings yet
Advantages of Microsoft Word
6 pages
Computer Engineering
No ratings yet
Computer Engineering
6 pages
System Perspective CP Ravikumar
No ratings yet
System Perspective CP Ravikumar
11 pages
Chapter 6 - 7 - Audio - Video
No ratings yet
Chapter 6 - 7 - Audio - Video
32 pages
What-S New in MicroStrategy 9.2.1 - Transaction Services Beta1 PDF
No ratings yet
What-S New in MicroStrategy 9.2.1 - Transaction Services Beta1 PDF
19 pages
BSC BTS Parameters
No ratings yet
BSC BTS Parameters
72 pages
16 Channels Paperless Recorder
No ratings yet
16 Channels Paperless Recorder
3 pages
C Sharp Presentation Slides
No ratings yet
C Sharp Presentation Slides
10 pages
Samsung Series 6 LED TV Manual (UD6400-ZA)
No ratings yet
Samsung Series 6 LED TV Manual (UD6400-ZA)
25 pages
Removing Credentials From A Cloned EBS Production Database (Doc ID 419475.1)
No ratings yet
Removing Credentials From A Cloned EBS Production Database (Doc ID 419475.1)
8 pages
Digital Communincation and Technological College Inc. Training Plan
No ratings yet
Digital Communincation and Technological College Inc. Training Plan
7 pages
Huawei ALD Management (SRAN8.0 06)
No ratings yet
Huawei ALD Management (SRAN8.0 06)
184 pages
CCSIT - Student Project Report Template
No ratings yet
CCSIT - Student Project Report Template
17 pages

5 Spark Kafka Cassandra Slides PDF

Uploaded by

5 Spark Kafka Cassandra Slides PDF

Uploaded by

Streaming Ingest with Kafka and

§ Create a Kafka Producer

Push Pull @ 320

partitioner P1: Leader

Producer P2: Replica

telemetry P3 P3 (LR) P3 (LR)

Broker 1 Broker 2 Broker 3

P1 (LR) P3 (LR) P2 (LR)

Broker 1 Broker 2 Broker 3

P1(LR) P3 (LR) P2 (LR)

• Receivers to receive data

• Data stored in Spark executors

• No receivers. Queries Kafka each batch for offset range

val kafkaStream = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](

Kafka Spark Executor Cache

Kafka Spark Executor Cache

Task (R) Task (R)

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, params, Set(topic))

Kafka Driver Tasks scheduled to

Demo - Allow for application updates

Direct Kafka stream means there’s a 1-1 mapping between

HasOffsetRanges val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

Spark Checkpoints Direct Stream Approach

§ HDFS and Batch Layer Integration

You might also like