0% found this document useful (0 votes)

67 views48 pages

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

The document discusses the rise of event-driven architectures and immutable data. It describes the problems with having data siloed in different systems and formats. The author then introduces the idea of a stream data platform using Apache Kafka as a solution. Kafka provides a commit log abstraction that can be used for messaging, streaming data between systems, and building real-time analytics applications. It offers scalability, fault tolerance, and guarantees of ordering and persistence for building a unified stream data infrastructure.

Uploaded by

Bernd Sandmann

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

67 views48 pages

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Bernd Sandmann

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 48

Putting Apache Kafka

Building a Real-time Data Platform for Event Streams!

to Use!
JAY KREPS, CONFLUENT!
A Couple of Themes!
Theme 1: Rise of Events!
Theme 2: Immutability Everywhere!
Level! Example! Immutable Alternative!

Mutable local state! Counter in a for loop! Functional Programming!

Mutable process-wide state! ConcurrentHashMap! Functional Programming!

Mutable on disk structures! B-Tree! LSM!

Distributed systems! Dynamo-like key-value store! State machine replication!

Mutability in databases! RDBMS! Event Sourcing!

Company-wide data flow! Double write! Kafka!

Theme 3: Datacenter-Level Thinking!
Experience at LinkedIn!
2009: We want all our data in Hadoop!!
What is all our data?!
Initial approach: “gut it out”!
Problems!
•  Data coverage!
•  Many source systems!
•  Relational DBs!
•  Log files!
•  Metrics!
•  Messaging systems!
•  Many data formats!
•  Constant change!
•  New schemas!
•  New data sources!
Needed: organizational scalability!

Θ(N) => Θ(1)!

How does everything else work?!

?!
Relational database changes!
Apps and Services

OLTP Queries

Relational
Databases

Data Guard CSV Dump

Cache

ODS Hadoop
Poll For Changes

App App App

Relational Transforms
Data
Caches & Warehouse
Derived Stores

Transforms
NoSQL!

App App App

Key-value
Store

ETL Load

Hadoop
User events!
Apps and Apps and Apps and
Services Services Services

HTTP

Log Aggregation

NFS

rsync

NFS

Load Transform & Load

Relational
Hadoop Data
Warehouse

Transform
Application Logs!

Apps and Apps and Apps and

Services Services Services

Splunk
Messaging!
App App App App App

Broker Broker

Processor Processor Processor Processor

App App App

Broker

Processor Processor Processor Processor

Metrics and operational data!

App App App

Monitoring
This is a giant mess!
Apps and Services Apps and Services Apps and Services

OLTP Queries
HTTP
ActiveMQ HTTP

Monitoring
Relational Apps Apps Log Aggregation
Databases
Splunk
Key-value
Store
Data Guard NFS
CSV Dump
ActiveMQ Cache
rsync

Poll For Changes ODS Hadoop Load NFS

Apps Apps
App App App

Relational Transforms
Data
Transform & Load
Caches & Warehouse
Derived Stores

Transforms
Impossible ideas!
•  Publish data from Hadoop to a search index!
•  Run a SQL query to find the biggest latency
bottleneck!
•  Run a SQL query to find common error patterns!
•  Low latency monitoring of database changes or user
activity!
•  Incorporate popularity in real-time display and
relevance algorithms!
•  Products that incorporate user activity!
An infrastructure solution?!
Idea: Stream Data Platform!

Search Impala

Apps Hive
Monitoring

Stream
Data HADOOP:
DWH
RDBMS Platform: Offline
? Data

Stream Map-
NoSQL Processing
Reduce
Real-time
Analytics Spark

Synchronous
Req/Response Near real time
Offline batch
0 - 100s ms > 100s ms > 1 hour
First Attempt: Messaging systems!!
Problems!
•  Throughput!
•  Batch systems!
•  Persistence!
•  Stream Processing!
•  Ordering
guarantees!
•  Partitioning!
Second Attempt: Build Kafka!!
What does it do?!

Producer Producer Producer Producer Producer

Kafka Cluster

Consumer Consumer Consumer Consumer Consumer

Commit Log Abstraction!
Reader 1 Reader 2

1 1 1 Writes
0 1 2 3 4 5 6 7 8 9
0 1 2

Old New
Logs & Publish-Subscribe Messaging!

Source
System

writes

1 1 1
Log 0 1 2 3 4 5 6 7 8 9 0 1 2

reads reads

Destination Destination
System A System B
A Kafka Topic!

Partition 1 1 1
0 0 1 2 3 4 5 6 7 8 9
0 1 2

Partition Writes
0 1 2 3 4 5 6 7 8 9
1

Partition 1 1 1
0 1 2 3 4 5 6 7 8 9
2 0 1 2

Old New
Replication!
Server 1 Server 2 Server 3

A:0 A:0 A:0

A:1 A:1 A:1

B:0 B:0 Controller

Scaling Consumers!
Kafka Cluster

Server 1 Server 2

P0 P3 P1 P2

C1 C2 C3 C4 C5 C6

Consumer Group A Consumer Group B

Kafka: A Modern Distributed System for Streams!

 Scalability of a filesystem!
◦ Hundreds of MB/sec/server throughput!
◦ Many TB per server!
 Guarantees of a database!
◦ Messages strictly ordered!
◦ All data persistent!
 Distributed by default!
◦ Replication!
◦ Partitioning model!
 Producers, Consumers, and Brokers all fault tolerant and horizontally
scalable!
Stream Data Platform!

Search Impala

Apps Hive
Monitoring

KAFKA:
Stream HADOOP:
DWH
RDBMS Data Offline
Platform Data

Stream Map-
NoSQL Processing
Reduce
Real-time
Analytics Spark

Synchronous
Req/Response Near real time
Offline batch
0 - 100s ms > 100s ms > 1 hour
Batch Data => Batch Processing!
Stream processing is a!
generalization!
of batch processing !
and request/response processing!
Request/Response processing: !
One input => One output!
Batch processing: !
All inputs => All outputs!
Stream Processing: !
Some inputs => some outputs!
(you choose how much “some” is)!
Stream Processing a la carte!
Input Kafka Topic

Transform Transform Transform

Intermediate Your code

Kafka Topic
cat input | grep “foo” | wc -l
Transform Transform Transform

Output Kafka
Topic

Hadoop Live
Data Store
Stream Processing with Frameworks!

+! =! Stream
Processing!
Unix Pipes, Modernized!

cat /usr/share/dict/words | wc -l
On Schemas!

Bad Schemas < No Schemas < Good Schemas!

Put it all together!
Apps Apps Apps Apps

Social Key-Value
Search Oracle Newsfeed OLAP
Graph Storage

Apps
Log
Search Apps

Monitoring
Kafka
Security &
Fraud Samza

Real-time
Analytics

Hadoop Teradata
At LinkedIn!
•  Everything in the company is a real-time stream!
•  > 800 billion messages written per day!
•  > 2.9 trillion messages read per day!
•  ~ 1 PB of stream data!
•  Tens of thousands of producer processes!
•  Backbone for data stores!
•  Search!
•  Social Graph!
•  Newsfeed!
•  Primary storage (in progress)!
•  Basis for stream processing!
Elsewhere!
Why this is the future!

1. System diversity is increasing!

2. Data diversity and volume is
increasing!
3. The world is getting faster!
4. The technology exists!
•  Mission: Make this a practical reality
everywhere!
•  Product!
•  Apache Kafka!
•  Schemas and metadata management!
•  Connectors for common systems!
•  Monitor data flow end-to-end!
•  Stream processing integration!
Questions?!
•  Confluent!
•  @confluentinc!
•  http://confluent.io !
•  http://blog.confluent.io/2015/02/25/
stream-data-platform-1 !
•  Apache Kafka!
•  @apachekafka!
•  http://kafka.apache.org!
•  http://linkd.in/199iMwY !
•  Me!
•  @jaykreps!

HZS240C8 Manual Book SANY
No ratings yet
HZS240C8 Manual Book SANY
411 pages
Data Pipelines From Zero To Solid
No ratings yet
Data Pipelines From Zero To Solid
58 pages
Kafka Fund
No ratings yet
Kafka Fund
160 pages
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
100% (1)
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
23 pages
Unit 4 - Cloud Programming Models
100% (2)
Unit 4 - Cloud Programming Models
21 pages
Module-2-MINING DATA STREAMS
100% (3)
Module-2-MINING DATA STREAMS
17 pages
Stream Processing
100% (2)
Stream Processing
182 pages
Stream Processing Using Kafka
No ratings yet
Stream Processing Using Kafka
46 pages
Auditing Theory - 090: Cis Environment & Completing An Audit CMP The Computer Environment
No ratings yet
Auditing Theory - 090: Cis Environment & Completing An Audit CMP The Computer Environment
8 pages
Settlement
100% (3)
Settlement
293 pages
Cours - Kafka
No ratings yet
Cours - Kafka
72 pages
Large Scale Data Pipelines
No ratings yet
Large Scale Data Pipelines
91 pages
Database Maintenance PDF
No ratings yet
Database Maintenance PDF
418 pages
Cob-R17 PDF
No ratings yet
Cob-R17 PDF
40 pages
Apache Kafka Introduction
No ratings yet
Apache Kafka Introduction
21 pages
Stream Processing and Analytics Handout
No ratings yet
Stream Processing and Analytics Handout
8 pages
Systems Design Part 2
No ratings yet
Systems Design Part 2
28 pages
Streaming Data and Stream Processing With Apache Kafka ™: David Tucker, Director of Partner Engineering
No ratings yet
Streaming Data and Stream Processing With Apache Kafka ™: David Tucker, Director of Partner Engineering
44 pages
StreamProcessingAndAnalytics Handout
No ratings yet
StreamProcessingAndAnalytics Handout
7 pages
Handbook Version Confluent Exercise
No ratings yet
Handbook Version Confluent Exercise
160 pages
Apache Spark Streaming Presentation
100% (1)
Apache Spark Streaming Presentation
28 pages
Simple Batch System
No ratings yet
Simple Batch System
7 pages
Learning Apache Kafka - Second Edition - Sample Chapter
No ratings yet
Learning Apache Kafka - Second Edition - Sample Chapter
12 pages
4 Building Blocks of A Streaming Data Architecture
No ratings yet
4 Building Blocks of A Streaming Data Architecture
11 pages
Student Handbook Version 5.5.0-V1.1.0
No ratings yet
Student Handbook Version 5.5.0-V1.1.0
160 pages
Kafka
No ratings yet
Kafka
50 pages
Data Processing
No ratings yet
Data Processing
4 pages
Stream Processing and Analytics - Regular-HO
No ratings yet
Stream Processing and Analytics - Regular-HO
7 pages
Creating Data Pipe Lines With Kafka
No ratings yet
Creating Data Pipe Lines With Kafka
144 pages
20250129-EB-Ultimate Data Streaming Guide
No ratings yet
20250129-EB-Ultimate Data Streaming Guide
103 pages
Bca 3
No ratings yet
Bca 3
147 pages
Kafka Streams in Action Second Edition MEAP V13 Bill Bejeck
No ratings yet
Kafka Streams in Action Second Edition MEAP V13 Bill Bejeck
76 pages
CICS Infosys
100% (4)
CICS Infosys
60 pages
800xa 5.1 Batch Management Overview
No ratings yet
800xa 5.1 Batch Management Overview
8 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
Chapter 1-1
No ratings yet
Chapter 1-1
34 pages
BDA Unit 3
No ratings yet
BDA Unit 3
42 pages
9 - Streaming 4 - Kafka
No ratings yet
9 - Streaming 4 - Kafka
48 pages
Kafka
No ratings yet
Kafka
43 pages
Module 1 Rtos
No ratings yet
Module 1 Rtos
60 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Big Data Concepts - Spark & Streaming
No ratings yet
Big Data Concepts - Spark & Streaming
35 pages
Introduction To Data Ingestion and Processing
No ratings yet
Introduction To Data Ingestion and Processing
28 pages
Kafka
No ratings yet
Kafka
21 pages
Ebook Streams Redis Streams and Kafka 20220615
No ratings yet
Ebook Streams Redis Streams and Kafka 20220615
69 pages
BDA Unit V
No ratings yet
BDA Unit V
21 pages
Spring Batch 4.0.0
No ratings yet
Spring Batch 4.0.0
79 pages
5a - Streaming Data Analytics PDF
No ratings yet
5a - Streaming Data Analytics PDF
37 pages
T09 Data Streaming
No ratings yet
T09 Data Streaming
52 pages
6 - Streaming Part 1
No ratings yet
6 - Streaming Part 1
44 pages
Project - Traffic Data Analysis
No ratings yet
Project - Traffic Data Analysis
20 pages
ECS765P - W10 - Stream Processing
No ratings yet
ECS765P - W10 - Stream Processing
39 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
Localization Sap Brazil-ECC6.0
No ratings yet
Localization Sap Brazil-ECC6.0
12 pages
TRabl StreamProcessing
No ratings yet
TRabl StreamProcessing
79 pages
Shaik Saddam Hussien Updated Mainframe Resume .A
No ratings yet
Shaik Saddam Hussien Updated Mainframe Resume .A
7 pages
User Manual For The Measuring Program Ic - Exe "Isee!": Uwez@Bam - de
No ratings yet
User Manual For The Measuring Program Ic - Exe "Isee!": Uwez@Bam - de
40 pages
HD Mod011 Kafka
No ratings yet
HD Mod011 Kafka
29 pages
Big Data 3rd Assignment Answers
No ratings yet
Big Data 3rd Assignment Answers
8 pages
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
No ratings yet
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
34 pages
BDA UNIT-2 (Final)
No ratings yet
BDA UNIT-2 (Final)
27 pages
Assignment No. 3 For Business Data Analytics
No ratings yet
Assignment No. 3 For Business Data Analytics
16 pages
3 - Types of OS
No ratings yet
3 - Types of OS
19 pages
Using Jenkins For The Build And: Constantin Caraivan Adobe Systems
No ratings yet
Using Jenkins For The Build And: Constantin Caraivan Adobe Systems
24 pages
Bcs011 Notes
No ratings yet
Bcs011 Notes
17 pages
Spring Batch Docs
No ratings yet
Spring Batch Docs
98 pages
Spark Streaming: Tathagata "TD" Das
No ratings yet
Spark Streaming: Tathagata "TD" Das
28 pages
Kafka Presentation
No ratings yet
Kafka Presentation
16 pages
Redp 5719
No ratings yet
Redp 5719
22 pages
Lec 02
No ratings yet
Lec 02
13 pages
Streaming Graph Processing Unit5
No ratings yet
Streaming Graph Processing Unit5
7 pages
LD3464 ACG TABLET COATING PRODUCT CATALOGUE - NH - E2 - SC
No ratings yet
LD3464 ACG TABLET COATING PRODUCT CATALOGUE - NH - E2 - SC
17 pages
Operating System
No ratings yet
Operating System
14 pages
Getting Started With ANSYS EKM
No ratings yet
Getting Started With ANSYS EKM
26 pages
Stream Processing With: Tamás István Ujj
No ratings yet
Stream Processing With: Tamás István Ujj
27 pages
Bigdata
No ratings yet
Bigdata
3 pages
Real Time Data Streaming New Techniques
No ratings yet
Real Time Data Streaming New Techniques
5 pages
ScaleUp Meetup - Building Apps Using Kafka @hotstar
No ratings yet
ScaleUp Meetup - Building Apps Using Kafka @hotstar
26 pages
Bda Assign2
No ratings yet
Bda Assign2
4 pages
What Is Streaming Data
No ratings yet
What Is Streaming Data
4 pages
Reporting: Classical Reports
No ratings yet
Reporting: Classical Reports
14 pages
Chapter 4
No ratings yet
Chapter 4
29 pages
Udacity Enterprise Syllabus Data Streaming nd029
No ratings yet
Udacity Enterprise Syllabus Data Streaming nd029
12 pages
Set Your Data in Motion
No ratings yet
Set Your Data in Motion
8 pages
Evolution of Operating System I PDF
No ratings yet
Evolution of Operating System I PDF
4 pages
Data Steaming Sylll
No ratings yet
Data Steaming Sylll
12 pages
Application Modernization
No ratings yet
Application Modernization
2 pages
Automatic To Creation and Confirmation in WMS
100% (1)
Automatic To Creation and Confirmation in WMS
5 pages
Learning Hadoop 2
From Everand
Learning Hadoop 2
Garry Turkington
4/5 (1)
Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
From Everand
Kafka Up and Running for Network DevOps: Set Your Network Data in Motion
Eric Chou
No ratings yet

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Putting Apache Kafka

Building a Real-time Data Platform for Event Streams!

Mutable local state! Counter in a for loop! Functional Programming!

Mutable process-wide state! ConcurrentHashMap! Functional Programming!

Mutable on disk structures! B-Tree! LSM!

Distributed systems! Dynamo-like key-value store! State machine replication!

Mutability in databases! RDBMS! Event Sourcing!

Company-wide data flow! Double write! Kafka!

Θ(N) => Θ(1)!

Data Guard CSV Dump

App App App

App App App

Load Transform & Load

Apps and Apps and Apps and

Processor Processor Processor Processor

App App App

Processor Processor Processor Processor

App App App

Poll For Changes ODS Hadoop Load NFS

Producer Producer Producer Producer Producer

Consumer Consumer Consumer Consumer Consumer

A:0 A:0 A:0

A:1 A:1 A:1

B:0 B:0 Controller

Consumer Group A Consumer Group B

Transform Transform Transform

Intermediate Your code

Bad Schemas < No Schemas < Good Schemas!

1. System diversity is increasing!

You might also like

1. System diversity is increasing!