0% found this document useful (0 votes)

21 views4 pages

Unit 4 Streaming Data

Streaming data is the continuous flow of data processed in real-time, allowing for immediate insights and actions, unlike batch processing. Key concepts include real-time processing, low latency, and fault tolerance, with common use cases in analytics, IoT, and fraud detection. Challenges include managing data volume and quality, while technologies like Apache Kafka and Amazon Kinesis facilitate streaming data workflows.

Uploaded by

kannan.niran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views4 pages

Unit 4 Streaming Data

Uploaded by

kannan.niran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Streaming data refers to the continuous flow of data generated from

various sources, such as sensors, social media, logs, or IoT devices,

and processed in real-time or near-real-time. Unlike batch processing,
where data is collected and processed in chunks, streaming data is
handled as it arrives, enabling immediate insights, analytics, and
actions.

Key Concepts in Streaming Data:

1. Real-Time Processing: Data is processed as soon as it is

generated, allowing for instant decision-making.
2. Continuous Data Flow: Data is produced and consumed in a
continuous, unbounded stream.
3. Low Latency: Streaming systems aim to minimize the delay
between data generation and processing.
4. Scalability: Streaming systems must handle high volumes of
data and scale horizontally as needed.
5. Fault Tolerance: Systems must recover from failures without
losing data or compromising accuracy.

Common Use Cases:

 Real-Time Analytics: Monitoring and analyzing data in real-time

(e.g., stock market trends, website traffic).
 IoT Applications: Processing data from sensors and devices
(e.g., smart homes, industrial IoT).
 Fraud Detection: Identifying fraudulent transactions or
activities as they occur.
 Log Monitoring: Analyzing server logs for errors, performance
issues, or security threats.
 Recommendation Systems: Providing real-time personalized
recommendations (e.g., Netflix, Amazon).

Streaming Data Technologies:

1. Apache Kafka: A distributed event streaming platform for

building real-time data pipelines.
2. Apache Flink: A stream processing framework for stateful
computations over data streams.
3. Apache Storm: A real-time computation system for processing
unbounded data streams.
4. Apache Spark Streaming: An extension of Apache Spark for
processing real-time data streams.
5. Amazon Kinesis: A cloud-based service for real-time data
streaming and processing.
6. Google Pub/Sub: A messaging service for streaming data
between applications.
7. Azure Stream Analytics: A real-time analytics service for
streaming data.

Challenges in Streaming Data:

 Data Volume: Handling massive amounts of data in real-time.

 Data Quality: Ensuring accuracy and consistency in fast-moving
data.
 Complexity: Managing state, time, and ordering in distributed
systems.
 Resource Management: Allocating and optimizing resources for
continuous processing.

Example Workflow:

1. Data Ingestion: Collect data from sources like sensors, APIs, or

logs.
2. Data Processing: Use a streaming framework (e.g., Kafka, Flink)
to process and transform the data.
3. Storage: Store processed data in databases or data lakes for
further analysis.
4. Visualization/Action: Display insights on dashboards or trigger
automated actions (e.g., alerts, recommendations).

Streaming data is a critical component of modern data architectures,

enabling businesses to respond quickly to changing conditions and
make data-driven decisions in real-time.

difference between periodic and continuous query

Periodic and continuous queries are two approaches to querying data,

particularly in the context of real-time or streaming data systems. They
differ in how and when data is processed and updated. Here's a
breakdown of their differences:

1. Periodic Query
 Definition: A periodic query is executed at fixed intervals (e.g.,
every minute, hour, or day) to retrieve or process data.
 How It Works:
o The query runs repeatedly on a schedule.
o Each execution processes a snapshot of the data available
at that moment.
 Use Cases:
o Batch processing systems (e.g., daily reports).
o Systems where real-time updates are not critical.
o Monitoring systems that don't require instant feedback.
 Advantages:
o Simpler to implement and manage.
o Reduces computational overhead compared to continuous
processing.
o Suitable for historical or aggregated data analysis.
 Disadvantages:
o Delayed insights due to the interval-based nature.
o May miss real-time events or changes between intervals.
 Example:
o A daily sales report generated at midnight.
o Checking server logs every 5 minutes for errors.

2. Continuous Query

 Definition: A continuous query runs persistently and processes

data as soon as it arrives, providing real-time or near-real-time
results.
 How It Works:
o The query is registered once and remains active.
o It processes incoming data streams incrementally and
updates results continuously.
 Use Cases:
o Real-time analytics (e.g., stock market monitoring).
o Fraud detection systems.
o IoT applications (e.g., sensor data processing).
 Advantages:
o Provides immediate insights and updates.
o Ideal for time-sensitive applications.
o Handles unbounded, real-time data streams effectively.
 Disadvantages:
o More complex to implement and maintain.
o Requires higher computational resources.
o May involve challenges like handling out-of-order data or
managing state.
 Example:
o A live dashboard showing real-time website traffic.
o Detecting fraudulent credit card transactions as they occur.

Key Differences

Aspect Periodic Query Continuous Query

Runs persistently, processing
Execution Runs at fixed intervals.
data as it arrives.
Higher latency (depends on Low latency (real-time or
Latency
interval). near-real-time).
Processes a snapshot of Processes incremental
Data Scope
data at each run. updates in a stream.
More complex due to real-
Complexity Simpler to implement.
time requirements.
Resource Lower resource usage (runs Higher resource usage
Usage intermittently). (continuous processing).
Batch processing, Real-time monitoring, event-
Use Cases
scheduled reports. driven systems.

MD5 Mental Ability Test Answer Sheet
67% (18)
MD5 Mental Ability Test Answer Sheet
3 pages
Kelas 5 Latihan Soal PTS 1 Bahasa Inggris
100% (12)
Kelas 5 Latihan Soal PTS 1 Bahasa Inggris
3 pages
Stream Processing Hands On With Apache Flink Free Lms Version
No ratings yet
Stream Processing Hands On With Apache Flink Free Lms Version
232 pages
Unit 4 Notes PDF
100% (2)
Unit 4 Notes PDF
27 pages
Receiving An MDS: Version: IMDS Release 10.0
No ratings yet
Receiving An MDS: Version: IMDS Release 10.0
26 pages
b0m33bdt 7p Spark Databricks Streaming - 2023 - en
No ratings yet
b0m33bdt 7p Spark Databricks Streaming - 2023 - en
50 pages
Chapter 1-1
No ratings yet
Chapter 1-1
34 pages
Spark Streaming
No ratings yet
Spark Streaming
99 pages
Lecture #7.2 - Apache Spark - Streaming API
No ratings yet
Lecture #7.2 - Apache Spark - Streaming API
37 pages
Stream Processing Chapter 5
No ratings yet
Stream Processing Chapter 5
23 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
33 pages
Lec 19
No ratings yet
Lec 19
23 pages
T09 Data Streaming
No ratings yet
T09 Data Streaming
52 pages
6 - Streaming Part 1
No ratings yet
6 - Streaming Part 1
44 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
Lec 19
No ratings yet
Lec 19
24 pages
Bigdata-Mining Data Streams
No ratings yet
Bigdata-Mining Data Streams
19 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
BDA Unit-4
No ratings yet
BDA Unit-4
12 pages
Unit-II BDA
No ratings yet
Unit-II BDA
19 pages
Unit-II (Big Data)
No ratings yet
Unit-II (Big Data)
20 pages
SA Unit 1 PPT 2
No ratings yet
SA Unit 1 PPT 2
27 pages
Big Data IV Nit
No ratings yet
Big Data IV Nit
15 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
57 pages
Bigdata Unit-Ii
No ratings yet
Bigdata Unit-Ii
33 pages
UNIT V Streaming
No ratings yet
UNIT V Streaming
22 pages
Module-2-MINING DATA STREAMS
100% (3)
Module-2-MINING DATA STREAMS
17 pages
Real Time Data Streaming New Techniques
No ratings yet
Real Time Data Streaming New Techniques
5 pages
008.3 - Batch Processing Systems Vs Streaming Data Systems
No ratings yet
008.3 - Batch Processing Systems Vs Streaming Data Systems
3 pages
Unit II (Big Data)
No ratings yet
Unit II (Big Data)
19 pages
Lecture 11
No ratings yet
Lecture 11
31 pages
BDA Mod 3
No ratings yet
BDA Mod 3
57 pages
Stream Processing and Analytics Handout
No ratings yet
Stream Processing and Analytics Handout
8 pages
Lecture 7 - 1-Spark - Streaming
No ratings yet
Lecture 7 - 1-Spark - Streaming
25 pages
008.2 - Real-Time and Streaming Systems
No ratings yet
008.2 - Real-Time and Streaming Systems
2 pages
8 - Streaming 3 - Spark Flink
No ratings yet
8 - Streaming 3 - Spark Flink
52 pages
Chapter-5 Stream Processing Part1
No ratings yet
Chapter-5 Stream Processing Part1
32 pages
Big Data Notes
No ratings yet
Big Data Notes
37 pages
Lec 01
No ratings yet
Lec 01
17 pages
Sigmod Structured Streaming
No ratings yet
Sigmod Structured Streaming
13 pages
Swe2011 Bda - III
No ratings yet
Swe2011 Bda - III
50 pages
ECS765P - W10 - Stream Processing
No ratings yet
ECS765P - W10 - Stream Processing
39 pages
Kate Wilson
No ratings yet
Kate Wilson
27 pages
Bda 2
No ratings yet
Bda 2
16 pages
Big Data 3rd Unit
No ratings yet
Big Data 3rd Unit
16 pages
Bda M4
No ratings yet
Bda M4
57 pages
Lec 05
No ratings yet
Lec 05
10 pages
StreamProcessingAndAnalytics Handout
No ratings yet
StreamProcessingAndAnalytics Handout
7 pages
Unit 3-6
No ratings yet
Unit 3-6
14 pages
What Is Streaming Data
No ratings yet
What Is Streaming Data
4 pages
Unit2 Bda
No ratings yet
Unit2 Bda
293 pages
Stream Processing - Hands-On With Apache Flink (Giannis Polyzos) (Z-Library)
No ratings yet
Stream Processing - Hands-On With Apache Flink (Giannis Polyzos) (Z-Library)
234 pages
Chapter 1
No ratings yet
Chapter 1
13 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
DSPL Casestidy
No ratings yet
DSPL Casestidy
3 pages
The Future of Real-Time in Spark: Reynold Xin @rxin
No ratings yet
The Future of Real-Time in Spark: Reynold Xin @rxin
30 pages
4 Building Blocks of A Streaming Data Architecture
No ratings yet
4 Building Blocks of A Streaming Data Architecture
11 pages
Ade Mod 1 Incremental Processing With Spark Structured Streaming
No ratings yet
Ade Mod 1 Incremental Processing With Spark Structured Streaming
73 pages
Unit Iv
No ratings yet
Unit Iv
11 pages
Unit Iv
No ratings yet
Unit Iv
5 pages
Real-Time Analytics: Techniques to Analyze and Visualize Streaming Data
From Everand
Real-Time Analytics: Techniques to Analyze and Visualize Streaming Data
Byron Ellis
No ratings yet
Principles of Real-Time Data Streaming: Definitive Reference for Developers and Engineers
From Everand
Principles of Real-Time Data Streaming: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Top Deal Arnold Grummer's Complete Guide To Easy Papermaking Ebook Full Text
No ratings yet
Top Deal Arnold Grummer's Complete Guide To Easy Papermaking Ebook Full Text
14 pages
House of Representatives Electoral Tribunal v. Daisy B. Panga-Vega, G.R. No. 228236, January 27, 2021
No ratings yet
House of Representatives Electoral Tribunal v. Daisy B. Panga-Vega, G.R. No. 228236, January 27, 2021
3 pages
Karnataka Secondary Education Examination Board, Ksqaac 6 Cross, Malleshwaram, Bengaluru - 560 003 Flow Chart For Ntse Application
No ratings yet
Karnataka Secondary Education Examination Board, Ksqaac 6 Cross, Malleshwaram, Bengaluru - 560 003 Flow Chart For Ntse Application
2 pages
CHINA BANKING CORPORATION-Letter Brain
No ratings yet
CHINA BANKING CORPORATION-Letter Brain
2 pages
Transaid Drtss Malawi Final Report
No ratings yet
Transaid Drtss Malawi Final Report
82 pages
Control Systems: Syllabus
No ratings yet
Control Systems: Syllabus
259 pages
Overview of West African Islamic Civilizations
No ratings yet
Overview of West African Islamic Civilizations
4 pages
Holmium: Holmium Is A Chemical Element With The
No ratings yet
Holmium: Holmium Is A Chemical Element With The
8 pages
Internationale Bewerbende Merkblatt Auswahlkommission English
No ratings yet
Internationale Bewerbende Merkblatt Auswahlkommission English
4 pages
B Cisco Nexus 9000 NX Os Quality of Service Configuration Guide 93x - Chapter - 0111
No ratings yet
B Cisco Nexus 9000 NX Os Quality of Service Configuration Guide 93x - Chapter - 0111
18 pages
HBR Accounts
No ratings yet
HBR Accounts
37 pages
NPNG Gazett 2197 27 - E
No ratings yet
NPNG Gazett 2197 27 - E
21 pages
Land Bank v. Cacayuran
No ratings yet
Land Bank v. Cacayuran
9 pages
Theme Adjective-1
No ratings yet
Theme Adjective-1
15 pages
Audio Poetics Literary Meaning in Voice As Explicature by Kanyi Thiongo
No ratings yet
Audio Poetics Literary Meaning in Voice As Explicature by Kanyi Thiongo
322 pages
SST Sa2 Blue Print
No ratings yet
SST Sa2 Blue Print
9 pages
Synopsis of Project
No ratings yet
Synopsis of Project
4 pages
Birth and Death
No ratings yet
Birth and Death
36 pages
Breastfeeding Your Baby: Guidelines For Nursing Mothers
No ratings yet
Breastfeeding Your Baby: Guidelines For Nursing Mothers
1 page
Sup and Lois Script 1
100% (1)
Sup and Lois Script 1
61 pages
Freedom of Movement
No ratings yet
Freedom of Movement
1 page
Final-DSC-2024-District Wise DR Vacancy
No ratings yet
Final-DSC-2024-District Wise DR Vacancy
74 pages
Document From Samir
No ratings yet
Document From Samir
24 pages
Exceed
No ratings yet
Exceed
344 pages
Group Lesson Plan
83% (6)
Group Lesson Plan
7 pages
Realms of Faith Panel Copy Website TP
No ratings yet
Realms of Faith Panel Copy Website TP
2 pages
Ventana Ubuntu
No ratings yet
Ventana Ubuntu
10 pages

Unit 4 Streaming Data

Uploaded by

Unit 4 Streaming Data

Uploaded by

Streaming data refers to the continuous flow of data generated from

various sources, such as sensors, social media, logs, or IoT devices,

Key Concepts in Streaming Data:

1. Real-Time Processing: Data is processed as soon as it is

Common Use Cases:

 Real-Time Analytics: Monitoring and analyzing data in real-time

Streaming Data Technologies:

1. Apache Kafka: A distributed event streaming platform for

Challenges in Streaming Data:

 Data Volume: Handling massive amounts of data in real-time.

1. Data Ingestion: Collect data from sources like sensors, APIs, or

Streaming data is a critical component of modern data architectures,

difference between periodic and continuous query

Periodic and continuous queries are two approaches to querying data,

 Definition: A continuous query runs persistently and processes

Aspect Periodic Query Continuous Query

You might also like