SPark Monitoring and Tuning PPT 3.3.1

The document outlines a course on Big Data Technologies focusing on Spark and Scala at Chandigarh University, detailing course objectives, outcomes, and recommended readings. It emphasizes the importance of understanding the Hadoop Ecosystem, Apache Spark components, and techniques for monitoring and tuning Spark applications. Additionally, it provides insights into optimizing performance, resource usage, and best practices for effective Spark job execution.

Uploaded by

rahul104941

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views15 pages

SPark Monitoring and Tuning PPT 3.3.1

Uploaded by

rahul104941

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 15

APEX INSTITUTE OF TECHNOLOGY.

AIT-IBM CSE
CHANDIGARH UNIVERSITY, MOHALI

Big Data Technologies (Spark & Scala)

(22CSH-391)
Lecture-1 (CO1)
By
Dr Geeta Rani (E15227)
Associate Professor (Chandigarh University)
Course Objective
 The students will be able to illustrate the interaction of multi-faceted
fields like data mining

 The students will be able to understand statistics and mathematics in the

development of Predictive Analytics

 The students shall understand and Apply the concepts of different

models

 The students shall understand various aspects of IBM SPSS Modeler

interface

 The students shall be able to familiarize with various data clustering and
dimension reduction techniques
Books
• Sr No Title of the Book Author Name Volume/Edition Publish
Hours Years
• 1 The Art of Data Science Roger Peng 3rd lulu.com 2016
• 2 Scala CookBook Alvin Alexander 2 nd Edition O'reilly 2008

• Reference Books

• Sr No Title of the Book Author Name Volume/Edition Publish

Hours Years
• 1 Scala CookBook Alvin Alexander 4th O'reilly 2014
Books
• E. Siegel, “Predictive Analytics: The Power to Predict Who Will Click,
Buy, Lie, or Die ". John Wiley & Sons, Inc, 2013.

• P. Simon, ," Too Big to Ignore: The Business Case for Big Data”, Wiley
India, 2013

• J. W. Foreman, " Data Smart: Using Data Science to Transform

information into Insight,", Addison-Wesley

OTHER LINKS
• https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&
url=https://spark.apache.org/&ved=2ahUKEwjck97Qjr2KAxUETGwGHeL
3AG8QFnoECA0QAQ&usg=AOvVaw0PRjizm_RRWFrZz0aW1eey
• https://developer.ibm.com/predictiveanalytics/videos/category/tutorial
s/
Course Outcomes

C • Understand the components of the Hadoop Ecosystem and Data Science

O methodology
1
• Understand the constructs of Scala
C
O2
• Understand Apache Spark and its components
C
O3
• Design the applications using Scala
C
O4

• Develop the Applications using Spark and its available Libraries

C
O5
Spark Monitoring and
Tuning
Optimizing Spark Performance and Resources
Introduction
• - Spark Monitoring: Tracking performance and resource
usage of Spark applications.
• - Spark Tuning: Optimizing configurations to improve
performance and resource utilization.
Key Components of Spark Monitoring
• - Driver and Executor Metrics:
• - Driver: Coordinates execution.
• - Executor: Runs tasks and stores data.
• - Metrics Collected: Task time, shuffle read/write, GC
time, etc.
• - Monitoring Tools: Spark UI, Ganglia, Prometheus.
Spark UI for Monitoring
• - Accessible on port 4040 by default.
• - Key Tabs:
• - Jobs: Displays job progress and statistics.
• - Stages: Detailed stage-level information.
• - Executors: Memory and CPU usage.
Spark Monitoring with External Tools
• - Ganglia: Monitors resource usage in Spark clusters.
• - Prometheus: Collects and exposes metrics for analysis.
• - Datadog/New Relic: Comprehensive Spark monitoring
and alerting.
Introduction to Spark Tuning
• - Spark Tuning improves job execution and resource
usage.
• - Focus Areas:
• - Memory allocation.
• - Parallelism and partitions.
• - Shuffle optimization.
Key Tuning Parameters
• - `spark.executor.memory`: Memory per executor.
• - `spark.executor.cores`: Number of cores per executor.
• - `spark.default.parallelism`: Default number of
partitions.
• - `spark.sql.shuffle.partitions`: Partitions for shuffle
operations.
Optimizing Spark Jobs
• - Data Caching: Use `cache()` or `persist()` for reused
data.
• - Broadcast Variables: Efficiently share small read-only
data.
• - Partitioning: Avoid data skew with balanced partitions.
Best Practices
• - Monitor regularly using Spark UI and external tools.
• - Adjust configurations iteratively for optimal
performance.
• - Optimize data shuffling and caching strategies.
• - Analyze query plans to identify inefficiencies.
Conclusion
• - Spark Monitoring ensures efficient resource utilization.
• - Spark Tuning improves job performance and
scalability.
• - Continuous monitoring and optimization are key.

Apache Spark 24 Hours PDF
100% (6)
Apache Spark 24 Hours PDF
1,129 pages
Introduction To Big Data With Spark and Hadoop
No ratings yet
Introduction To Big Data With Spark and Hadoop
61 pages
Packt - Hands On - Big.data - Analytics.with - Pyspark.2019
100% (1)
Packt - Hands On - Big.data - Analytics.with - Pyspark.2019
253 pages
Connect Hardware Pripherials
No ratings yet
Connect Hardware Pripherials
154 pages
Software Test Report Template
No ratings yet
Software Test Report Template
5 pages
Vlsi Design Lab Manual
100% (1)
Vlsi Design Lab Manual
33 pages
Lessons From Large-Scale Machine Learning Deployments On Spark
No ratings yet
Lessons From Large-Scale Machine Learning Deployments On Spark
105 pages
Apache Spark Tutorial
100% (4)
Apache Spark Tutorial
36 pages
DEV3600SlideGuide PDF
No ratings yet
DEV3600SlideGuide PDF
555 pages
Inventory Management System For College
No ratings yet
Inventory Management System For College
10 pages
Learning Spark Preview Ed
No ratings yet
Learning Spark Preview Ed
18 pages
OOPS
No ratings yet
OOPS
11 pages
Arduino Based Voting System: Sri Padmavati Mahila Visvavidyalayam
No ratings yet
Arduino Based Voting System: Sri Padmavati Mahila Visvavidyalayam
18 pages
Apache Spark Engine
100% (1)
Apache Spark Engine
82 pages
524 Computer Networks: Course Outline - The Aim
No ratings yet
524 Computer Networks: Course Outline - The Aim
26 pages
Web Services Mock Test
No ratings yet
Web Services Mock Test
11 pages
Advanced Information and Knowledge
No ratings yet
Advanced Information and Knowledge
105 pages
Mastering Advanced Analytics With Apache Spark
No ratings yet
Mastering Advanced Analytics With Apache Spark
75 pages
Libro Spark
No ratings yet
Libro Spark
68 pages
What Is A Microcontroller
No ratings yet
What Is A Microcontroller
8 pages
Mastering Apache Spark - Sample Chapter
No ratings yet
Mastering Apache Spark - Sample Chapter
24 pages
PROFIBUS DP PowerSupply Via Bus Cable Calculation Berechnung 05 2006
No ratings yet
PROFIBUS DP PowerSupply Via Bus Cable Calculation Berechnung 05 2006
11 pages
Apache Spark Analytics Made Simple
No ratings yet
Apache Spark Analytics Made Simple
76 pages
Databricks Apache Spark Certified Developer Master Cheat Sheet
100% (1)
Databricks Apache Spark Certified Developer Master Cheat Sheet
29 pages
Performance Tuning in Azure Databricks
100% (1)
Performance Tuning in Azure Databricks
124 pages
Apache Spark Analytics Made Simple PDF
No ratings yet
Apache Spark Analytics Made Simple PDF
76 pages
Enterprise Data Storage and Analysis On Spark
No ratings yet
Enterprise Data Storage and Analysis On Spark
34 pages
Performance Tuning Spark UI
No ratings yet
Performance Tuning Spark UI
37 pages
Red Hat Enterprise Linux 8 Security Hardening en US
100% (1)
Red Hat Enterprise Linux 8 Security Hardening en US
110 pages
7 Steps For A Developer To Learn Apache Spark
No ratings yet
7 Steps For A Developer To Learn Apache Spark
30 pages
TSM Tape Solution v8.1.4
No ratings yet
TSM Tape Solution v8.1.4
276 pages
Big Data Analytics With Spark: A Practitioner's Guide To Using Spark For Large Scale Data Analysis
No ratings yet
Big Data Analytics With Spark: A Practitioner's Guide To Using Spark For Large Scale Data Analysis
1 page
NEB Class 12 Computer Data Communication and Networking Notes
No ratings yet
NEB Class 12 Computer Data Communication and Networking Notes
23 pages
Mcqs
No ratings yet
Mcqs
14 pages
Productflyer - 978 1 4842 0964 6 PDF
No ratings yet
Productflyer - 978 1 4842 0964 6 PDF
1 page
Project Report Explore World: Janta Polytechnic, Jahangirabad Bulandshahr
No ratings yet
Project Report Explore World: Janta Polytechnic, Jahangirabad Bulandshahr
111 pages
Microcontroladores Coldfire+ Kinetis
No ratings yet
Microcontroladores Coldfire+ Kinetis
80 pages
BigData Spark Sparklyr
No ratings yet
BigData Spark Sparklyr
80 pages
Proc. POWERCON 7, 1980, Pp. E3-1-E3-15.: Onclusion
No ratings yet
Proc. POWERCON 7, 1980, Pp. E3-1-E3-15.: Onclusion
1 page
Chapter 3.0 - Block Diagram
No ratings yet
Chapter 3.0 - Block Diagram
37 pages
Lesson 04 - Primitive Data Types I
No ratings yet
Lesson 04 - Primitive Data Types I
38 pages
Preset Management With Vyzex MPD32
No ratings yet
Preset Management With Vyzex MPD32
9 pages
Hsin-Yu (Bryce) Huang: Ducation
No ratings yet
Hsin-Yu (Bryce) Huang: Ducation
1 page
311002-Engineering Workshop Practice 210923
No ratings yet
311002-Engineering Workshop Practice 210923
8 pages
20J41A0514-Big Data Spark
No ratings yet
20J41A0514-Big Data Spark
12 pages
Slip Ring
No ratings yet
Slip Ring
2 pages
AI702M704M706M - V77 Prepration Tank
No ratings yet
AI702M704M706M - V77 Prepration Tank
40 pages
Big Data Training in Chennai - Big Data Course in Chennai
No ratings yet
Big Data Training in Chennai - Big Data Course in Chennai
1 page
DBMS Unit1
No ratings yet
DBMS Unit1
30 pages
Untitled
No ratings yet
Untitled
51 pages
Introduction To Spark
No ratings yet
Introduction To Spark
30 pages
Spark
No ratings yet
Spark
4 pages
0805 Learning Apache Spark With Python
No ratings yet
0805 Learning Apache Spark With Python
147 pages
Big Data
No ratings yet
Big Data
10 pages
Big Data A Comprehensive Overview
No ratings yet
Big Data A Comprehensive Overview
25 pages
Ex - No:01 Rotate An Image Date
No ratings yet
Ex - No:01 Rotate An Image Date
11 pages
Big Data Analytics02
No ratings yet
Big Data Analytics02
20 pages
Big Data Analytics
No ratings yet
Big Data Analytics
8 pages
(Na) Aven Jeffrey - Sams Teach Yourself Spark in 24 Hours
No ratings yet
(Na) Aven Jeffrey - Sams Teach Yourself Spark in 24 Hours
1,229 pages
Tech Handbook - TechX IIMA
No ratings yet
Tech Handbook - TechX IIMA
41 pages
Master Spark Concepts
No ratings yet
Master Spark Concepts
112 pages
Openspecs Windows Protocols Ms SCMR
No ratings yet
Openspecs Windows Protocols Ms SCMR
407 pages
Near Real Time Fraud Detection With Apac
No ratings yet
Near Real Time Fraud Detection With Apac
87 pages
Big Data Distributed Platforms
No ratings yet
Big Data Distributed Platforms
18 pages
Big Data Analytics M1
No ratings yet
Big Data Analytics M1
27 pages
Big Data Unit 1 Notes
No ratings yet
Big Data Unit 1 Notes
20 pages
IOTBDM - Mid Sem
No ratings yet
IOTBDM - Mid Sem
16 pages
Big Data Analytics Overview
No ratings yet
Big Data Analytics Overview
17 pages
Weather Monitoring System
No ratings yet
Weather Monitoring System
5 pages
A Salon Coupon Discount System in C++
No ratings yet
A Salon Coupon Discount System in C++
9 pages
Big Data Complete Notes
No ratings yet
Big Data Complete Notes
33 pages
1 PDFsam Apache Spark Tutorial
No ratings yet
1 PDFsam Apache Spark Tutorial
7 pages
Big Data Unit 3
No ratings yet
Big Data Unit 3
374 pages
Python Unit - 2
No ratings yet
Python Unit - 2
142 pages
Big Data Analytics Presentation
No ratings yet
Big Data Analytics Presentation
11 pages
Spark SQL PPT 3.2.3 and 3.2.4
No ratings yet
Spark SQL PPT 3.2.3 and 3.2.4
17 pages
Unit 1 Dbms - Patel
No ratings yet
Unit 1 Dbms - Patel
183 pages
Vxrail Tech Faq
No ratings yet
Vxrail Tech Faq
40 pages
1.1.4 and 1.1.5
No ratings yet
1.1.4 and 1.1.5
38 pages
Operating System Unit 1
No ratings yet
Operating System Unit 1
210 pages
1.1.2 and 1.1.3
No ratings yet
1.1.2 and 1.1.3
21 pages
Big Data
No ratings yet
Big Data
67 pages
Unit V Big Data
No ratings yet
Unit V Big Data
18 pages
Big Data 1
No ratings yet
Big Data 1
28 pages
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
No ratings yet
Big Data Processing With Apache Spark - Part 1 - Introduction - InfoQ
18 pages
Big Data Unit 1
No ratings yet
Big Data Unit 1
194 pages
Big Data Analytics
No ratings yet
Big Data Analytics
61 pages
Business Intelligence Unit - 1
No ratings yet
Business Intelligence Unit - 1
55 pages
Apache Spark Performance Troubleshooting at Scale Challenges, Tools and Methods
No ratings yet
Apache Spark Performance Troubleshooting at Scale Challenges, Tools and Methods
48 pages
White and Beige Minimalist Corporate Business Table of Contents
No ratings yet
White and Beige Minimalist Corporate Business Table of Contents
4 pages
Assignment-1 Spark and Scala
No ratings yet
Assignment-1 Spark and Scala
1 page
Unit1.1.1 RTHFGBCV TRHBGFV TDHNGFB
No ratings yet
Unit1.1.1 RTHFGBCV TRHBGFV TDHNGFB
26 pages
Big Data Technologies Presentation
No ratings yet
Big Data Technologies Presentation
10 pages
Spark Optimisation Techniques
No ratings yet
Spark Optimisation Techniques
3 pages
Big Data Hadoop Complete Final Spaced
No ratings yet
Big Data Hadoop Complete Final Spaced
15 pages
Fast Data Processing with Spark 2 - Third Edition
From Everand
Fast Data Processing with Spark 2 - Third Edition
Krishna Sankar
No ratings yet
Spark for Data Science
From Everand
Spark for Data Science
Srinivas Duvvuri
No ratings yet
Apache Spark Machine Learning Blueprints
From Everand
Apache Spark Machine Learning Blueprints
Alex Liu
No ratings yet
SQL Made Easy: Tips and Tricks to Mastering SQL Programming
From Everand
SQL Made Easy: Tips and Tricks to Mastering SQL Programming
Ryan Campbell
No ratings yet

SPark Monitoring and Tuning PPT 3.3.1

Uploaded by

SPark Monitoring and Tuning PPT 3.3.1

Uploaded by

APEX INSTITUTE OF TECHNOLOGY.

Big Data Technologies (Spark & Scala)

 The students will be able to understand statistics and mathematics in the

 The students shall understand and Apply the concepts of different

 The students shall understand various aspects of IBM SPSS Modeler

• Sr No Title of the Book Author Name Volume/Edition Publish

• J. W. Foreman, " Data Smart: Using Data Science to Transform

C • Understand the components of the Hadoop Ecosystem and Data Science

• Develop the Applications using Spark and its available Libraries

You might also like