0% found this document useful (0 votes)

211 views23 pages

L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming

Apache Spark is a fast, general-purpose cluster computing framework that allows processing of large datasets across clusters of computers using a concept called Resilient Distributed Datasets (RDDs). It supports operations like transformations and actions on structured data using DataFrames and SQL queries. Spark also provides tools for interactive data analysis using notebooks and shells and can read/write data from sources like JSON, databases, and files.

Uploaded by

Satya Narayana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

211 views23 pages

L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming

Uploaded by

Satya Narayana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 23

L02 – Spark SQL for Data Processing

CBG1C04 Big Data Programming

What is Apache Spark

• Apache Spark is a fast, general purpose,

distributed computing platform for large-scale
data processing

• Similar to Hadoop but many times faster

• Spark supports the Scala, Java, Python and R

programming languages

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

The Spark Ecosystem

from Apache Spark 2.x Machine Learning Cookbook

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Spark Applications

from Spark: The Definitive Guide

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Spark Shell

• The Spark Shell provides interactive data

exploration with Spark
• The Spark Shell is a Read-Evaluate-Print-Loop
(REPL) shell.

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Spark Configuration

• In this subject, we will be using Spark 2.3.1

and Python 3.6

• Spark provides the variable spark and it is

the main entry point for interacting with
Spark using DataFrames API

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Jupyter Notebook with Spark

• When you enter pyspark at the terminal, a

Jupyter notebook will be launched instead.

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Spark SQL

• What is Spark SQL?

– Spark module for structured data processing

• What does Spark SQL provide?

– The DataFrame API – a library for working with
data as tables
– Catalyst Optimizer which will help to speed up
PySpark

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrames

• A DataFrame is an immutable distributed

collection of data that is organised into
named columns analogous to a table in a
relational database
• The DataFrame API is used for handling
structured data in DataFrames

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Transformations and Actions

• Transformations specify how to change from

one DataFrame to another.
• Actions compute a result from a series of
transformations.
Spark will wait until the
very last moment to
execute the graph of
computation instructions,
known as Lazy Evaluation

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Creating a DataFrame from a JSON File

people.json
{"name":"Alice", "pcode":"94304"}
{"name":"Brayden", "age":30, "pcode":"94304"}
{"name":"Carla", "age":19, "pcode":"10036"}
{"name":"Diana", "age":46}
{"name":"Etienne", "pcode":"94104"}

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Creating a DataFrame from Database
using JDBC

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Basic Metadata Operations

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Actions

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Transformations

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Transformations

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Transformations

Contains many useful functions

that operate on columns

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

DataFrame Transformations

• DataFrame transformations can be chained

• Other methods:
– Distinct: returns a new DataFrame with distinct
elements of this DataFrame
– join: joins this DataFrame with a second
DataFrame

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

SQL Queries

• Spark SQL also supports the ability to perform

traditional SQL queries. However, you need to
create a temporary table from the DataFrame
using createOrReplaceTempView(“name”).

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Saving DataFrames

• Data in DataFrames can be saved to a data

source
– Built in support for JDBC, CSV, JSON and Parquet
file format

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Low-Level APIs
• Spark has a set of lower-level APIs based on
the Resilient Distributed Dataset (RDD).
• You generally use the lower-level APIs in three
situations:
– You need some functionality that you cannot find
in the higher-level APIs; for example, if you need
very tight control over physical data placement
across the cluster.
– You need to maintain some legacy codebase
written using RDDs.
– You need to do some custom shared variable
manipulation.
TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT
Resilient Distributed Dataset (RDD)

• In memory
• Partitioned
• Typed
• Lazy Evaluation
• Immutable
• Parallel
• Cacheable

from Learning Apache Spark 2

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT
TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

IMDB Movie Dataset Analysis: Sarada Saripalli
No ratings yet
IMDB Movie Dataset Analysis: Sarada Saripalli
9 pages
Situational Writing Tips
0% (1)
Situational Writing Tips
18 pages
24 StoredProcs
No ratings yet
24 StoredProcs
6 pages
Fast Data Processing with Spark 2 - Third Edition
From Everand
Fast Data Processing with Spark 2 - Third Edition
Krishna Sankar
No ratings yet
Spark Interview Q&A
No ratings yet
Spark Interview Q&A
31 pages
Big Data With Apache Spark 3 and Python From Zero To Expert
No ratings yet
Big Data With Apache Spark 3 and Python From Zero To Expert
28 pages
Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala
From Everand
Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala
Eric Tome
No ratings yet
Oracle Database Mastery: Comprehensive Techniques for Advanced Application
From Everand
Oracle Database Mastery: Comprehensive Techniques for Advanced Application
Adam Jones
No ratings yet
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Spark in Production
No ratings yet
Spark in Production
34 pages
PySpark and Azure Data Engineer Free Notes
No ratings yet
PySpark and Azure Data Engineer Free Notes
65 pages
Snowflake - Billing Components
No ratings yet
Snowflake - Billing Components
9 pages
DataEngineer Roadmap
No ratings yet
DataEngineer Roadmap
12 pages
Talend Open Studio For Data Integration: User Guide
No ratings yet
Talend Open Studio For Data Integration: User Guide
452 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Databricks Question
No ratings yet
Databricks Question
7 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Create An Spark Streaming App: 1. Architecture and Abstraction
No ratings yet
Create An Spark Streaming App: 1. Architecture and Abstraction
8 pages
TalendOpenStudio BigData UG 5.2.1 en
No ratings yet
TalendOpenStudio BigData UG 5.2.1 en
266 pages
External Tables
No ratings yet
External Tables
105 pages
DBT Flow
No ratings yet
DBT Flow
15 pages
Spark Optimizations & Deployment
No ratings yet
Spark Optimizations & Deployment
39 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Hive Cheat Sheet - Quick Reference
No ratings yet
Hive Cheat Sheet - Quick Reference
19 pages
Dice Resume CV SN
No ratings yet
Dice Resume CV SN
5 pages
Pyspark Learning Hub
No ratings yet
Pyspark Learning Hub
7 pages
Snowflake Architecture
No ratings yet
Snowflake Architecture
18 pages
Airflow 2 X
100% (2)
Airflow 2 X
39 pages
A Data Pipeline Should Address These Issues:: Topics To Study
No ratings yet
A Data Pipeline Should Address These Issues:: Topics To Study
10 pages
Snowflake - Syllubus and DBT
No ratings yet
Snowflake - Syllubus and DBT
11 pages
17.views and MaterializedViews
No ratings yet
17.views and MaterializedViews
13 pages
PySpark Meetup Talk
No ratings yet
PySpark Meetup Talk
35 pages
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
No ratings yet
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
74 pages
Snow SQL
No ratings yet
Snow SQL
3 pages
Snowflake
No ratings yet
Snowflake
122 pages
PySpark VS SQL Interview Questions
100% (1)
PySpark VS SQL Interview Questions
16 pages
Master Pyspark Zero To Hero 1738689679
No ratings yet
Master Pyspark Zero To Hero 1738689679
102 pages
Matillion Optimizing Snowflake
No ratings yet
Matillion Optimizing Snowflake
23 pages
What Are DBT Sources
No ratings yet
What Are DBT Sources
109 pages
Spark Concept
No ratings yet
Spark Concept
18 pages
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
Spark SQL
100% (1)
Spark SQL
25 pages
Interview Questions
No ratings yet
Interview Questions
2 pages
What Is Spark?: Up To 100× Faster
No ratings yet
What Is Spark?: Up To 100× Faster
56 pages
Datastage Questions
No ratings yet
Datastage Questions
18 pages
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
No ratings yet
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
4 pages
Snowflake Demo
No ratings yet
Snowflake Demo
13 pages
Snowflake
No ratings yet
Snowflake
11 pages
Data Bricks
No ratings yet
Data Bricks
20 pages
Databricks Performance Tuning
No ratings yet
Databricks Performance Tuning
9 pages
Tuning SQL Queries - Oracle
100% (1)
Tuning SQL Queries - Oracle
27 pages
SCD Type-1,2 Implementation in Pyspark
No ratings yet
SCD Type-1,2 Implementation in Pyspark
6 pages
A Performance Comparison of SQL and NoSQL Databases
No ratings yet
A Performance Comparison of SQL and NoSQL Databases
5 pages
ADF Copy Data
100% (1)
ADF Copy Data
81 pages
Spark RDD Dataframes SQL
No ratings yet
Spark RDD Dataframes SQL
3 pages
Pyspark Study Material
No ratings yet
Pyspark Study Material
5 pages
Caching in Snowflake
No ratings yet
Caching in Snowflake
7 pages
PySpark Optimization Scenarios - Wipro
No ratings yet
PySpark Optimization Scenarios - Wipro
8 pages
Spark QA
No ratings yet
Spark QA
34 pages
Azure Data Factory
No ratings yet
Azure Data Factory
6 pages
Sqoop Cammand
No ratings yet
Sqoop Cammand
8 pages
Top Pyspark InterviewQuestions
No ratings yet
Top Pyspark InterviewQuestions
21 pages
S.no Account Manager Position Date Requirement Received
No ratings yet
S.no Account Manager Position Date Requirement Received
6 pages
S.no Account Manager Position Date Requirement Received
No ratings yet
S.no Account Manager Position Date Requirement Received
6 pages
S.no Account Manager Position Date Requirement Received
No ratings yet
S.no Account Manager Position Date Requirement Received
6 pages
1 2 Metrodata 3 4 5 6 Fujitsu Indonesia 7 Amartha 8 MNC: Date of Req Submission Date Account Manager Client Name
No ratings yet
1 2 Metrodata 3 4 5 6 Fujitsu Indonesia 7 Amartha 8 MNC: Date of Req Submission Date Account Manager Client Name
8 pages
Imdb Movie Data Set
No ratings yet
Imdb Movie Data Set
9 pages
Psle Mathematics: For Examination From 2009
No ratings yet
Psle Mathematics: For Examination From 2009
2 pages
Oka-Yogi-Atma-Katha-Part1 - Technobytes PDF
No ratings yet
Oka-Yogi-Atma-Katha-Part1 - Technobytes PDF
80 pages
Domain 2. Technology 3. Sales Process 4. Recruitment Process 5. Account Management
No ratings yet
Domain 2. Technology 3. Sales Process 4. Recruitment Process 5. Account Management
1 page
Why Did You Leave Your Last Job
No ratings yet
Why Did You Leave Your Last Job
3 pages
Time Monday Tuesday Wednesday Thursday Friday Saturday Sunday
No ratings yet
Time Monday Tuesday Wednesday Thursday Friday Saturday Sunday
2 pages
Devi Navaratri - : October 1 - October 11, 2016
No ratings yet
Devi Navaratri - : October 1 - October 11, 2016
1 page
SAP Companies
No ratings yet
SAP Companies
1 page
Secondary 1 Maths
100% (1)
Secondary 1 Maths
9 pages
Information of Nursery 1 Kindergartens-Updated June 2016
No ratings yet
Information of Nursery 1 Kindergartens-Updated June 2016
5 pages
2015 (Q1-Q4) Singapore: ATS Expansion / Growth Plans
No ratings yet
2015 (Q1-Q4) Singapore: ATS Expansion / Growth Plans
2 pages
Assignment 3
No ratings yet
Assignment 3
5 pages
Idb Lab 2
No ratings yet
Idb Lab 2
8 pages
DBMS Unit5
No ratings yet
DBMS Unit5
20 pages
Higher Nationals: Internal Verification of Assessment Decisions - BTEC (RQF)
No ratings yet
Higher Nationals: Internal Verification of Assessment Decisions - BTEC (RQF)
78 pages
How To Future-Proof Your Career in The Age of AI?
No ratings yet
How To Future-Proof Your Career in The Age of AI?
13 pages
TRW and Research Methods
50% (2)
TRW and Research Methods
36 pages
It Terminology
No ratings yet
It Terminology
19 pages
Global Mapper
No ratings yet
Global Mapper
26 pages
Talent Management and HRM
No ratings yet
Talent Management and HRM
31 pages
Impact of Big Data Analytics On Banking Sector Learning For Indian Banks
No ratings yet
Impact of Big Data Analytics On Banking Sector Learning For Indian Banks
10 pages
Linked List Slides
No ratings yet
Linked List Slides
24 pages
BRM Notes (Unit III)
No ratings yet
BRM Notes (Unit III)
44 pages
What Is MongoDB - Introduction, Architecture, Features & Example
No ratings yet
What Is MongoDB - Introduction, Architecture, Features & Example
8 pages
DDIC Changes
No ratings yet
DDIC Changes
6 pages
Lesson 1 Nature and Characteristics of Research
No ratings yet
Lesson 1 Nature and Characteristics of Research
18 pages
Unit 5 - OS
No ratings yet
Unit 5 - OS
30 pages
Tableau Part 1
No ratings yet
Tableau Part 1
160 pages
SNMP V2 and V3
No ratings yet
SNMP V2 and V3
42 pages
Tableau
No ratings yet
Tableau
58 pages
Rajpreet Finalized Dissertation
No ratings yet
Rajpreet Finalized Dissertation
110 pages
CC6001CN 2017-8 Sem2
No ratings yet
CC6001CN 2017-8 Sem2
4 pages
Statistical Sales Conditions (34B - FR) : Test Script SAP S/4HANA - 20-08-20
No ratings yet
Statistical Sales Conditions (34B - FR) : Test Script SAP S/4HANA - 20-08-20
19 pages
Cognos 10 Framework Manager
No ratings yet
Cognos 10 Framework Manager
635 pages
Data Presentation: I. Textual Narrative or Textual Presentation
No ratings yet
Data Presentation: I. Textual Narrative or Textual Presentation
11 pages
Evaluation Methods
No ratings yet
Evaluation Methods
8 pages
Esm 101 Module Updated Notes Mmust-2
No ratings yet
Esm 101 Module Updated Notes Mmust-2
80 pages
AD3491 UNIT 1 NOTES EduEngg
100% (1)
AD3491 UNIT 1 NOTES EduEngg
35 pages
Advance DSO
100% (1)
Advance DSO
11 pages
D56261GC10 Les01
No ratings yet
D56261GC10 Les01
36 pages
8604 (2) Assignment
No ratings yet
8604 (2) Assignment
29 pages

L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming

Uploaded by

L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming

Uploaded by

L02 – Spark SQL for Data Processing

CBG1C04 Big Data Programming

• Apache Spark is a fast, general purpose,

• Similar to Hadoop but many times faster

• Spark supports the Scala, Java, Python and R

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

from Apache Spark 2.x Machine Learning Cookbook

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

from Spark: The Definitive Guide

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• The Spark Shell provides interactive data

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• In this subject, we will be using Spark 2.3.1

• Spark provides the variable spark and it is

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• When you enter pyspark at the terminal, a

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• What is Spark SQL?

• What does Spark SQL provide?

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• A DataFrame is an immutable distributed

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• Transformations specify how to change from

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

Contains many useful functions

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• DataFrame transformations can be chained

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• Spark SQL also supports the ability to perform

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

• Data in DataFrames can be saved to a data

TEMASEK POLYTECHNIC • SCHOOL OF INFORMATICS & IT

from Learning Apache Spark 2

You might also like