0% found this document useful (0 votes)

6 views9 pages

SQL & PySpark ?

This guide provides a comprehensive comparison between SQL and PySpark, highlighting their equivalents for various data operations such as data types, database management, table alterations, and more. It aims to assist data professionals in transitioning smoothly between SQL and PySpark in hybrid environments. The document includes specific SQL queries alongside their PySpark counterparts for easy reference.

Uploaded by

priyavarenyadasini

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views9 pages

SQL & PySpark ?

Uploaded by

priyavarenyadasini

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

SQL & PySpark Equivalence: A Comprehensive Guide

Structured Query Language (SQL) and PySpark are powerful tools for large-scale data processing. SQL is widely
used for querying and managing structured data in relational databases, while PySpark, built on Apache Spark,
excels in distributed computing and big data analytics.
This guide provides a side-by-side comparison of key SQL operations and their PySpark equivalents, covering
data types, database operations, table alterations, partitioning, views, schema management, file operations,
queries, aggregations, string and date functions, conditional logic, joins, grouping, set operations, window
functions, and CTEs. It aims to help data professionals transition seamlessly between SQL and PySpark in
hybrid environments.

1. Data Types
SQL Data Type PySpark Equivalent

INT IntegerType ()

BIGINT LongType ()

FLOAT FloatType ()

DOUBLE DoubleType ()

CHAR(n) / VARCHAR(n) StringType ()

DATE DateType ()

TIMESTAMP TimestampType ()

2. Database & Table_operations

Concept SQL Query PySpark Equivalent

Create Database CREATE DATABASE db_name; spark.sql ("CREATE DATABASE db_name")

Use Database USE db_name; spark.catalog.setCurrentDatabase("db_name")

Drop Database DROP DATABASE db_name; spark.sql ("DROP DATABASE db_name")

Show Databases SHOW DATABASES; spark.sql ("SHOW DATABASES").show()

CREATE TABLE table_name (col1 INT,

Create Table df.write.format("parquet"). saveAsTable("table_name")
col2 STRING);

Drop Table DROP TABLE table_name; spark.sql ("DROP TABLE IF EXISTS table_name")

Truncate Table TRUNCATE TABLE table_name; spark.sql ("TRUNCATE TABLE table_name")

Describe Table DESCRIBE TABLE table_name; df.printSchema()

Show Tables SHOW TABLES; spark.sql ("SHOW TABLES").show()

3. Table Alterations
Concept SQL Query PySpark Equivalent

ALTER TABLE table_name ADD COLUMN col3

Add Column df.withColumn("col3", lit(None).cast("string"))
STRING;

ALTER TABLE table_name RENAME COLUMN df.withColumnRenamed("old_name",

Rename Column
old_name TO new_name; "new_name")

Drop Column ALTER TABLE table_name DROP COLUMN col3; df.drop("col3")

4. Partitioning & Bucketing
Concept SQL Query PySpark Equivalent

CREATE TABLE table_name (col1

Create Partitioned df.write.partitionBy("col3").format("parquet").saveAsTable("table_n
INT, col2 STRING) PARTITIONED
Table ame")
BY (col3 STRING);

INSERT INTO table_name

Insert into df.write.mode("append").partitionBy("col3").saveAsTable("table_na
PARTITION (col3='value') SELECT
Partitioned Table me")
col1, col2 FROM source_table;

CREATE TABLE table_name (col1

Create Bucketed
INT, col2 STRING) CLUSTERED BY df.write.bucketBy(10, "col1").saveAsTable("table_name")
Table
(col1) INTO 10 BUCKETS;

5. Views (Temporary & Permanent)

Concept SQL Query PySpark Equivalent

CREATE VIEW view_name AS SELECT * FROM

Create View df.createOrReplaceTempView("view_name")
table_name;

Drop View DROP VIEW view_name; spark.sql("DROP VIEW IF EXISTS view_name")

CREATE GLOBAL VIEW view_name AS SELECT *

Create Global View df.createGlobalTempView("view_name")
FROM table_name;

Show Views SHOW VIEWS; spark.sql("SHOW VIEWS").show()

6. Schema Management
Concept SQL Query PySpark Equivalent

from pyspark.sql.types import StructType, StructField,

IntegerType, StringType, DateTypeschema =
Define Schema CREATE TABLE table_name (col1
StructType([StructField("col1", IntegerType(), True),
Manually INT, col2 STRING, col3 DATE);
StructField("col2", StringType(), True), StructField("col3",
DateType(), True)])

Check Schema DESCRIBE TABLE table_name; df.printSchema()

Change Column Data ALTER TABLE table_name ALTER

df.withColumn("col1", col("col1").cast("bigint"))
Type COLUMN col1 TYPE BIGINT;

7. File-Based Table Operations

Concept SQL Query PySpark Equivalent

Save as Parquet N/A (Implicit in Hive) df.write.format("parquet").save("path/to/parquet")

CREATE TABLE table_name USING DELTA

Save as Delta Table df.write.format("delta").save("path/to/delta")
LOCATION 'path';

df.write.format("csv").option("header",
Save as CSV N/A
"true").save("path/to/csv")

Save as JSON N/A df.write.format("json").save("path/to/json")

Save as ORC N/A df.write.format("orc").save("path/to/orc")

8. Basic SELECT Queries

Concept SQL Query PySpark Equivalent

Select Specific Columns SELECT column1, column2 FROM table; df.select("column1", "column2")

Select All Columns SELECT * FROM table; df.select("*")

Distinct Values SELECT DISTINCT column FROM table; df.select("column").distinct()

WHERE Condition SELECT * FROM table WHERE column = 'value'; df.filter(col("column") == 'value')

ORDER BY SELECT * FROM table ORDER BY column; df.sort("column")

LIMIT Rows SELECT * FROM table LIMIT n; df.limit(n)

COUNT Rows SELECT COUNT(*) FROM table; df.count()

9. Aggregate Functions
Concept SQL Query PySpark Equivalent

SUM SELECT SUM(column) FROM table; df.agg({"column": "sum"})

AVG SELECT AVG(column) FROM table; df.agg({"column": "avg"})

MAX SELECT MAX(column) FROM table; df.agg({"column": "max"})

MIN SELECT MIN(column) FROM table; df.agg({"column": "min"})

10. String Functions

Concept SQL Query PySpark Equivalent

String Length SELECT LEN(column) FROM table; df.select(length(col("column")))

Convert to Uppercase SELECT UPPER(column) FROM table; df.select(upper(col("column")))

Convert to Lowercase SELECT LOWER(column) FROM table; df.select(lower(col("column")))

Concatenate Strings SELECT CONCAT(string1, string2) FROM table; df.select(concat(col("string1"), col("string2")))

Trim String SELECT TRIM(column) FROM table; df.select(trim(col("column")))

SELECT SUBSTRING(column, start, length) FROM df.select(substring(col("column"), start,

Substring
table; length))

11. Date & Time Functions

Concept SQL Query PySpark Equivalent

Current Date SELECT CURDATE(); df.select(current_date())

Current Timestamp SELECT NOW(); df.select(current_timestamp())

CAST / CONVERT SELECT CAST(column AS datatype) FROM table; df.select(col("column").cast("datatype"))

12. Conditional Logic

Concept SQL Query PySpark Equivalent

SELECT IF(condition, value1, value2) FROM df.select(when(condition,

IF (Conditional Logic)
table; value1).otherwise(value2))

SELECT COALESCE(column1, column2, df.select(coalesce(col("column1"), col("column2"),

COALESCE
column3) FROM table; col("column3")))

13. Join, Grouping & Pivoting

Concept SQL Query PySpark Equivalent

SELECT * FROM table1 JOIN table2 ON

JOIN df1.join(df2, "column")
table1.column = table2.column;

SELECT column, agg_function(column)

GROUP BY df.groupBy("column").agg({"column": "agg_function"})
FROM table GROUP BY column;

PIVOT (agg_function(column) FOR df.groupBy("pivot_column").pivot("column").agg({"column":

PIVOT
pivot_column IN (values)); "agg_function"})

14. Logical Operators

Concept SQL Query PySpark Equivalent

SELECT * FROM table WHERE column1 = df.filter((col("column1") == value) &

AND / OR
value AND column2 > value; (col("column2") > value))

SELECT * FROM table WHERE column IS

IS NULL / IS NOT NULL df.filter(col("column").isNull())
NULL;

SELECT * FROM table WHERE column LIKE

LIKE df.filter(col("column").like("value%"))
'value%';

SELECT * FROM table WHERE column df.filter((col("column") >= value1) & (col("column")
BETWEEN
BETWEEN value1 AND value2; <= value2))

15. Set Operations

Concept SQL Query PySpark Equivalent

SELECT column FROM table1 UNION SELECT column FROM

UNION df1.union(df2).select("column")
table2;

SELECT column FROM table1 UNION ALL SELECT column FROM

UNION ALL df1.unionAll(df2).select("column")
table2;

16. Window Functions

Concept SQL Query PySpark Equivalent

SELECT column, RANK() OVER

df.withColumn("rank",
RANK() (PARTITION BY col2 ORDER
rank().over(Window.partitionBy("col2").orderBy("column")))
BY column) FROM table;

SELECT column,
DENSE_RANK() OVER df.withColumn("dense_rank",
DENSE_RANK()
(PARTITION BY col2 ORDER dense_rank().over(Window.partitionBy("col2").orderBy("column")))
BY column) FROM table;

SELECT column,
df.withColumn("row_number",
ROW_NUMBER() OVER
ROW_NUMBER() row_number().over(Window.partitionBy("col2").orderBy("column"))
(PARTITION BY col2 ORDER
)
BY column) FROM table;

SELECT column,
LEAD(column, 1) OVER df.withColumn("lead_value", lead("column",
LEAD()
(PARTITION BY col2 ORDER 1).over(Window.partitionBy("col2").orderBy("column")))
BY column) FROM table;

SELECT column, LAG(column,

1) OVER (PARTITION BY col2 df.withColumn("lag_value", lag("column",
LAG()
ORDER BY column) FROM 1).over(Window.partitionBy("col2").orderBy("column")))
table;

17. Common Table Expressions (CTEs)

Concept SQL Query PySpark Equivalent

WITH cte1 AS (SELECT * FROM table1) SELECT * df.createOrReplaceTempView("cte1")df_cte1 =

CTE
FROM cte1 WHERE condition; spark.sql("SELECT * FROM cte1 WHERE condition")

Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PYSPARK Interview Questions
100% (3)
PYSPARK Interview Questions
126 pages
CBC HCS 21st
100% (3)
CBC HCS 21st
104 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
1 5011739
No ratings yet
1 5011739
10 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
PySpark SQL Cheat Sheet Python
No ratings yet
PySpark SQL Cheat Sheet Python
1 page
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Databricks Vs SQL Cheat Sheet
No ratings yet
Databricks Vs SQL Cheat Sheet
11 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
Data Frames
No ratings yet
Data Frames
12 pages
SparkDataFrames_250719_202947
No ratings yet
SparkDataFrames_250719_202947
11 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
4.3. Spark SQL
No ratings yet
4.3. Spark SQL
25 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
10 Spark1
No ratings yet
10 Spark1
31 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Page 01
No ratings yet
Page 01
2 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Mission 93 Spark SQL Takeaways
No ratings yet
Mission 93 Spark SQL Takeaways
1 page
Spark SQL
No ratings yet
Spark SQL
41 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Spark SQL
No ratings yet
Spark SQL
24 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
HTML Code
No ratings yet
HTML Code
3 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
(Exam) Data Engineering Certification Prep Guide - Partners
No ratings yet
(Exam) Data Engineering Certification Prep Guide - Partners
15 pages
Pharmacological Industry: S. Aureus
No ratings yet
Pharmacological Industry: S. Aureus
3 pages
Self-Learning Home Task (SLHT) : Describe The Impact of
No ratings yet
Self-Learning Home Task (SLHT) : Describe The Impact of
9 pages
About IGBC Green Resorts
No ratings yet
About IGBC Green Resorts
2 pages
Hero Splendor Plus Vs HF Deluxe Comparison: Note - Snap Shows RH Assembly. LH Is Symmetrical
No ratings yet
Hero Splendor Plus Vs HF Deluxe Comparison: Note - Snap Shows RH Assembly. LH Is Symmetrical
3 pages
Araldite 2000
No ratings yet
Araldite 2000
6 pages
A Guide To Olas PDF
No ratings yet
A Guide To Olas PDF
15 pages
Canned
No ratings yet
Canned
19 pages
3000 Oxford
No ratings yet
3000 Oxford
69 pages
Exp 2 - Tray Dryer PDF
No ratings yet
Exp 2 - Tray Dryer PDF
8 pages
Projective Geometry
100% (1)
Projective Geometry
45 pages
English Module: Analytical Exposition Text
No ratings yet
English Module: Analytical Exposition Text
23 pages
Unit 3 Estimation of Brickwork in Single Storey Buildings Stone Masonry General Specifications of RCC Work
No ratings yet
Unit 3 Estimation of Brickwork in Single Storey Buildings Stone Masonry General Specifications of RCC Work
46 pages
Komatsu HKX Hydraulic Install Instructions
No ratings yet
Komatsu HKX Hydraulic Install Instructions
106 pages
Bracker Short Staple Manual 97333 en
No ratings yet
Bracker Short Staple Manual 97333 en
76 pages
Concrete Forming
No ratings yet
Concrete Forming
5 pages
HRM Training Module
No ratings yet
HRM Training Module
60 pages
People V Deguito - CA Decision
No ratings yet
People V Deguito - CA Decision
58 pages
Kevin Lunnie & James Croswell: Presented at The 2021 International Technical Rescue Symposium - Golden, CO
No ratings yet
Kevin Lunnie & James Croswell: Presented at The 2021 International Technical Rescue Symposium - Golden, CO
8 pages
The Stranger Essay
100% (2)
The Stranger Essay
5 pages
Physical Therapy in Sport: Mark J. Stokes, Jeremy Witchalls, Gordon Waddington, Roger Adams
No ratings yet
Physical Therapy in Sport: Mark J. Stokes, Jeremy Witchalls, Gordon Waddington, Roger Adams
10 pages
Ait Previous Year Question Paper
No ratings yet
Ait Previous Year Question Paper
3 pages
English8 Q2 Week1 1
No ratings yet
English8 Q2 Week1 1
20 pages
2011 Apache Parts Book 5-9-11
No ratings yet
2011 Apache Parts Book 5-9-11
322 pages
Bacon - Novum Organum
100% (1)
Bacon - Novum Organum
303 pages
Gujarat Technological University
No ratings yet
Gujarat Technological University
7 pages
Computer Science Class 11 - Sultan Chand - SamplePaper2
No ratings yet
Computer Science Class 11 - Sultan Chand - SamplePaper2
5 pages
Compact Flash Card
No ratings yet
Compact Flash Card
120 pages
2 Shaft Seals en
No ratings yet
2 Shaft Seals en
30 pages

SQL & PySpark ?

Uploaded by

SQL & PySpark ?

Uploaded by

SQL & PySpark Equivalence: A Comprehensive Guide

CHAR(n) / VARCHAR(n) StringType ()

2. Database & Table_operations

Create Database CREATE DATABASE db_name; spark.sql ("CREATE DATABASE db_name")

Use Database USE db_name; spark.catalog.setCurrentDatabase("db_name")

Drop Database DROP DATABASE db_name; spark.sql ("DROP DATABASE db_name")

Show Databases SHOW DATABASES; spark.sql ("SHOW DATABASES").show()

CREATE TABLE table_name (col1 INT,

Truncate Table TRUNCATE TABLE table_name; spark.sql ("TRUNCATE TABLE table_name")

Describe Table DESCRIBE TABLE table_name; df.printSchema()

Show Tables SHOW TABLES; spark.sql ("SHOW TABLES").show()

ALTER TABLE table_name ADD COLUMN col3

ALTER TABLE table_name RENAME COLUMN df.withColumnRenamed("old_name",

Drop Column ALTER TABLE table_name DROP COLUMN col3; df.drop("col3")

CREATE TABLE table_name (col1

INSERT INTO table_name

CREATE TABLE table_name (col1

5. Views (Temporary & Permanent)

CREATE VIEW view_name AS SELECT * FROM

Drop View DROP VIEW view_name; spark.sql("DROP VIEW IF EXISTS view_name")

CREATE GLOBAL VIEW view_name AS SELECT *

Show Views SHOW VIEWS; spark.sql("SHOW VIEWS").show()

from pyspark.sql.types import StructType, StructField,

Check Schema DESCRIBE TABLE table_name; df.printSchema()

Change Column Data ALTER TABLE table_name ALTER

7. File-Based Table Operations

Save as Parquet N/A (Implicit in Hive) df.write.format("parquet").save("path/to/parquet")

CREATE TABLE table_name USING DELTA

Save as JSON N/A df.write.format("json").save("path/to/json")

Save as ORC N/A df.write.format("orc").save("path/to/orc")

8. Basic SELECT Queries

Select All Columns SELECT * FROM table; df.select("*")

Distinct Values SELECT DISTINCT column FROM table; df.select("column").distinct()

ORDER BY SELECT * FROM table ORDER BY column; df.sort("column")

LIMIT Rows SELECT * FROM table LIMIT n; df.limit(n)

COUNT Rows SELECT COUNT(*) FROM table; df.count()

SUM SELECT SUM(column) FROM table; df.agg({"column": "sum"})

AVG SELECT AVG(column) FROM table; df.agg({"column": "avg"})

MAX SELECT MAX(column) FROM table; df.agg({"column": "max"})

MIN SELECT MIN(column) FROM table; df.agg({"column": "min"})

10. String Functions

String Length SELECT LEN(column) FROM table; df.select(length(col("column")))

Convert to Uppercase SELECT UPPER(column) FROM table; df.select(upper(col("column")))

Convert to Lowercase SELECT LOWER(column) FROM table; df.select(lower(col("column")))

Concatenate Strings SELECT CONCAT(string1, string2) FROM table; df.select(concat(col("string1"), col("string2")))

Trim String SELECT TRIM(column) FROM table; df.select(trim(col("column")))

SELECT SUBSTRING(column, start, length) FROM df.select(substring(col("column"), start,

11. Date & Time Functions

Current Date SELECT CURDATE(); df.select(current_date())

Current Timestamp SELECT NOW(); df.select(current_timestamp())

CAST / CONVERT SELECT CAST(column AS datatype) FROM table; df.select(col("column").cast("datatype"))

12. Conditional Logic

SELECT IF(condition, value1, value2) FROM df.select(when(condition,

SELECT COALESCE(column1, column2, df.select(coalesce(col("column1"), col("column2"),

13. Join, Grouping & Pivoting

SELECT * FROM table1 JOIN table2 ON

SELECT column, agg_function(column)

PIVOT (agg_function(column) FOR df.groupBy("pivot_column").pivot("column").agg({"column":

14. Logical Operators

SELECT * FROM table WHERE column1 = df.filter((col("column1") == value) &

SELECT * FROM table WHERE column IS

SELECT * FROM table WHERE column LIKE

15. Set Operations

SELECT column FROM table1 UNION SELECT column FROM

SELECT column FROM table1 UNION ALL SELECT column FROM

16. Window Functions

SELECT column, RANK() OVER

SELECT column, LAG(column,

17. Common Table Expressions (CTEs)

WITH cte1 AS (SELECT * FROM table1) SELECT * df.createOrReplaceTempView("cte1")df_cte1 =

You might also like