0% found this document useful (0 votes)

43 views6 pages

SQL_ &_PYSPAK

This document provides a comprehensive guide comparing SQL and PySpark, highlighting their equivalence in data processing tasks. It includes side-by-side comparisons of SQL operations and their PySpark implementations across various categories such as data types, database operations, table alterations, and more. The guide aims to assist data professionals in transitioning between SQL and PySpark in hybrid environments.

Uploaded by

Saurabh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

43 views6 pages

SQL_ &_PYSPAK

Uploaded by

Saurabh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

SQL & PySpark Equivalence: A Comprehensive Guide

Structured Query Language (SQL) and PySpark are both powerful tools for handling large-scale
data processing. SQL is widely used for querying and manipulating structured data in relational
databases, while PySpark, built on Apache Spark, is designed for distributed computing and big
data analytics.
Understanding the equivalence between SQL and PySpark is crucial for data engineers and analysts
working in hybrid environments where both technologies are used. SQL provides a declarative way
to interact with data, whereas PySpark leverages Resilient Distributed Datasets (RDDs) and
DataFrames to perform transformations and actions efficiently across distributed systems.
This guide presents a side-by-side comparison of key SQL operations and their equivalent PySpark
implementations. It covers data selection, filtering, aggregations, joins, window functions,
performance optimizations, and more, helping professionals seamlessly transition between the
two technologies.

1.Data Types
SQL Data Type PySpark Equivalent
INT IntegerType()
BIGINT LongType()
FLOAT FloatType()
DOUBLE DoubleType()
CHAR(n) / VARCHAR(n) StringType()
DATE DateType()
TIMESTAMP TimestampType()

2.Database & Table Operations

Concept SQL Query PySpark Equivalent
Create CREATE DATABASE
spark.sql("CREATE DATABASE db_name")
Database db_name;
Use spark.catalog.setCurrentDatabase("db_n
USE db_name;
Database ame")
Drop DROP DATABASE
spark.sql("DROP DATABASE db_name")
Database db_name;
Show SHOW DATABASES; spark.sql("SHOW DATABASES").show()
Databases
CREATE TABLE
Create df.write.format("parquet").saveAsTable
table_name (col1
Table ("table_name")
INT, col2 STRING);
DROP TABLE spark.sql("DROP TABLE IF EXISTS
Drop Table table_name; table_name")
Truncate TRUNCATE TABLE
spark.sql("TRUNCATE TABLE table_name")
Table table_name;
Concept SQL Query PySpark Equivalent
Describe DESCRIBE TABLE
df.printSchema()
Table table_name;
Show SHOW TABLES; spark.sql("SHOW TABLES").show()
Tables

3. Table Alterations
Concept SQL Query PySpark Equivalent
Add ALTER TABLE table_name df.withColumn("col3",
Column ADD COLUMN col3 STRING; lit(None).cast("string"))
ALTER TABLE table_name
Rename df.withColumnRenamed("old_name"
RENAME COLUMN old_name TO
Column , "new_name")
new_name;
Drop ALTER TABLE table_name
df.drop("col3")
Column DROP COLUMN col3;

4. Partitioning & Bucketing

Concept SQL Query PySpark Equivalent
CREATE TABLE table_name
Create df.write.partitionBy("col3").fo
(col1 INT, col2 STRING)
Partitioned rmat("parquet").saveAsTable("ta
PARTITIONED BY (col3
Table ble_name")
STRING);
INSERT INTO table_name
Insert into PARTITION df.write.mode("append").partiti
Partitioned (col3='value') SELECT onBy("col3").saveAsTable("table
Table col1, col2 FROM _name")
source_table;
CREATE TABLE table_name
Create df.write.bucketBy(10,
(col1 INT, col2 STRING)
Bucketed "col1").saveAsTable("table_name
CLUSTERED BY (col1)
Table ")
INTO 10 BUCKETS;

5. Views (Temporary & Permanent)

Concept SQL Query PySpark Equivalent
CREATE VIEW view_name
df.createOrReplaceTempView("view
Create View AS SELECT * FROM _name")
table_name;
spark.sql("DROP VIEW IF EXISTS
Drop View DROP VIEW view_name;
view_name")
CREATE GLOBAL VIEW
Create df.createGlobalTempView("view_na
view_name AS SELECT *
Global View FROM table_name; me")

Show Views SHOW VIEWS; spark.sql("SHOW VIEWS").show()

6. Schema Management
Concept SQL Query PySpark Equivalent
from pyspark.sql.types import
StructType, StructField, IntegerType,
StringType, DateType
CREATE TABLE
Define schema =
table_name (col1
Schema StructType([StructField("col1",
INT, col2 STRING,
Manually IntegerType(), True),
col3 DATE);
StructField("col2", StringType(),
True), StructField("col3", DateType(),
True)])
Check DESCRIBE TABLE
df.printSchema()
Schema table_name;
ALTER TABLE
Change table_name ALTER df.withColumn("col1",
Column COLUMN col1 TYPE col("col1").cast("bigint"))
Data Type BIGINT;

7. File-Based Table Operations

Concept SQL Query PySpark Equivalent
Save as df.write.format("parquet").save("
N/A (Implicit in Hive)
Parquet path/to/parquet")
CREATE TABLE table_name
Save as df.write.format("delta").save("pa
USING DELTA LOCATION
Delta Table 'path'; th/to/delta")
df.write.format("csv").option("he
Save as CSV N/A ader", True).save("path/to/csv")
Save as df.write.format("json").save("pat
N/A
JSON h/to/json")
Save as df.write.format("orc").save("path
N/A
ORC /to/orc")

8.Basic SELECT Queries

Concept SQL Query PySpark Equivalent
Select specific SELECT column1, column2 FROM df.select("column1",
columns table; "column2")
Select all SELECT * FROM table; df.select("*")
columns
SELECT DISTINCT column FROM df.select("column").disti
Distinct values table; nct()
WHERE SELECT * FROM table WHERE df.filter(col("column")
condition column = 'value'; == 'value')
SELECT * FROM table ORDER BY
ORDER BY df.sort("column")
column;
Concept SQL Query PySpark Equivalent
LIMIT rows SELECT * FROM table LIMIT n; df.limit(n)
COUNT rows SELECT COUNT(*) FROM table; df.count()

9. Aggregate Functions
Concept SQL Query PySpark Equivalent
SUM SELECT SUM(column) FROM table; df.agg(sum("column"))
AVG SELECT AVG(column) FROM table; df.agg(avg("column"))
MAX SELECT MAX(column) FROM table; df.agg(max("column"))
MIN SELECT MIN(column) FROM table; df.agg(min("column"))

10. String Functions

Concept SQL Query PySpark Equivalent
SELECT LEN(column) FROM df.select(length(col("colu
String Length table; mn")))
Convert to SELECT UPPER(column) FROM df.select(upper(col("colum
Uppercase table; n")))
Convert to SELECT LOWER(column) FROM df.select(lower(col("colum
Lowercase table; n")))
Concatenate SELECT CONCAT(string1, df.select(concat(col("stri
Strings string2) FROM table; ng1"), col("string2")))
SELECT TRIM(column) FROM df.select(trim(col("column
Trim String table; ")))
SELECT SUBSTRING(column, df.select(substring(col("c
Substring start, length) FROM table; olumn"), start, length))

11. Date & Time Functions

Concept SQL Query PySpark Equivalent
Current Date SELECT CURDATE(); df.select(current_date())
Current df.select(current_timestam
SELECT NOW();
Timestamp p())
CAST / SELECT CAST(column AS df.select(col("column").ca
CONVERT datatype) FROM table; st("datatype"))

12. Conditional Logic

Concept SQL Query PySpark Equivalent
SELECT IF(condition,
IF (Conditional value1, value2) FROM df.select(when(condition,
Logic) value1).otherwise(value2))
table;
SELECT df.select(coalesce(col("column
COALESCE COALESCE(column1, 1"), col("column2"),
Concept SQL Query PySpark Equivalent
column2, column3) col("column3")))
FROM table;

13. Join, Grouping & Pivoting

Concept SQL Query PySpark Equivalent
SELECT * FROM table1 JOIN
JOIN table2 ON table1.column = df1.join(df2, "column")
table2.column;
SELECT column,
GROUP df.groupBy("column").agg(agg
agg_function(column) FROM
BY _function("column"))
table GROUP BY column;
PIVOT (agg_function(column) df.groupBy("pivot_column").p
PIVOT FOR pivot_column IN ivot("column").agg(agg_funct
(values)); ion)

14. Logical Operators

Concept SQL Query PySpark Equivalent
SELECT * FROM table df.filter((col("column1") ==
AND / OR WHERE column1 = value value) & (col("column2") >
AND column2 > value; value))
IS NULL / IS SELECT * FROM table df.filter(col("column").isNul
NOT NULL WHERE column IS NULL; l())
SELECT * FROM table
df.filter(col("column").like(
LIKE WHERE column LIKE
"value%"))
'value%';
SELECT * FROM table df.filter((col("column") >=
BETWEEN WHERE column BETWEEN value1) & (col("column") <=
value1 AND value2; value2))

15. Set Operations

Concept SQL Query PySpark Equivalent
SELECT column FROM table1 UNION df1.union(df2).select(
UNION SELECT column FROM table2; "column")
UNION SELECT column FROM table1 UNION ALL df1.unionAll(df2).sele
ALL SELECT column FROM table2; ct("column")

16. Window Functions

Concept SQL Query PySpark Equivalent
RANK / SELECT column, df.select("column",
DENSE_RANK / RANK() OVER (ORDER rank().over(Window.orderBy("co
ROW_NUMBER BY column) FROM lumn")).alias("rank"))
Concept SQL Query PySpark Equivalent
table;

17. Common Table Expressions (CTEs)

Concept SQL Query PySpark Equivalent
WITH cte1 AS (SELECT df.createOrReplaceTempView("cte1"
CTE (Common * FROM table1) )
Table SELECT * FROM cte1 df_cte1 = spark.sql("SELECT *
Expressions) WHERE condition; FROM cte1 WHERE condition")

18. Window Functions

Window functions allow calculations across a set of table rows related to the current row.

Concept SQL Query PySpark Equivalent

SELECT column, RANK()
df.withColumn("rank",
OVER (PARTITION BY col2
RANK() rank().over(Window.partitionBy("c
ORDER BY column) FROM
ol2").orderBy("column")))
table;
SELECT column,
DENSE_RANK() OVER df.withColumn("dense_rank",
DENSE_RA (PARTITION BY col2 dense_rank().over(Window.partitio
NK() ORDER BY column) FROM nBy("col2").orderBy("column")))
table;
SELECT column,
ROW_NUMBER() OVER df.withColumn("row_number",
ROW_NU (PARTITION BY col2 row_number().over(Window.partitio
MBER() ORDER BY column) FROM nBy("col2").orderBy("column")))
table;
SELECT column,
df.withColumn("lead_value",
LEAD(column, 1) OVER
lead("column",
LEAD() (PARTITION BY col2
1).over(Window.partitionBy("col2"
ORDER BY column) FROM
).orderBy("column")))
table;
SELECT column,
df.withColumn("lag_value",
LAG(column, 1) OVER
lag("column",
LAG() (PARTITION BY col2
1).over(Window.partitionBy("col2"
ORDER BY column) FROM
).orderBy("column")))
table;

Snowflake Scenario Based Interview Questions
100% (2)
Snowflake Scenario Based Interview Questions
20 pages
Advanced Data Engineering With Databricks
No ratings yet
Advanced Data Engineering With Databricks
154 pages
DatabricksDataEngineer Associate2024
75% (4)
DatabricksDataEngineer Associate2024
157 pages
Azure Databricks
67% (6)
Azure Databricks
69 pages
Microsoft Fabric - James Serra - Public
No ratings yet
Microsoft Fabric - James Serra - Public
54 pages
PYSPARK Interview Questions
100% (3)
PYSPARK Interview Questions
126 pages
Azure Data Factory
100% (2)
Azure Data Factory
10 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
Azure Databricks Interview
100% (2)
Azure Databricks Interview
35 pages
Azure Data Factory
77% (13)
Azure Data Factory
52 pages
PySpark Data Frame Questions PDF
100% (1)
PySpark Data Frame Questions PDF
57 pages
Data Engineering With Databricks
100% (2)
Data Engineering With Databricks
63 pages
Data Engineering With Databricks Da
100% (2)
Data Engineering With Databricks Da
232 pages
Azure Databricks Documentation
No ratings yet
Azure Databricks Documentation
7,197 pages
Azure Databricks Course Slide Deck
75% (4)
Azure Databricks Course Slide Deck
169 pages
Azure Data Factory
100% (4)
Azure Data Factory
16 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
PracticeExam DataEngineerAssociate
No ratings yet
PracticeExam DataEngineerAssociate
23 pages
SQL Interview Questions & Answers
75% (4)
SQL Interview Questions & Answers
63 pages
PySpark SQL Cheat Sheet Python
No ratings yet
PySpark SQL Cheat Sheet Python
1 page
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
100% (7)
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
446 pages
DP-203T00 Microsoft Azure Data Engineering-03
No ratings yet
DP-203T00 Microsoft Azure Data Engineering-03
21 pages
Azure Fundaments - MyNotes
100% (5)
Azure Fundaments - MyNotes
32 pages
AZ-900 Azure Fundamentals
100% (6)
AZ-900 Azure Fundamentals
53 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
SQL vs Pyspark-1
No ratings yet
SQL vs Pyspark-1
9 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Databricks vs SQL Cheat Sheet
No ratings yet
Databricks vs SQL Cheat Sheet
11 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Data Frames
No ratings yet
Data Frames
12 pages
PySpark_SQL_Pandas_CheatSheet
No ratings yet
PySpark_SQL_Pandas_CheatSheet
2 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
Top 100 Pyspark Functions for Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions for Data Engineers 1738131847
30 pages
10 Spark1
No ratings yet
10 Spark1
31 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
T09 Sparksql
No ratings yet
T09 Sparksql
30 pages
Caching in Spark
No ratings yet
Caching in Spark
51 pages
Py Spark
No ratings yet
Py Spark
7 pages
IBM_PySpark_CheatSheet
No ratings yet
IBM_PySpark_CheatSheet
2 pages
50_PySpark_interview_questions__1732556477
No ratings yet
50_PySpark_interview_questions__1732556477
7 pages
Q1. Difference between cache and pe
No ratings yet
Q1. Difference between cache and pe
13 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
Data Engineering 101 - Day 24 - SQL Vs PySpark
No ratings yet
Data Engineering 101 - Day 24 - SQL Vs PySpark
82 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Page 01
No ratings yet
Page 01
2 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
Databricks
No ratings yet
Databricks
15 pages
journal
No ratings yet
journal
47 pages
Questions_For_Preparation (1)
No ratings yet
Questions_For_Preparation (1)
9 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
DBMS Lab Manual
From Everand
DBMS Lab Manual
Jitendra Patel
1.5/5 (3)
Java Programming Tutorial With Screen Shots & Many Code Example
From Everand
Java Programming Tutorial With Screen Shots & Many Code Example
Desmond Ohwofosirai
No ratings yet
NgRx SignalStore: An effortless solution for state management
From Everand
NgRx SignalStore: An effortless solution for state management
Abdelfattah Ragab
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Azure Data Engineer
100% (4)
Azure Data Engineer
54 pages
Architecting A Data Lake
100% (8)
Architecting A Data Lake
60 pages
Azure DATA Fatcory
No ratings yet
Azure DATA Fatcory
2,982 pages
Azure Databricks Course Slide Deck V4
100% (4)
Azure Databricks Course Slide Deck V4
308 pages
Snowflake Training Slide SANMs
67% (6)
Snowflake Training Slide SANMs
218 pages
Azure Data Factory
100% (2)
Azure Data Factory
14 pages
Azure Data Factory Interview Questions
100% (1)
Azure Data Factory Interview Questions
33 pages
Azure DP 203
100% (1)
Azure DP 203
57 pages
Azure Databricks Overview
100% (1)
Azure Databricks Overview
4 pages
Notes of Azure Data Bricks
No ratings yet
Notes of Azure Data Bricks
16 pages
DP_1_2_Practice
No ratings yet
DP_1_2_Practice
4 pages
PL SQL ASSIGNMENT - 4 Solution
No ratings yet
PL SQL ASSIGNMENT - 4 Solution
31 pages
sql_28_day_plan
No ratings yet
sql_28_day_plan
4 pages
ASSIGNMENT RedBus
No ratings yet
ASSIGNMENT RedBus
4 pages
00_1Z0-082_校正_144
No ratings yet
00_1Z0-082_校正_144
54 pages
-- PhpMyAdmin SQL Dump
No ratings yet
-- PhpMyAdmin SQL Dump
6 pages
DBMS last minute revision notes
No ratings yet
DBMS last minute revision notes
8 pages
Mastering Oracle SQL 2nd Edition Mishra pdf download
No ratings yet
Mastering Oracle SQL 2nd Edition Mishra pdf download
51 pages
CLR130 Clarity SQL Fundamentals
No ratings yet
CLR130 Clarity SQL Fundamentals
232 pages
Revision Worksheet 1
No ratings yet
Revision Worksheet 1
2 pages
How to Migrate From Oracle to PostgreSQL
No ratings yet
How to Migrate From Oracle to PostgreSQL
13 pages
DBMS Lab- 7 PLSQL - 1
No ratings yet
DBMS Lab- 7 PLSQL - 1
15 pages
Test2 chap5678 HonsDBMS-11feb25
No ratings yet
Test2 chap5678 HonsDBMS-11feb25
1 page
DBMS EXP 6
No ratings yet
DBMS EXP 6
6 pages
CREATE A TABLE EMPLOYEE WITH FOLLOWING SCHEMA
No ratings yet
CREATE A TABLE EMPLOYEE WITH FOLLOWING SCHEMA
7 pages
Unit 2_DBMS Notes for Students
No ratings yet
Unit 2_DBMS Notes for Students
71 pages
Dbms Manual
No ratings yet
Dbms Manual
36 pages
app
No ratings yet
app
5 pages
Fall 2022_CS405_2
No ratings yet
Fall 2022_CS405_2
2 pages
Summative Assessment Answers – Databases and SQL – KS4
No ratings yet
Summative Assessment Answers – Databases and SQL – KS4
4 pages
Sqlite tutorial
No ratings yet
Sqlite tutorial
5 pages
Class 11 Ip Chapter 8 2024-2025
No ratings yet
Class 11 Ip Chapter 8 2024-2025
30 pages
Oracle_SQL_PL_SQL_Concepts
No ratings yet
Oracle_SQL_PL_SQL_Concepts
4 pages
D427 Practice Test 1 with ANSWER KEY 3
No ratings yet
D427 Practice Test 1 with ANSWER KEY 3
23 pages
excel-slicer-examples
No ratings yet
excel-slicer-examples
19 pages
SQL
No ratings yet
SQL
4 pages
1z0-071_3
No ratings yet
1z0-071_3
23 pages
PD-SUM
No ratings yet
PD-SUM
41 pages
FACEBOOK COOKIES
No ratings yet
FACEBOOK COOKIES
7 pages
MSC_Description
No ratings yet
MSC_Description
4 pages

SQL_ &_PYSPAK

Uploaded by

SQL_ &_PYSPAK

Uploaded by

SQL & PySpark Equivalence: A Comprehensive Guide

2.Database & Table Operations

4. Partitioning & Bucketing

5. Views (Temporary & Permanent)

Show Views SHOW VIEWS; spark.sql("SHOW VIEWS").show()

7. File-Based Table Operations

8.Basic SELECT Queries

10. String Functions

11. Date & Time Functions

12. Conditional Logic

13. Join, Grouping & Pivoting

14. Logical Operators

15. Set Operations

16. Window Functions

17. Common Table Expressions (CTEs)

18. Window Functions

Concept SQL Query PySpark Equivalent

You might also like