0% found this document useful (0 votes)

202 views9 pages

SQL & pySPARK

The document compares DML and DDL operations in SQL and PySpark. It lists common operations like SELECT, WHERE, JOIN, GROUP BY and their equivalents in PySpark. It also covers datatypes and creating tables with columns and constraints in both SQL and PySpark.

Uploaded by

alpaomega

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

202 views9 pages

SQL & pySPARK

Uploaded by

alpaomega

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

SQL & PYSPARK EQUIVALENT

DML OPERATIONS

Concept SQL PySpark

SELECT column(s) FROM table df.select("column(s)")

SELECT

SELECT * FROM table df.select("*")

SELECT DISTINCT column(s) FROM df.select("column(s)").distinct()

DISTINCT
table

SELECT column(s) FROM table df.filter(condition)\

WHERE
WHERE condition .select("column(s)")

SELECT column(s) FROM table df.sort("column(s)")\

ORDER BY
ORDER BY column(s) .select("column(s)")

LIMIT SELECT column(s) FROM table LIMIT n df.limit(n).select("column(s)")

SELECT COUNT(*) FROM table

COUNT

df.count()

https://www.linkedin.com/in/mrabhijitsahoo/
Concept SQL PySpark

from pyspark.sql.functions import sum;

SUM SELECT SUM(column) FROM table
df.agg(sum("column"))

from pyspark.sql.functions import avg;

AVG SELECT AVG(column) FROM table
df.agg(avg("column"))

SELECT MAX(column) from pyspark.sql.functions import max;

MAX / MIN
FROM table df.agg(max("column"))

String from pyspark.sql.functions import length;

SELECT LEN(string) FROM table
Length df.select(length(col("string")))

Convert to SELECT UPPER(string) from pyspark.sql.functions import upper;

Uppercase FROM table df.select(upper(col("string")))

Convert to SELECT LOWER(string) from pyspark.sql.functions import lower;

Lowercase FROM table df.select(lower(col("string")))

https://www.linkedin.com/in/mrabhijitsahoo/
Concept SQL PySpark

from pyspark.sql.functions import concat;

Concatenate SELECT CONCAT(string1,
df.select(concat(col("string1"),
Strings string2) FROM table
col("string2")))

SELECT TRIM(string) from pyspark.sql.functions import trim;

Trim String
FROM table df.select(trim(col("string")))

SELECT SUBSTRING(string, from pyspark.sql.functions import substring;

Substring
start, length) FROM table df.select(substring(col("string"),start, length))

CURDATE,
from pyspark.sql.functions import current_date;
NOW, SELECT CURDATE() FROM table
df.select(current_date())
CURTIME

CAST, SELECT CAST(column AS

df.select(col("column").cast("datatype"))
CONVERT datatype) FROM table

from pyspark.sql.functions import when,

SELECT IF(condition, value1, otherwise;
IF
value2) FROM table df.select(when(condition,value1)\
.otherwise(value2))

https://www.linkedin.com/in/mrabhijitsahoo/
Concept SQL PySpark

SELECT COALESCE(column1, from pyspark.sql.functions import coalesce;

COALESCE column2, column3) FROM df.select(coalesce("column1","column2",
table "column3"))

JOIN table1 ON table1.column

JOIN df1.join(df2, "column")
= table2.column

GROUP BY GROUP BY column(s) df.groupBy("column(s)")

PIVOT (agg_function(column) df.groupBy("pivot_column")\

PIVOT
FOR pivot_column IN (values)) .pivot("column").agg(agg_function)

SELECT column FROM table

Logical df.filter((col("column1") == value)
WHERE column1 = value
Operators & (col("column2") > value))
AND column2 > value

IS NULL, IS SELECT column FROM table df.filter(col("column").isNull())\

NOT NULL WHERE column IS NULL .select("column")

SELECT column FROM table df.filter(col("column")\

IN WHERE column .isin(value1,value2,value3))\
IN (value1,value2, value3) .select("column")
Concept SQL PySpark

SELECT column FROM table

LIKE df.filter(col("column").like("value%"))
WHERE column LIKE 'value%'

SELECT column FROM table df.filter((col("column") >= value1)

BETWEEN WHERE column & (col("column") <= value2))\
BETWEEN value1 AND value2 .select("column")

SELECT column FROM table1

UNION, df1.union(df2).select("column") or
UNION SELECT column FROM
UNION ALL df1.unionAll(df2).select("column")
table2

from pyspark.sql import Window;

SELECT column, RANK() OVER from pyspark.sql.functions import rank;
RANK,
(ORDER BY column) as df.select("column",
DENSERANK,
rank FROM table rank().over(Window.orderBy("column"))\
ROWNUMBER
.alias("rank"))

df.createOrReplaceTempView("cte1");
WITH cte1 AS (SELECT * FROM
df_cte1 = spark.sql("SELECT * FROM

table1),
cte1 WHERE condition");
CTE SELECT * FROM cte1 WHERE
condition df_cte1.show() or
df.filter(condition1).filter(condition2)

https://www.linkedin.com/in/mrabhijitsahoo/
DDL operations

Concept SQL PySpark

In PySpark, the data types are similar,

INT: for integer values
but are represented differently.
BIGINT: for large integer values
FLOAT: for floating point values
DOUBLE: for double precision IntegerType: for integer values
floating point values LongType: for long integer values
CHAR: for fixed-length character FloatType: for floating point values
Datatypes
strings DoubleType: for double precision floating
VARCHAR: for variable-length point values
character strings
StringType: for character strings
DATE: for date values
TimestampType: for timestamp values
TIMESTAMP: for timestamp values
DateType: for date values

CREATE TABLE table_name

Create df.write.format("parquet")\
(column_name data_type
Table .saveAsTable("table_name")
constraint);

https://www.linkedin.com/in/mrabhijitsahoo/
Concept SQL PySpark

from pyspark.sql.types import StructType,

StructField, IntegerType, StringType, DecimalType

CREATE TABLE table_name(
Create schema = StructType([
   column_name data_type
    StructField("id", IntegerType(), True),
Table with [constraints],
   StructField("name", StringType(), False),
Columns   column_name data_type
   StructField("age", IntegerType(), True),
definition [constraints],
   StructField("salary", DecimalType(10,2), True)])
    ...);
df = spark.createDataFrame([], schema)

CREATE TABLE table_name(

column_name data_type In PySpark or HiveQL, primary key constraints
Create PRIMARY KEY, are not enforced directly. However, you can use
...);
Table with the dropDuplicates() method to remove
Primary duplicate rows based on one or more columns.
If table already exists:
Key ALTER TABLE table_name
ADD PRIMARY KEY df = df.dropDuplicates(["id"])
(column_name);

not natively supported by the DataFrame API,

but there are several ways to achieve the same
Create CREATE TABLE table_name( functionality.
Table with id INT AUTO_INCREMENT,
Auto name VARCHAR(255), from pyspark.sql.functions import
Increment PRIMARY KEY (id)); monotonically_increasing_id
constraint df = df.withColumn("id",
monotonically_increasing_id()+start_value)

https://www.linkedin.com/in/mrabhijitsahoo/
Concept SQL PySpark

Adding a from pyspark.sql.functions import lit

ALTER TABLE table_name
column df=df.withColumn("column_name",
ADD column_name datatype;
lit(None).cast("datatype"))

Modifying ALTER TABLE table_name df=df.withColumn("column_name",

a column MODIFY column_name datatype; df["column_name"].cast("datatype"))

Dropping a
ALTER TABLE table_name
column df = df.drop("column_name")
DROP COLUMN column_name;

ALTER TABLE table_name

RENAME COLUMN
old_column_name TO
new_column_name;
Rename a
df =df.withColumnRenamed("existing_column",
column In mysql,
"new_column")
ALTER TABLE employees
CHANGE COLUMN first_name
first_name_new
VARCHAR(255);

https://www.linkedin.com/in/mrabhijitsahoo/

https://www.linkedin.com/in/mrabhijitsahoo
/

pl-300 814783f315df
100% (2)
pl-300 814783f315df
347 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
PySpark SQL Cheat Sheet Python
No ratings yet
PySpark SQL Cheat Sheet Python
1 page
Using Built-In Functions: Module Overview
100% (1)
Using Built-In Functions: Module Overview
24 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
SQL & PySpark ?
No ratings yet
SQL & PySpark ?
9 pages
Data Engineering 101 - Day 24 - SQL Vs PySpark
No ratings yet
Data Engineering 101 - Day 24 - SQL Vs PySpark
82 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
PySpark SQL Functions-10-03
No ratings yet
PySpark SQL Functions-10-03
357 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
07 Structured Data Processing (2)
No ratings yet
07 Structured Data Processing (2)
91 pages
Databricks Vs SQL Cheat Sheet
No ratings yet
Databricks Vs SQL Cheat Sheet
11 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Quewtion SQL - Pyspark
No ratings yet
Quewtion SQL - Pyspark
4 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
Journal
No ratings yet
Journal
47 pages
SparkDataFrames_250719_202947
No ratings yet
SparkDataFrames_250719_202947
11 pages
Data Frames
No ratings yet
Data Frames
12 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python
100% (2)
PySpark SQL Cheat Sheet Python
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
_Spark SQL Optimization — Real Case Studies
No ratings yet
_Spark SQL Optimization — Real Case Studies
18 pages
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
SQL Final Document
No ratings yet
SQL Final Document
37 pages
Top 100 Pyspark Functions For Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions For Data Engineers 1738131847
30 pages
V2 SQL Final Document
No ratings yet
V2 SQL Final Document
35 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
DGDGSZ
No ratings yet
DGDGSZ
15 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
HTML Code
No ratings yet
HTML Code
3 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Python Vocabularies
100% (1)
Python Vocabularies
101 pages
Pyspark and SQL
No ratings yet
Pyspark and SQL
57 pages
Warehouse and SQL QUESTIONS
No ratings yet
Warehouse and SQL QUESTIONS
14 pages
TCS Rejected Many Due To Weak PySpark Logic!?
No ratings yet
TCS Rejected Many Due To Weak PySpark Logic!?
7 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
jQuery 1.4 Reference Guide
From Everand
jQuery 1.4 Reference Guide
Jonathan Chaffer
3.5/5 (2)
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Lisp Programming Language
From Everand
Lisp Programming Language
Faiz ul haque Zeya
No ratings yet
OBI Query For Report Names and Tables
No ratings yet
OBI Query For Report Names and Tables
7 pages
SQL Class Notes
No ratings yet
SQL Class Notes
10 pages
Introducing Oracle8: New Features of Oracle8
No ratings yet
Introducing Oracle8: New Features of Oracle8
22 pages
Distinction Task Submission
No ratings yet
Distinction Task Submission
16 pages
Tracking DDL in No Archive Log Mode
No ratings yet
Tracking DDL in No Archive Log Mode
2 pages
EBS DB 11.1.0.7 Upgrade To 12c 12.1.0.2
No ratings yet
EBS DB 11.1.0.7 Upgrade To 12c 12.1.0.2
20 pages
Day-7 SQL COMMANDS
No ratings yet
Day-7 SQL COMMANDS
3 pages
Ado Data Grid
No ratings yet
Ado Data Grid
8 pages
SQL - Select
No ratings yet
SQL - Select
28 pages
First Normal Form (1NF)
No ratings yet
First Normal Form (1NF)
8 pages
VR Ajp 18 To 20
No ratings yet
VR Ajp 18 To 20
8 pages
How To Create AWR Report Manually
No ratings yet
How To Create AWR Report Manually
3 pages
What Is DBMS
No ratings yet
What Is DBMS
7 pages
Oracle SQL/PLSQL Questions & Answers:: What Are Cursors and How Many Types of Cursors?
No ratings yet
Oracle SQL/PLSQL Questions & Answers:: What Are Cursors and How Many Types of Cursors?
2 pages
MongoDB Dumps
No ratings yet
MongoDB Dumps
27 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
1 page
Jadwal Uas Ganjil 2022.2023-5
No ratings yet
Jadwal Uas Ganjil 2022.2023-5
95 pages
May 22 Wings1 DCA PL - SQL MCQs
100% (3)
May 22 Wings1 DCA PL - SQL MCQs
20 pages
Week 3: Assignment: Assignment Submitted On 2025-02-12, 12:17 IST
No ratings yet
Week 3: Assignment: Assignment Submitted On 2025-02-12, 12:17 IST
5 pages
DBMS Practical 7
No ratings yet
DBMS Practical 7
8 pages
Technical Document Enterprise Integration Manager
No ratings yet
Technical Document Enterprise Integration Manager
38 pages
Lecture 1 Database Management System
No ratings yet
Lecture 1 Database Management System
24 pages
DB2 UDB 703 - Test Sample
No ratings yet
DB2 UDB 703 - Test Sample
7 pages
Relational Data Model and ER/EER-to-Relational Mapping
100% (1)
Relational Data Model and ER/EER-to-Relational Mapping
85 pages
It6202 Lab - 004
No ratings yet
It6202 Lab - 004
4 pages
Unit 1: Data Base Management System
No ratings yet
Unit 1: Data Base Management System
22 pages
SQL Quick Reference From W3Schools
No ratings yet
SQL Quick Reference From W3Schools
3 pages
Xii SQL Tomorrow Clasas
No ratings yet
Xii SQL Tomorrow Clasas
1 page

SQL & pySPARK

Uploaded by

SQL & pySPARK

Uploaded by

SQL & PYSPARK EQUIVALENT

Concept SQL PySpark

SELECT column(s) FROM table df.select("column(s)")

SELECT * FROM table df.select("*")

SELECT DISTINCT column(s) FROM df.select("column(s)").distinct()

SELECT column(s) FROM table df.filter(condition)\

SELECT column(s) FROM table df.sort("column(s)")\

LIMIT SELECT column(s) FROM table LIMIT n df.limit(n).select("column(s)")

SELECT COUNT(*) FROM table

from pyspark.sql.functions import sum;

from pyspark.sql.functions import avg;

SELECT MAX(column) from pyspark.sql.functions import max;

String from pyspark.sql.functions import length;

Convert to SELECT UPPER(string) from pyspark.sql.functions import upper;

Convert to SELECT LOWER(string) from pyspark.sql.functions import lower;

from pyspark.sql.functions import concat;

SELECT TRIM(string) from pyspark.sql.functions import trim;

SELECT SUBSTRING(string, from pyspark.sql.functions import substring;

CAST, SELECT CAST(column AS

from pyspark.sql.functions import when,

SELECT COALESCE(column1, from pyspark.sql.functions import coalesce;

JOIN table1 ON table1.column

GROUP BY GROUP BY column(s) df.groupBy("column(s)")

PIVOT (agg_function(column) df.groupBy("pivot_column")\

SELECT column FROM table

IS NULL, IS SELECT column FROM table df.filter(col("column").isNull())\

SELECT column FROM table df.filter(col("column")\

SELECT column FROM table

SELECT column FROM table df.filter((col("column") >= value1)

SELECT column FROM table1

from pyspark.sql import Window;

Concept SQL PySpark

In PySpark, the data types are similar,

CREATE TABLE table_name

from pyspark.sql.types import StructType,

CREATE TABLE table_name(

not natively supported by the DataFrame API,

Adding a from pyspark.sql.functions import lit

Modifying ALTER TABLE table_name df=df.withColumn("column_name",

ALTER TABLE table_name

You might also like