0% found this document useful (0 votes)

10 views6 pages

Pyspark SQL and DataFrames

This document is a comprehensive cheatsheet for PySpark SQL and DataFrames, covering various methods to create DataFrames from different data sources, perform operations like filtering, sorting, and aggregating data, and execute joins and set operations. It also includes detailed sections on window functions, array and map functions, date and timestamp functions, and miscellaneous functions. Each section provides concise code snippets for practical use in data processing tasks.

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views6 pages

Pyspark SQL and DataFrames

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

# [ PySpark SQL and DataFrames ] [ cheatsheet ]

1. Creating DataFrames

● Create DataFrame from RDD: df = spark.createDataFrame(rdd)

● Create DataFrame from list: df = spark.createDataFrame([(1, "John"), (2,
"Jane"), (3, "Bob")])
● Create DataFrame from CSV: df = spark.read.csv("path/to/file.csv",
header=True, inferSchema=True)
● Create DataFrame from JSON: df = spark.read.json("path/to/file.json")
● Create DataFrame from Parquet: df =
spark.read.parquet("path/to/file.parquet")
● Create DataFrame from Avro: df =
spark.read.format("avro").load("path/to/file.avro")
● Create DataFrame from ORC: df = spark.read.orc("path/to/file.orc")
● Create DataFrame from JDBC: df = spark.read.format("jdbc").option("url",
"jdbc:postgresql:dbserver").option("dbtable",
"schema.tablename").option("user", "username").option("password",
"password").load()
● Create empty DataFrame with schema: schema =
StructType([StructField("id", IntegerType()), StructField("name",
StringType())]); df = spark.createDataFrame([], schema)

2. DataFrame Operations

● Show DataFrame: df.show()

● Show DataFrame with truncated columns: df.show(truncate=False)
● Show DataFrame with limited rows: df.show(n=10)
● Print DataFrame schema: df.printSchema()
● Select columns: df.select("column1", "column2")
● Select columns with aliases: df.select(col("column1").alias("col1"),
col("column2").alias("col2"))
● Filter rows: df.filter(col("age") > 18)
● Filter rows with multiple conditions: df.filter((col("age") > 18) &
(col("gender") == "M"))
● Filter rows with SQL expression: df.filter("age > 18 AND gender = 'M'")
● Filter rows with NULL values: df.filter(col("column").isNull())
● Filter rows with NOT NULL values: df.filter(col("column").isNotNull())
● Filter rows with IN clause: df.filter(col("column").isin(1, 2, 3))

By: Waleed Mousa

● Filter rows with LIKE clause: df.filter(col("name").like("J%"))
● Filter rows with RLIKE clause: df.filter(col("name").rlike("J.*"))
● Filter rows with BETWEEN clause: df.filter(col("age").between(18, 30))
● Distinct values: df.distinct()
● Distinct values of specific columns: df.dropDuplicates(["column1",
"column2"])
● Sort by column: df.sort("column")
● Sort by multiple columns: df.sort("column1", "column2")
● Sort by column in descending order: df.sort(col("column").desc())
● Group by column: df.groupBy("column")
● Group by multiple columns: df.groupBy("column1", "column2")
● Aggregations (count, sum, avg, min, max):
df.groupBy("column").agg(count("*").alias("count"),
sum("value").alias("sum"), avg("value").alias("avg"),
min("value").alias("min"), max("value").alias("max"))
● Pivot table: df.groupBy("column1").pivot("column2").agg(count("*"))
● Unpivot table: df.select("column1", expr("stack(3, 'column2', column2,
'column3', column3, 'column4', column4) as (key, value)")).where("value
is not null")
● Window functions (rank, dense_rank, percent_rank, row_number): from
pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("rank",
rank().over(window))
● Lag and lead functions: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("lag",
lag("value", 1).over(window)).withColumn("lead", lead("value",
1).over(window))
● Cumulative sum: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_sum", sum("value").over(window))
● Cumulative max: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_max", max("value").over(window))

3. DataFrame Joins

● Inner join: df1.join(df2, on="key", how="inner")

● Left outer join: df1.join(df2, on="key", how="left")
● Right outer join: df1.join(df2, on="key", how="right")
● Full outer join: df1.join(df2, on="key", how="full")
● Left semi join: df1.join(df2, on="key", how="leftsemi")

By: Waleed Mousa

● Left anti join: df1.join(df2, on="key", how="leftanti")
● Cross join: df1.crossJoin(df2)
● Self join: df.alias("t1").join(df.alias("t2"), on="key")
● Join with complex condition: df1.join(df2, (df1.column1 == df2.column2) &
(df1.column3 > df2.column4))
● Join with multiple keys: df1.join(df2, on=["key1", "key2"], how="inner")

4. DataFrame Set Operations

● Union: df1.union(df2)
● Union by name: df1.unionByName(df2)
● Intersect: df1.intersect(df2)
● Except: df1.except(df2)
● Subtract: df1.subtract(df2)

5. DataFrame Sorting

● Sort by column: df.sort("column")

● Sort by multiple columns: df.sort("column1", "column2")
● Sort by column in ascending order: df.sort(col("column").asc())
● Sort by column in descending order: df.sort(col("column").desc())

6. DataFrame Grouping and Aggregation

● Group by column: df.groupBy("column")

● Group by multiple columns: df.groupBy("column1", "column2")
● Aggregations (count, sum, avg, min, max):
df.groupBy("column").agg(count("*").alias("count"),
sum("value").alias("sum"), avg("value").alias("avg"),
min("value").alias("min"), max("value").alias("max"))
● Aggregation with filter: df.groupBy("column").agg(sum(when(col("value") >
100, col("value"))).alias("sum_filtered"))
● Aggregation with multiple filters:
df.groupBy("column").agg(sum(when(col("value") > 100,
col("value"))).alias("sum_filtered1"), sum(when(col("value") < 50,
col("value"))).alias("sum_filtered2"))
● Pivot table: df.groupBy("column1").pivot("column2").agg(count("*"))
● Unpivot table: df.select("column1", expr("stack(3, 'column2', column2,
'column3', column3, 'column4', column4) as (key, value)")).where("value
is not null")

By: Waleed Mousa

7. DataFrame Window Functions

● Window functions (rank, dense_rank, percent_rank, row_number): from

pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("rank",
rank().over(window))
● Lag and lead functions: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("lag",
lag("value", 1).over(window)).withColumn("lead", lead("value",
1).over(window))
● Cumulative sum: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_sum", sum("value").over(window))
● Cumulative max: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_max", max("value").over(window))
● Moving average: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2").rowsBetween(-2, 0);
df.withColumn("moving_avg", avg("value").over(window))
● Running total: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2").rowsBetween(Window.unbou
ndedPreceding, Window.currentRow); df.withColumn("running_total",
sum("value").over(window))

8. DataFrame Explode and Flatten

● Explode array column: df.select(explode("array_column"))

● Explode map column: df.select(explode("map_column"))
● Flatten struct column: df.select("*", col("struct_column.*"))
● Flatten nested struct column: df.select("*",
col("nested_struct_column.level1.*"),
col("nested_struct_column.level2.*"))

9. DataFrame Array Functions

● Array contains: df.filter(array_contains(col("array_column"), "value"))

● Array distinct: df.select(array_distinct(col("array_column")))
● Array except: df.select(array_except(col("array_column1"),
col("array_column2")))
● Array intersect: df.select(array_intersect(col("array_column1"),
col("array_column2")))

By: Waleed Mousa

● Array join: df.select(array_join(col("array_column"), ","))
● Array max: df.select(array_max(col("array_column")))
● Array min: df.select(array_min(col("array_column")))
● Array position: df.select(array_position(col("array_column"), "value"))
● Array remove: df.select(array_remove(col("array_column"), "value"))
● Array repeat: df.select(array_repeat("value", 3))
● Array size: df.select(size(col("array_column")))
● Array sort: df.select(array_sort(col("array_column")))
● Array union: df.select(array_union(col("array_column1"),
col("array_column2")))
● Array zip: df.select(arrays_zip(col("array_column1"),
col("array_column2")))

10. DataFrame Map Functions

● Map contains key: df.filter(col("map_column").getItem("key").isNotNull())

● Map keys: df.select(map_keys(col("map_column")))
● Map values: df.select(map_values(col("map_column")))
● Map from entries: df.select(map_from_entries(col("array_column")))
● Map concat: df.select(map_concat(col("map_column1"), col("map_column2")))
● Map zip with: df.select(map_zip_with(col("map_column1"),
col("map_column2"), (k, v1, v2) => v1 + v2))

11. DataFrame Date and Timestamp Functions

● Current date: df.select(current_date())

● Current timestamp: df.select(current_timestamp())
● Date add: df.select(date_add(col("date_column"), 7))
● Date format: df.select(date_format(col("date_column"), "yyyy-MM-dd"))
● Date sub: df.select(date_sub(col("date_column"), 7))
● Date diff: df.select(datediff(col("end_date"), col("start_date")))
● To date: df.select(to_date(col("timestamp_column")))
● To timestamp: df.select(to_timestamp(col("string_column"), "yyyy-MM-dd
HH:mm:ss"))
● Trunc: df.select(trunc(col("timestamp_column"), "year"))

12. DataFrame Miscellaneous Functions

● Coalesce: df.select(coalesce(col("column1"), col("column2"),

lit("default_value")))

By: Waleed Mousa

● When otherwise: df.select(when(col("column") > 10,
"GT10").when(col("column") < 5, "LT5").otherwise("BETWEEN"))
● Case when: df.select(expr("CASE WHEN column1 > 10 THEN 'GT10' WHEN
column1 < 5 THEN 'LT5' ELSE 'BETWEEN' END"))
● Concat: df.select(concat(col("column1"), lit("_"), col("column2")))
● Concat with separator: df.select(concat_ws("_", col("column1"),
col("column2"), col("column3")))
● Substring: df.select(substring(col("column"), 1, 5))
● Substring index: df.select(substring_index(col("column"), ".", 1))
● Instr: df.select(instr(col("column"), "substring"))

By: Waleed Mousa

DP 900 Slides
No ratings yet
DP 900 Slides
107 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
MySQL Solution 1st 5 Worksheets
No ratings yet
MySQL Solution 1st 5 Worksheets
6 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
SQL Revision
100% (1)
SQL Revision
8 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
Sales SQL
No ratings yet
Sales SQL
148 pages
Python Full Stack
No ratings yet
Python Full Stack
55 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Python Essential Methods In Machine Learning
No ratings yet
Python Essential Methods In Machine Learning
6 pages
Oracle Query - Doc1
100% (1)
Oracle Query - Doc1
8 pages
Top 40 SQL Query Interview Questions and Answers for Practice
No ratings yet
Top 40 SQL Query Interview Questions and Answers for Practice
18 pages
quewtion sql_pyspark
No ratings yet
quewtion sql_pyspark
4 pages
PL SQL
No ratings yet
PL SQL
3 pages
Page 02
No ratings yet
Page 02
2 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Window_Functions_Spark
No ratings yet
Window_Functions_Spark
3 pages
Notes RDBMS
No ratings yet
Notes RDBMS
3 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL_ &_PYSPAK
No ratings yet
SQL_ &_PYSPAK
6 pages
Mongodb From Scratch: Mastering Nosql Database
No ratings yet
Mongodb From Scratch: Mastering Nosql Database
58 pages
V2SqlFinalDocument (2)
No ratings yet
V2SqlFinalDocument (2)
35 pages
PysparkSqlFinalDocument
No ratings yet
PysparkSqlFinalDocument
31 pages
Basis Data Inventaeis
No ratings yet
Basis Data Inventaeis
5 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Cheatsheet 6
No ratings yet
Cheatsheet 6
1 page
Handling nulls in PySpark _
No ratings yet
Handling nulls in PySpark _
15 pages
Csse-604 Software Testing: Assignment #2:SQL Queries
No ratings yet
Csse-604 Software Testing: Assignment #2:SQL Queries
19 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
PySpark_SQL_Pandas_CheatSheet
No ratings yet
PySpark_SQL_Pandas_CheatSheet
2 pages
SQL vs Pyspark-1
No ratings yet
SQL vs Pyspark-1
9 pages
Chapter 4 Relational Database Model
No ratings yet
Chapter 4 Relational Database Model
33 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Lab 09
No ratings yet
Lab 09
44 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
IBM_PySpark_CheatSheet
No ratings yet
IBM_PySpark_CheatSheet
2 pages
Comprehensive Python CheatSheet 1731972192
No ratings yet
Comprehensive Python CheatSheet 1731972192
10 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
journal
No ratings yet
journal
47 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Window Functions in SQL and PySpark
No ratings yet
Window Functions in SQL and PySpark
5 pages
Web Scraping and Data Collection CheatSheet 1731972399
No ratings yet
Web Scraping and Data Collection CheatSheet 1731972399
10 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Manojlov - Clanak12 - Ict and Management
No ratings yet
Manojlov - Clanak12 - Ict and Management
153 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Pyspark_12_questions
No ratings yet
Pyspark_12_questions
8 pages
Fundamental Database Lab1
No ratings yet
Fundamental Database Lab1
32 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
BDA_All_37_Practical_Answers_
No ratings yet
BDA_All_37_Practical_Answers_
3 pages
Top 100 Pyspark Functions for Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions for Data Engineers 1738131847
30 pages
Py Spark
No ratings yet
Py Spark
7 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Databricks vs SQL Cheat Sheet
No ratings yet
Databricks vs SQL Cheat Sheet
11 pages
Lab Sheet 8 - SQLite Database
100% (1)
Lab Sheet 8 - SQLite Database
9 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
SQL Final Document
No ratings yet
SQL Final Document
37 pages
SQL for Data Science
No ratings yet
SQL for Data Science
8 pages
Python lists, sets, and tuples
No ratings yet
Python lists, sets, and tuples
5 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Scripting Guide
No ratings yet
Scripting Guide
141 pages
EDA Python for Data Analsis
No ratings yet
EDA Python for Data Analsis
10 pages
Rdms Chapter 5
No ratings yet
Rdms Chapter 5
26 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
(FCP Sec Ops - NSE5) - FortiAnalyzer Analyst 7.2 - Study Guide
No ratings yet
(FCP Sec Ops - NSE5) - FortiAnalyzer Analyst 7.2 - Study Guide
209 pages
Final Lab Manual
No ratings yet
Final Lab Manual
24 pages
Window Function in Pyspark
100% (1)
Window Function in Pyspark
8 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Pyspark - DataFrame Window Functions
No ratings yet
Pyspark - DataFrame Window Functions
3 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
Power BI Deployment Pipelines CheatSheet 1731972155
No ratings yet
Power BI Deployment Pipelines CheatSheet 1731972155
10 pages
GitLab CI CD Operations CheatSheet 1731972419
No ratings yet
GitLab CI CD Operations CheatSheet 1731972419
11 pages
Database Management System Final Q2
No ratings yet
Database Management System Final Q2
9 pages
SQL Notes 1
No ratings yet
SQL Notes 1
101 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
SQL Dba Interview Questions
No ratings yet
SQL Dba Interview Questions
67 pages
An Introduction To The ADOdb Class Library For PHP
No ratings yet
An Introduction To The ADOdb Class Library For PHP
127 pages
Varma
No ratings yet
Varma
86 pages
Lab Manual For RDBMS
No ratings yet
Lab Manual For RDBMS
25 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
SQL Quiz Results
No ratings yet
SQL Quiz Results
17 pages
Document 1061798.1 Calendar
No ratings yet
Document 1061798.1 Calendar
7 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet

Pyspark SQL and DataFrames

Uploaded by

Pyspark SQL and DataFrames

Uploaded by

# [ PySpark SQL and DataFrames ] [ cheatsheet ]

● Create DataFrame from RDD: df = spark.createDataFrame(rdd)

● Show DataFrame: df.show()

By: Waleed Mousa

● Inner join: df1.join(df2, on="key", how="inner")

By: Waleed Mousa

4. DataFrame Set Operations

● Sort by column: df.sort("column")

6. DataFrame Grouping and Aggregation

● Group by column: df.groupBy("column")

By: Waleed Mousa

● Window functions (rank, dense_rank, percent_rank, row_number): from

8. DataFrame Explode and Flatten

● Explode array column: df.select(explode("array_column"))

9. DataFrame Array Functions

● Array contains: df.filter(array_contains(col("array_column"), "value"))

By: Waleed Mousa

10. DataFrame Map Functions

● Map contains key: df.filter(col("map_column").getItem("key").isNotNull())

11. DataFrame Date and Timestamp Functions

● Current date: df.select(current_date())

12. DataFrame Miscellaneous Functions

● Coalesce: df.select(coalesce(col("column1"), col("column2"),

By: Waleed Mousa

By: Waleed Mousa

You might also like