0% found this document useful (0 votes)

15 views

PySpark, SQL

Uploaded by

1995zahidf

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views

PySpark, SQL

Uploaded by

1995zahidf

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

PySpark

Interview
Cheat Sheet

ABHINAV SINGH
1. Initialization
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

2. Loading Data
df = spark.read.format("csv").option("header", "true").load("path/to/file.csv")

3. Rename Column
df = df.withColumnRenamed("old_column", "new_column")

4. Rename Multiple Columns

df = df.withColumnRenamed("old_column1",
"new_column1").withColumnRenamed("old_column2", "new_column2")

5. Add Column
df = df.withColumn("new_column", lit("value"))

6. Drop Column
df = df.drop("column")

ABHINAV SINGH
7. Select Columns
df.select("column1", "column2")

8. Filter Rows
df.filter(df["column"] == "value")

9. Sort Rows
df.orderBy(df["column"].asc())
df.orderBy(df["column"].desc()

10. Remove Duplicates

df.dropDuplicates()
df.dropDuplicates(['column'])

11. Union
df1.union(df2)

12. Conditional Logic

df.withColumn("new_column", when(df["column"] == "value",
"result").otherwise("other_result"))

ABHINAV SINGH
13. Contains
df.filter(df["column"].contains("value"))

14. Summary Statistics

df.describe()

15. Trim
df.select(trim(df["column"]))

16. Joins
df1.join(df2, df1["key_column"] == df2["key_column"], "inner")

17. Aggregate Functions

df.groupBy("column").agg(count("*"), sum("column"))

18. Window Functions

from pyspark.sql.window import Window
windowSpec = Window.partitionBy("column").orderBy("column")

ABHINAV SINGH
19. Running Total
df.withColumn("running_total", sum("column").over(windowSpec))

20. Rank
df.withColumn("rank", rank().over(windowSpec))

21. Dense Rank

df.withColumn("dense_rank", dense_rank().over(windowSpec))

22. Repartition
df.repartition(6)

23. Coalesce

df.coalesce(6)

24. Partition
df.write.partitionBy("column").mode("overwrite").save("path")

ABHINAV SINGH
25. Bucketing
df.write.bucketBy(4, "column").sortBy("column").saveAsTable("table_name")

26. Cast Column

df.withColumn("column", df["column"].cast("new_type"))

27. Fill Nulls

df.fillna("value")
df.fillna({"column": "value"})

28. Literal
from pyspark.sql.functions import lit
df.select(lit(1).alias("LiteralCol"))

29. GroupBy

df.groupBy("column").count()

30. Pivot
df.groupBy("column").pivot("pivot_column").sum("value_column")

ABHINAV SINGH
31. Date Functions
df.select(current_date(), current_timestamp())

32. Replace Values

df.replace("old_value", "new_value")

33. Drop Rows with Nulls

df.na.drop()

34. Regex Functions

df.select(regexp_replace(col("col"), "pattern", "replacement"))

35. Drop Duplicates

df.groupBy("column").df.dropDuplicates(subset=["column1", "column2"])

ABHINAV SINGH

Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
SQL Cheat Sheet Python
No ratings yet
SQL Cheat Sheet Python
1 page
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
SQL vs Pyspark-1
No ratings yet
SQL vs Pyspark-1
9 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
PySpark SQL Functions-10-03
No ratings yet
PySpark SQL Functions-10-03
357 pages
Pandas Cheatsheet Repost 1710006843
No ratings yet
Pandas Cheatsheet Repost 1710006843
8 pages
PYTHON PANDAS Cheat Sheet
No ratings yet
PYTHON PANDAS Cheat Sheet
2 pages
Pandas_Dataframe_All_Operations_1735471870
No ratings yet
Pandas_Dataframe_All_Operations_1735471870
4 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Py Spark
No ratings yet
Py Spark
8 pages
Mastering Data Analyst Interview Scenarios
No ratings yet
Mastering Data Analyst Interview Scenarios
20 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
Pyspark IQ FREE Guide
No ratings yet
Pyspark IQ FREE Guide
57 pages
practical file class xii
No ratings yet
practical file class xii
25 pages
Python CheatSheet
No ratings yet
Python CheatSheet
2 pages
Cheto Essential-Pandas
No ratings yet
Cheto Essential-Pandas
2 pages
EDA Python for Data Analsis
No ratings yet
EDA Python for Data Analsis
10 pages
PDF&Rendition=1
No ratings yet
PDF&Rendition=1
47 pages
Top 100 Pyspark Functions for Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions for Data Engineers 1738131847
30 pages
Micron Interview Questions Summary # Question 1 Parsing The HTML Webpages
No ratings yet
Micron Interview Questions Summary # Question 1 Parsing The HTML Webpages
2 pages
1
No ratings yet
1
12 pages
CheatSheet
No ratings yet
CheatSheet
15 pages
Cheatsheet Panda
No ratings yet
Cheatsheet Panda
6 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Pandas Commands
No ratings yet
Pandas Commands
3 pages
EDA with Pandas
No ratings yet
EDA with Pandas
8 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Spark Cheat Sheet 1717838924
No ratings yet
Spark Cheat Sheet 1717838924
10 pages
Pyspark coding questions from StrataScratch platform
No ratings yet
Pyspark coding questions from StrataScratch platform
23 pages
Kis W Class 12 Practical File
No ratings yet
Kis W Class 12 Practical File
31 pages
PANDAS Cheatsheet
No ratings yet
PANDAS Cheatsheet
4 pages
Pandas_Filtering
No ratings yet
Pandas_Filtering
19 pages
SET 1
No ratings yet
SET 1
16 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Ainotes dataframe
No ratings yet
Ainotes dataframe
5 pages
DOC-20240519-WA0024.
No ratings yet
DOC-20240519-WA0024.
38 pages
Pandas - Cheatsheet
No ratings yet
Pandas - Cheatsheet
4 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
2.1 Combining Data Frames
No ratings yet
2.1 Combining Data Frames
38 pages
Javascript Assessment Test
From Everand
Javascript Assessment Test
Edward Yao
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Prolog programming for artificial intelligence 4ed. Edition Ivan Bratko 2024 Scribd Download
100% (6)
Prolog programming for artificial intelligence 4ed. Edition Ivan Bratko 2024 Scribd Download
51 pages
Control No. - Equipment Borrower'S Form: - Ricah Lee P. LEQUIN
No ratings yet
Control No. - Equipment Borrower'S Form: - Ricah Lee P. LEQUIN
2 pages
2online Organ and Blood Donation Management System
No ratings yet
2online Organ and Blood Donation Management System
122 pages
Experimental Study On The Design
No ratings yet
Experimental Study On The Design
5 pages
20200829044506incorporating Quotes Worksheet
No ratings yet
20200829044506incorporating Quotes Worksheet
3 pages
DX Diag
No ratings yet
DX Diag
53 pages
Simulador Omega CL309 A
No ratings yet
Simulador Omega CL309 A
12 pages
An FPGA-Based Reconfigurable CNN Accelerator For YOLO
No ratings yet
An FPGA-Based Reconfigurable CNN Accelerator For YOLO
5 pages
9 Distance Measures in Data Science - Towards Data Science
No ratings yet
9 Distance Measures in Data Science - Towards Data Science
14 pages
RIce Plant Disease Detection Using Different AI Approaches
No ratings yet
RIce Plant Disease Detection Using Different AI Approaches
11 pages
Data Flow Testing
100% (1)
Data Flow Testing
3 pages
SLB D&I Technology Update
No ratings yet
SLB D&I Technology Update
2 pages
Temperature Measurement Using RTD-PT100
No ratings yet
Temperature Measurement Using RTD-PT100
5 pages
Recap IT Class10 PDF
No ratings yet
Recap IT Class10 PDF
43 pages
COE768 Course Outline
No ratings yet
COE768 Course Outline
5 pages
User Guide For Ubooks
No ratings yet
User Guide For Ubooks
107 pages
StyleCAD V7 Release Note
No ratings yet
StyleCAD V7 Release Note
85 pages
M955G 30B
No ratings yet
M955G 30B
56 pages
10 English Literature Prose Chapter 6
No ratings yet
10 English Literature Prose Chapter 6
11 pages
Final PDF
No ratings yet
Final PDF
11 pages
Scratch Design Template
No ratings yet
Scratch Design Template
6 pages
Delft3D-Installation - Manual A
No ratings yet
Delft3D-Installation - Manual A
50 pages
Computer Systems Servicing Learning Module K To 12
No ratings yet
Computer Systems Servicing Learning Module K To 12
136 pages
Schema LG AKB72915244
No ratings yet
Schema LG AKB72915244
2 pages
DOC000086448808
No ratings yet
DOC000086448808
28 pages
abrites-programmer-user-manual
No ratings yet
abrites-programmer-user-manual
15 pages
Data Modeling Using The Entity-Relationship Model
No ratings yet
Data Modeling Using The Entity-Relationship Model
49 pages
SIE 431 Simulation Modeling and Analysis Midterm Exam, May 15 2021 60 Minutes For Exam Name
No ratings yet
SIE 431 Simulation Modeling and Analysis Midterm Exam, May 15 2021 60 Minutes For Exam Name
9 pages
Pink and Blue Collage Scrapbook Data Infographic
No ratings yet
Pink and Blue Collage Scrapbook Data Infographic
2 pages
Naming, Scope, and Binding Are Important Concepts in High-Level Languages
No ratings yet
Naming, Scope, and Binding Are Important Concepts in High-Level Languages
29 pages

PySpark, SQL

Uploaded by

PySpark, SQL

Uploaded by

PySpark

4. Rename Multiple Columns

10. Remove Duplicates

12. Conditional Logic

14. Summary Statistics

17. Aggregate Functions

18. Window Functions

21. Dense Rank

26. Cast Column

27. Fill Nulls

32. Replace Values

33. Drop Rows with Nulls

34. Regex Functions

35. Drop Duplicates

You might also like