0% found this document useful (0 votes)

32 views16 pages

Pyspark Vs Pandas

Uploaded by

julianalb.berrio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views16 pages

Pyspark Vs Pandas

Uploaded by

julianalb.berrio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Data Engineering Fundamentals

Pandas
vs PySpark

Eren Han
Data Engineering Fundamentals
1
LOAD CSV

Pandas PySpark

df = spark.read \
.options(header=True,
df = pd.read_csv('sample.csv')
inferSchema=True) \
.csv('sample.csv')

Eren Han
Data Engineering Fundamentals
2
VIEW DATAFRAME

Pandas PySpark

df df.show()

df.head(10) df.show(10)

Eren Han
Data Engineering Fundamentals
3
CHECK COLUMNS AND DATA TYPES

Pandas PySpark

df.columns df.columns

df.dtypes df.dtypes

Eren Han
Data Engineering Fundamentals
4
RENAME COLUMNS

Pandas PySpark

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

Eren Han
Data Engineering Fundamentals
5
DROP COLUMN

Pandas PySpark

df.drop("column", axis=1) df.drop("column")

Eren Han
Data Engineering Fundamentals
6
FILTERING

Pandas PySpark

df[df.column < 80] df[df.column < 80]

df[(df.column < 80) & (df.column2 == 50)] df[(df.column < 80) & (df.column2 == 50)]

Eren Han
Data Engineering Fundamentals
7
ADD COLUMN

Pandas PySpark

df["new"] = 1 / df.column df.withColumn("new", 1 /

df.column)

Note: Division by zero is Note: Division by zero is NULL.

infinite.

Eren Han
Data Engineering Fundamentals
8
FILL NULLS

Pandas PySpark

df.fillna(0) df.fillna(0)

Eren Han
Data Engineering Fundamentals
9
AGGREGATION

Pandas PySpark

df.groupby([date, product]) \ df.groupby([date, product]) \

.agg({"sales":"mean", .agg({"sales":"mean",
"revenue":"max"}) "revenue":"max"})

Eren Han
Data Engineering Fundamentals
10
STANDARD TRANSFORMATIONS

Pandas PySpark

import numpy as np import pysapark.sql.functions as F

df["logcolumn"] = np.log(df.column) df.withColumn("logcolumn",
F.log(df.column)

Eren Han
Data Engineering Fundamentals
11
CONDITIONAL STATEMENTS

Pandas PySpark

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.col1>20 else 2 if df.col2==6 else df.withColumn("cond", \
3, axis=1) F.when(df.col1>20,1) \
.when(df.col2==6,2)
.otherwise(3))

Eren Han
Data Engineering Fundamentals
12
MERGE / JOIN DATAFRAMES

Pandas PySpark

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Eren Han
Data Engineering Fundamentals
13
SUMMARY STATISTICS

Pandas PySpark

df.describe() df.describe().show()

Note: Only
count,mean,stddev,min,max.

Eren Han
Data Engineering Fundamentals
14
CHANGE DATA TYPES

Pandas PySpark

from pyspark.sql.types
df['A'] = df['A'].astype(int)
import IntegerType

df = df.withColumn('A',
col('A').cast(IntegerType()))

Eren Han
Data Engineering Fundamentals

Thank You for

reading. I hope
you enjoyed it.

Eren Han

Oracle Forms Material
96% (28)
Oracle Forms Material
88 pages
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
No ratings yet
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
99 pages
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
No ratings yet
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
106 pages
4 BNI Python Training
100% (1)
4 BNI Python Training
126 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
No ratings yet
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
63 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PYSPARK Interview Questions
100% (3)
PYSPARK Interview Questions
126 pages
CHP 8 Pandas
No ratings yet
CHP 8 Pandas
49 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pandas
No ratings yet
Pandas
41 pages
Pyspark Vs Pandas Cheatsheet
No ratings yet
Pyspark Vs Pandas Cheatsheet
3 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Database Management - Dbms Question Bank
100% (1)
Database Management - Dbms Question Bank
21 pages
Dinesh Verma - MCS-043 Advanced Database Management Systems (2021)
No ratings yet
Dinesh Verma - MCS-043 Advanced Database Management Systems (2021)
368 pages
Adding New Tables To An Existing Oracle Goldengate Replication
No ratings yet
Adding New Tables To An Existing Oracle Goldengate Replication
7 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
MySQL Server Variable Tuning
No ratings yet
MySQL Server Variable Tuning
24 pages
1 Pandas Basics
No ratings yet
1 Pandas Basics
13 pages
Py Spark
No ratings yet
Py Spark
177 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
BIG DATA - 25.09.2020 (19 Files Merged)
No ratings yet
BIG DATA - 25.09.2020 (19 Files Merged)
184 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
Deloitte Pyspark Interview Questions For Data Engineer 2024 - by Ronit Malhotra - Jun, 2024 - Medium
No ratings yet
Deloitte Pyspark Interview Questions For Data Engineer 2024 - by Ronit Malhotra - Jun, 2024 - Medium
9 pages
Week 3 Python
No ratings yet
Week 3 Python
152 pages
Asto
No ratings yet
Asto
103 pages
B LSC CD W1 Geiv Yx BAmc EE3 U
No ratings yet
B LSC CD W1 Geiv Yx BAmc EE3 U
166 pages
Database Modeling and Design: Logical Design: Toby Teorey, Sam Lightstone, Tom Nadeau
No ratings yet
Database Modeling and Design: Logical Design: Toby Teorey, Sam Lightstone, Tom Nadeau
67 pages
Pandas Learndatasci
No ratings yet
Pandas Learndatasci
86 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Unit 4 - Data Manipulations
No ratings yet
Unit 4 - Data Manipulations
70 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
4 Data Transformation Using Pandas
No ratings yet
4 Data Transformation Using Pandas
59 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
SQL Question
100% (1)
SQL Question
8 pages
SQL Test Answers
No ratings yet
SQL Test Answers
7 pages
Oracle Database 10g The Complete Reference 1st Edition Kevin Loney Download
100% (1)
Oracle Database 10g The Complete Reference 1st Edition Kevin Loney Download
47 pages
Bda U5
No ratings yet
Bda U5
42 pages
Extract, Transform and Load (ETL)
No ratings yet
Extract, Transform and Load (ETL)
31 pages
DBMS - (Medical Database Managment System) - 1
No ratings yet
DBMS - (Medical Database Managment System) - 1
33 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
All Worksheets Mysql Solutions
No ratings yet
All Worksheets Mysql Solutions
36 pages
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
No ratings yet
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
37 pages
Data Engineering 101 PySpark Vs Pandas 1721887961
No ratings yet
Data Engineering 101 PySpark Vs Pandas 1721887961
36 pages
Pandas (Ziad)
No ratings yet
Pandas (Ziad)
38 pages
1 - Introduction ToPySpark
No ratings yet
1 - Introduction ToPySpark
26 pages
Pandas
No ratings yet
Pandas
36 pages
Panduan Pandas
No ratings yet
Panduan Pandas
33 pages
JPA 2-2 Repeatable Annotations
No ratings yet
JPA 2-2 Repeatable Annotations
3 pages
Practical ADM
No ratings yet
Practical ADM
23 pages
Introduction To Database Systems: BI/BM/EBM/FM/HM/MM/TM 1254 - Database Systems and Network Technology
No ratings yet
Introduction To Database Systems: BI/BM/EBM/FM/HM/MM/TM 1254 - Database Systems and Network Technology
28 pages
Pandas
No ratings yet
Pandas
28 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
21 pages
FD's & Normalization - DPP 07 (Extra DPP) 2
No ratings yet
FD's & Normalization - DPP 07 (Extra DPP) 2
28 pages
Ads Mse
No ratings yet
Ads Mse
22 pages
Pyspark
No ratings yet
Pyspark
10 pages
Deloitte Data Engineer Interview Experience (0-3 Yoe)
No ratings yet
Deloitte Data Engineer Interview Experience (0-3 Yoe)
22 pages
DP 203t00a Enu Powerpoint 03
No ratings yet
DP 203t00a Enu Powerpoint 03
25 pages
Experiment No 1, 2, 3
No ratings yet
Experiment No 1, 2, 3
16 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
UNIT II Notes
No ratings yet
UNIT II Notes
23 pages
SQL Exercises
No ratings yet
SQL Exercises
2 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
12 pages
06 MGMT 590 Fall 2019 Data Handling With Pandas
No ratings yet
06 MGMT 590 Fall 2019 Data Handling With Pandas
14 pages
Crear Base de Datos Mongodb
No ratings yet
Crear Base de Datos Mongodb
10 pages
Notes On OLAP
No ratings yet
Notes On OLAP
7 pages
Py Spark
No ratings yet
Py Spark
9 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
DB HW 6
No ratings yet
DB HW 6
7 pages
Java JDBC Driver - Javatpoint
No ratings yet
Java JDBC Driver - Javatpoint
6 pages
Pandas - PySpark Equivalents-1
No ratings yet
Pandas - PySpark Equivalents-1
3 pages
CSI2132 Sample Final PDF
No ratings yet
CSI2132 Sample Final PDF
7 pages
Lecture 29 - SQL Commands
No ratings yet
Lecture 29 - SQL Commands
5 pages
Working With CSV File in Databricks
No ratings yet
Working With CSV File in Databricks
4 pages
Relational Model and Normal Forms - DPP 01
No ratings yet
Relational Model and Normal Forms - DPP 01
4 pages
DP 15 2 Practice DONE
No ratings yet
DP 15 2 Practice DONE
4 pages
Error Bam2
No ratings yet
Error Bam2
4 pages
Day 11 Notes
No ratings yet
Day 11 Notes
3 pages
Bind Variables and Execute Immediate
No ratings yet
Bind Variables and Execute Immediate
2 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Tech 3 5 Years Exp Questions
No ratings yet
Tech 3 5 Years Exp Questions
1 page
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet

Pyspark Vs Pandas

Uploaded by

Pyspark Vs Pandas

Uploaded by

Data Engineering Fundamentals

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

df.drop("column", axis=1) df.drop("column")

df[df.column < 80] df[df.column < 80]

df["new"] = 1 / df.column df.withColumn("new", 1 /

Note: Division by zero is Note: Division by zero is NULL.

df.groupby([date, product]) \ df.groupby([date, product]) \

import numpy as np import pysapark.sql.functions as F

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Thank You for

You might also like