Pandas - PySpark Equivalents-1

The document compares common data wrangling operations between Pandas and PySpark, listing the syntax for performing each operation such as reading/writing CSVs, selecting columns, filtering data, grouping/aggregating, sorting, handling missing values, renaming columns, creating/calculating new columns, joining data, pivoting tables, dropping columns/duplicates, concatenating dataframes, and finding unique values.

Uploaded by

Rufai

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

90 views3 pages

Pandas - PySpark Equivalents-1

Uploaded by

Rufai

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

OPERATION PANDAS PYSPARK

Reading CSV pd.read_csv('file.csv') spark.read.csv('file.csv', header=True)

Writing CSV df.to_csv("file.csv", index=False) df.write.csv("file.csv", header=True)

Selecting
Columns df[['column1', 'column2']] df.select('column1', 'column2')

Filtering Data
df[df['column'] > value] df.filter(df['column'] > value)

Grouping and df.groupby('group_column') \ df.groupBy('group_column') \

Aggregating .agg({'numeric_column': 'mean'}) .agg({'numeric_column': 'mean'})

Moses David Kalyanapu

OPERATION PANDAS PYSPARK

Sorting Data df.sort_values(by='column', ascending=False) df.orderBy('column', ascending=False)

Handling
df.dropna() df.na.drop()
Missing Values

Renaming
Columns df.rename(columns={'old_name': 'new_name'} df = df.withColumnRenamed('old_name', 'new_name')

Creating New
df[new_column] = values df.withColumn("new_column", values)
Column

Calculated df.withColumn("sum_column", df["column1"] +

df['sum_column'] = df['column1'] + df['column2']
Column df["column2"])

Display DF
df.info() df.printSchema()
Schema Info
OPERATION PANDAS PYSPARK

Data Joining pd.merge(df1, df2, on='key_column', how='join_type') df.join(other_df, on='key_column', how='join_type')

pd.pivot_table(df, values='value', index='index_column', df.groupBy("index_column").pivot("column_name").agg({"

Pivot Tables
columns='column_name', aggfunc='agg_func') value": "agg_func"})

Column
df.drop(columns=['column_name']) df.drop('column_name')
Deletion

Dropping
df.drop_duplicates() df.dropDuplicates()
Duplicates

Dataframe
pd.concat([df1, df2]) df.union(df2)
Concatenation

Find Unique
df['column_name'].unique() df.select('column_name').distinct()
Values

Mahendra Verma - Practical Numerical Computing Using Python - Scientific & Engineering Applications (2021)
No ratings yet
Mahendra Verma - Practical Numerical Computing Using Python - Scientific & Engineering Applications (2021)
553 pages
Dsa Notes Iit Madras
No ratings yet
Dsa Notes Iit Madras
887 pages
Practical Data Science
No ratings yet
Practical Data Science
121 pages
Barclays Data Engineer Interview Questions
No ratings yet
Barclays Data Engineer Interview Questions
17 pages
Python Libraries
No ratings yet
Python Libraries
17 pages
Ad3002 - Question Bank Health Care
100% (1)
Ad3002 - Question Bank Health Care
16 pages
Automated Phil-Iri - For Uploading
100% (1)
Automated Phil-Iri - For Uploading
11 pages
L24219GJ1985PLC025132 Iepf-2
No ratings yet
L24219GJ1985PLC025132 Iepf-2
8,198 pages
Financial Year 2017-2018
No ratings yet
Financial Year 2017-2018
510 pages
Pandas Commands
No ratings yet
Pandas Commands
3 pages
Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
Soft Computing UNIT 1
No ratings yet
Soft Computing UNIT 1
10 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
62 pages
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
No ratings yet
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
12 pages
UNIT 3 (Chapter 2) Pandas
No ratings yet
UNIT 3 (Chapter 2) Pandas
43 pages
Python
No ratings yet
Python
157 pages
Task Tracker 2025
No ratings yet
Task Tracker 2025
116 pages
2nd Interim Div 2011 12
No ratings yet
2nd Interim Div 2011 12
2,230 pages
FDS Lab Manual
No ratings yet
FDS Lab Manual
48 pages
Python Full Stack
0% (1)
Python Full Stack
6 pages
UNIT-5 Data Visualization Using Dataframe
No ratings yet
UNIT-5 Data Visualization Using Dataframe
38 pages
Pandas Guide
No ratings yet
Pandas Guide
64 pages
Dap M4
No ratings yet
Dap M4
18 pages
Snowflake Demo
No ratings yet
Snowflake Demo
13 pages
Unit V Big Data Analytics
No ratings yet
Unit V Big Data Analytics
47 pages
02 Amazon Fine Food Reviews Analysis - TSNE - Slides
No ratings yet
02 Amazon Fine Food Reviews Analysis - TSNE - Slides
1 page
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
DL Lab Manual
100% (1)
DL Lab Manual
35 pages
Numpy-User-1 10 1
No ratings yet
Numpy-User-1 10 1
107 pages
DBMS Lab Manual
No ratings yet
DBMS Lab Manual
19 pages
Unit V Data Visualization
No ratings yet
Unit V Data Visualization
49 pages
DSML Curriculum Doc - Google Sheets
0% (1)
DSML Curriculum Doc - Google Sheets
12 pages
Week 2 Day 2 Pivot Table Notes
No ratings yet
Week 2 Day 2 Pivot Table Notes
50 pages
Tybcom Excel Question Bank
100% (1)
Tybcom Excel Question Bank
4 pages
Django ORM Cheatsheet
No ratings yet
Django ORM Cheatsheet
13 pages
Jupyter Installation
100% (1)
Jupyter Installation
19 pages
R Language
No ratings yet
R Language
59 pages
BDA Lab ManuaL
No ratings yet
BDA Lab ManuaL
83 pages
Customer Segmentation Clustering
No ratings yet
Customer Segmentation Clustering
35 pages
06 Linux Shell Programming
No ratings yet
06 Linux Shell Programming
59 pages
Attribute Oriented Induction
100% (1)
Attribute Oriented Induction
6 pages
Big Data Data Analytics
No ratings yet
Big Data Data Analytics
5 pages
Mining Data Streams (Part 2)
No ratings yet
Mining Data Streams (Part 2)
56 pages
Pandas Notes
No ratings yet
Pandas Notes
4 pages
Day 5 Supervised Technique-Decision Tree For Classification PDF
100% (1)
Day 5 Supervised Technique-Decision Tree For Classification PDF
58 pages
Mutual Fund Performance Analyser
No ratings yet
Mutual Fund Performance Analyser
24 pages
Lecture 4 - Pair RDD and DataFrame
No ratings yet
Lecture 4 - Pair RDD and DataFrame
38 pages
Nptel - Data Mining - Week 2
No ratings yet
Nptel - Data Mining - Week 2
4 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Super Study Guide: Data Science Tools: Afshine Amidi and Shervine Amidi August 21, 2020
No ratings yet
Super Study Guide: Data Science Tools: Afshine Amidi and Shervine Amidi August 21, 2020
23 pages
Independent Component Analysis: Bhagesh Bhutani (20) Chayan Sharma (21) Deepak
No ratings yet
Independent Component Analysis: Bhagesh Bhutani (20) Chayan Sharma (21) Deepak
15 pages
Detailed Curriculum PDF
No ratings yet
Detailed Curriculum PDF
6 pages
LCA BI - Financial Report Usage
No ratings yet
LCA BI - Financial Report Usage
6 pages
Spreadsheets To Ec2
No ratings yet
Spreadsheets To Ec2
25 pages
DataScience With Python Course Content Syllabus Meritude
No ratings yet
DataScience With Python Course Content Syllabus Meritude
10 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
2 pages
Power BI Syllabus
No ratings yet
Power BI Syllabus
7 pages
CS 224n Assignment #2: Word2vec (43 Points)
No ratings yet
CS 224n Assignment #2: Word2vec (43 Points)
4 pages
M.sc. Computer Science
No ratings yet
M.sc. Computer Science
18 pages
AIML Lab Manual
No ratings yet
AIML Lab Manual
43 pages
Python Interview Questions
No ratings yet
Python Interview Questions
8 pages
Unit 2
No ratings yet
Unit 2
11 pages
L61000MH1978PLC020435 Dividend-2016
No ratings yet
L61000MH1978PLC020435 Dividend-2016
138 pages
Cp7029 Information Storage Management
100% (1)
Cp7029 Information Storage Management
1 page
Python Regular Expression - Exercises, Practice, Solution - W3resource12
No ratings yet
Python Regular Expression - Exercises, Practice, Solution - W3resource12
1 page
Pandas - Basics - Practice: Consider The Following Python Dictionary Data and Python List Labels
No ratings yet
Pandas - Basics - Practice: Consider The Following Python Dictionary Data and Python List Labels
6 pages
A719552767 - 20992 - 7 - 2019 - Lecture10 Python OOP
No ratings yet
A719552767 - 20992 - 7 - 2019 - Lecture10 Python OOP
15 pages
Pythonic Data Cleaning With Numpy and Pandas
No ratings yet
Pythonic Data Cleaning With Numpy and Pandas
11 pages
Giao Trinh Excel
No ratings yet
Giao Trinh Excel
100 pages
Form IEPF 4 - 2017 18 1
No ratings yet
Form IEPF 4 - 2017 18 1
6 pages
WFM Reporting Sample
No ratings yet
WFM Reporting Sample
426 pages
Excel Class
No ratings yet
Excel Class
157 pages
Enter High 700 and Check For Low 698 Max Deviation 0.00%
No ratings yet
Enter High 700 and Check For Low 698 Max Deviation 0.00%
14 pages
NO Kelas Nisn Nama
No ratings yet
NO Kelas Nisn Nama
5 pages
SPC Spreadsheet
No ratings yet
SPC Spreadsheet
8 pages
Atlas Mayur Sathe
No ratings yet
Atlas Mayur Sathe
53 pages
Analyze Data & Slicer
No ratings yet
Analyze Data & Slicer
7 pages
Cns Lessonplan
No ratings yet
Cns Lessonplan
2 pages
Yahoo Data Download
No ratings yet
Yahoo Data Download
6 pages
PSI Report 2023
No ratings yet
PSI Report 2023
7 pages
Excel Chapter - 11
No ratings yet
Excel Chapter - 11
14 pages
XJXJXJX
No ratings yet
XJXJXJX
30 pages
Module-4 1
No ratings yet
Module-4 1
30 pages
Control Limits and Centerline Data (Measurement) Using S Chart
No ratings yet
Control Limits and Centerline Data (Measurement) Using S Chart
8 pages
2D Geo
No ratings yet
2D Geo
37 pages
Contoh Soal Program Non-Linier: Dengan Menggunakan Excel Solver
No ratings yet
Contoh Soal Program Non-Linier: Dengan Menggunakan Excel Solver
25 pages
Jadwal Perawat Igd Bulan Mei 2021 Revisi
No ratings yet
Jadwal Perawat Igd Bulan Mei 2021 Revisi
7 pages
Islamic Teacher Training College ON PERIOD 2020-2021 List of Arabic Dictation Delivering No Class Subject Reader Day & Date Period Place
No ratings yet
Islamic Teacher Training College ON PERIOD 2020-2021 List of Arabic Dictation Delivering No Class Subject Reader Day & Date Period Place
13 pages
GR - 11 - Recording Math Sept 2019
No ratings yet
GR - 11 - Recording Math Sept 2019
2 pages

Pandas - PySpark Equivalents-1

Uploaded by

Pandas - PySpark Equivalents-1

Uploaded by

OPERATION PANDAS PYSPARK

Reading CSV pd.read_csv('file.csv') spark.read.csv('file.csv', header=True)

Writing CSV df.to_csv("file.csv", index=False) df.write.csv("file.csv", header=True)

Grouping and df.groupby('group_column') \ df.groupBy('group_column') \

Moses David Kalyanapu

Sorting Data df.sort_values(by='column', ascending=False) df.orderBy('column', ascending=False)

Calculated df.withColumn("sum_column", df["column1"] +

Data Joining pd.merge(df1, df2, on='key_column', how='join_type') df.join(other_df, on='key_column', how='join_type')

pd.pivot_table(df, values='value', index='index_column', df.groupBy("index_column").pivot("column_name").agg({"

You might also like