Column Renaming in Pyspark

The document provides various examples of data manipulation in PySpark, including column renaming, validating column order, checking for null values, reading and writing CSV and JSON files, detecting duplicates, and optimizing data. It also demonstrates how to format numbers into a specific string format. Additionally, it covers the use of the Ntile function for batching data and Delta Lake operations for data optimization and cleanup.

Uploaded by

jaihindjaibharat83

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views4 pages

Column Renaming in Pyspark

Uploaded by

jaihindjaibharat83

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Column Renaming in Pyspark:

#
from pyspark.sql.functions import *
from pyspark.sql.types import *
df = spark.read.format('CSV').option('Header',True).option('Inferschema',
True).load('dbfs:/FileStore/dbfs/Rename_columns_data.csv')
display(df)

#Replacing space with _

from pyspark.sql.functions import col

new_columns = [col.replace(" ","_")for col in df.columns]
print(new_columns)

#Getting old columns

old_columns = df.columns
print(old_columns)

# Renaming all columns with new columns with Python list:

mapping_list = ["id","First_Name","Last_Name","Email_New","gender","Job_Title"]
rename_df = df.toDF(*mapping_list)
rename_df.show()

# Renaming all columns with Python dictionary

mapping_list = {
"id": "New_ID",
"First Name": "First_Name",
"Last Name": "Last_Name",
"email": "Email_New",
"gender": "gender",
"Job Title": "Job_Title"
}

# Iterate through the mapping list and apply the renaming

df2 = df
for old_col, new_col in mapping_list.items():
df2 = df2.withColumnRenamed(old_col, new_col)

# Display the DataFrame with renamed columns

display(df2)

………………………………………………………………………………………………………………………..
Validate column Order in Pyspark
#Define the correct order
Expected_columns = [(‘Id’,’Name’,’age’,’address’)
# Create Dataframe
Df = spark.createDataFrame([(‘Alice’,1,30,’stree1’),(‘Bob’,2,40,’Street3’),
(‘kumar’,3,35,’street5’)],[‘Name’,’id’,’age’,’address’])
Display(df)
# Get actual columns
Actual_columns = df.columns
# check if column order is correct or not?
If Expected_columns == Actual_columns:
Print(‘column order is correct’)
Else:
Print(f“column order is incorrect expected column order is : {Expected_columns}, but
got column : {Actual_columns})
# To correct the order of the columns in dataset
Df_correct_order = df.select(*Expected_columns)
Display(df_correct_order)

# Check the number of columns

If len(Expected_columns) != len(Actual_columns):

print
…………………………………………………………………………………………………….
How to check Null in all columns in Pyspark
from pyspark.sql.functions import*
null_counts = df.select([(count(when(col(c).isNull(), c))).alias(c) for c in df.columns])
display(null_counts)
…………………………………………………………………………………………………………….
How to read CSV and JSON file
Df = spark.read.option(“header”,True)\
.option(“InferSchema”,True)\
.option(“mode” , “permissive/DROPMAlFormed/Failfast”)\
.option(badRecordPath,”Path”)\
.schema(schema)\
.load(“Path”)
Write CSV:
Df = df.write.mode(SavingMode,Overwrite/Append/Ignore/errorIfexist).CSV(“Path”)
Json☹READ)
Df = Spark.read.option(“multiline”,”True”)\
.option(“mode”,”PERMISSIVE/DROPMALFORMED/FAILFAST”)\
.schema(schema)
.json(“Path”)
Write😊
DF2 = df.write.mode(savingmode, append/overwrite/ignore).json(“PATH”)
……………………………………………………………………………………………………………………………………..
How to check Duplicates value in Pyspark
From pyspark.sql import function as F
From pyspark.sql.types import*
Window_Spec = window.partitionBy(“ col1”,”col2”).orderBy(“col1”)
Df = df.withColumn(“duplicates”,f.row_number().over(window_spec)
Df_filtered = df.filter(f.col(duplicates) = 2
Display(df.filtered)
…………………………………………………………………………………………..
Ntile Function to divide large dataset into smaller batch
Df = spark.createDataFarme(data,schema)
Window_spec = window.PartitionBy(F.monotonically_increasing_id())
Df_batch = df.withColumn(“Batch”,F.ntile(3).over(window_Spec))
Display(df_batch)
………………………………………………………………………………………
Optimize and compact data after Update
deltaTable = DeltaTable.forName(spark,”TableName”)
deltaTable.optimize().executeZorderBy(“id”)
CleanUp Snapshot with Vaccum
deltaTable.vaccum()
……………………………………………………………………………………………………….
Data = 1,10,100,1000,10000 how to get output as :
CB_00001,CB_00010,CB_00100,CB_01000,CB_10000
Ans:
# List of data
data = [1, 10, 100, 1000, 10000]
# Use list comprehension to format the numbers as per the desired output
formatted_data = [f"CB_{x:05d}" for x in data]
# Join the formatted data into a single string, separated by commas
output = ",".join(formatted_data)
# Print the result
print(output)
Explanation:
 f"CB_{x:05d}": This is Python’s f-string formatting. It formats the number x to a 5-
digit string, padded with leading zeros (05d).
o 5 means the total width of the string will be 5 characters.
o d is used to format the number as a decimal integer.
o The leading zeros are automatically added to fill the width.
 ",".join(formatted_data): This joins the formatted data into a string, separated by
commas.

Databricks Data Engineer Associate Dumps
100% (5)
Databricks Data Engineer Associate Dumps
40 pages
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
No ratings yet
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
106 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
Azure DATA Fatcory
No ratings yet
Azure DATA Fatcory
2,982 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Master Pyspark Zero To Hero 1738689679
No ratings yet
Master Pyspark Zero To Hero 1738689679
102 pages
Linux Essentials Full Course
100% (5)
Linux Essentials Full Course
210 pages
Top 100 Pyspark Functions For Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions For Data Engineers 1738131847
30 pages
DatabricksDataEngineer Associate2024
80% (5)
DatabricksDataEngineer Associate2024
157 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
AZ-900T00 Microsoft Azure Fundamentals-01
No ratings yet
AZ-900T00 Microsoft Azure Fundamentals-01
21 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
C2-Distributed Databases
No ratings yet
C2-Distributed Databases
95 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Pyspark 500
No ratings yet
Pyspark 500
103 pages
AutoCAD Drawing Commands
No ratings yet
AutoCAD Drawing Commands
9 pages
Data Engineering With Databricks Da
100% (3)
Data Engineering With Databricks Da
232 pages
Journal
No ratings yet
Journal
47 pages
Databricks Certified Professional Data Engineer Questions and Answers PDF Dumps
No ratings yet
Databricks Certified Professional Data Engineer Questions and Answers PDF Dumps
6 pages
Television 2008 03
No ratings yet
Television 2008 03
52 pages
New PUMA Mathematics Mastery Curriculum Maps 1
No ratings yet
New PUMA Mathematics Mastery Curriculum Maps 1
31 pages
Pyspark Practice Template
No ratings yet
Pyspark Practice Template
2 pages
PySpark, SQL
No ratings yet
PySpark, SQL
7 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
Programming Fundamentals PDF
No ratings yet
Programming Fundamentals PDF
56 pages
Crack Your Databricks
100% (1)
Crack Your Databricks
103 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
10 pages
DataFrame 1
No ratings yet
DataFrame 1
3 pages
Sparktuning
No ratings yet
Sparktuning
10 pages
Top 200 Data Engineer Interview Question PDF
100% (4)
Top 200 Data Engineer Interview Question PDF
482 pages
Audi A6 f2 Faulty 0009
No ratings yet
Audi A6 f2 Faulty 0009
2 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Tle-9 Css q4 w3-4 m2 Lds Needs-And-wants RTP
No ratings yet
Tle-9 Css q4 w3-4 m2 Lds Needs-And-wants RTP
14 pages
PYSPARK Interview Questions
100% (3)
PYSPARK Interview Questions
126 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
100 Dataengineering Interview Questions TRRaveendra 1694654407
No ratings yet
100 Dataengineering Interview Questions TRRaveendra 1694654407
58 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
Databricks Interview3
No ratings yet
Databricks Interview3
7 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Advanced Data Engineering With Databricks
No ratings yet
Advanced Data Engineering With Databricks
154 pages
Azure Databricks
67% (6)
Azure Databricks
69 pages
Internship Report
No ratings yet
Internship Report
8 pages
Notebook PYTHON DATA SCIENCE
No ratings yet
Notebook PYTHON DATA SCIENCE
16 pages
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Azure Data Factory
77% (13)
Azure Data Factory
52 pages
Data Cleaning Cheat Sheet
No ratings yet
Data Cleaning Cheat Sheet
2 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Day 3 - Customizing ChatGPT
No ratings yet
Day 3 - Customizing ChatGPT
44 pages
Spark Cheat Sheet 1717838924
No ratings yet
Spark Cheat Sheet 1717838924
10 pages
END Semester Lab Exam EVEN 2025
No ratings yet
END Semester Lab Exam EVEN 2025
1 page
Huawei MV Oss-Global Case Stories1 PDF
No ratings yet
Huawei MV Oss-Global Case Stories1 PDF
40 pages
My Pyspark Practice Notes
100% (1)
My Pyspark Practice Notes
63 pages
DcTrack Installation
No ratings yet
DcTrack Installation
4 pages
Fall209 Spark SQL MC
No ratings yet
Fall209 Spark SQL MC
96 pages
C++ Programming Task
No ratings yet
C++ Programming Task
6 pages
Global Economic Crime Survey 2016
No ratings yet
Global Economic Crime Survey 2016
56 pages
Py Spark
No ratings yet
Py Spark
8 pages
EDA Python For Data Analsis
No ratings yet
EDA Python For Data Analsis
10 pages
Databricks Question 1668314325
No ratings yet
Databricks Question 1668314325
104 pages
Big Data Engineering - PySpark
100% (2)
Big Data Engineering - PySpark
120 pages
Azure Databricks Course Slide Deck
75% (4)
Azure Databricks Course Slide Deck
169 pages
Apache Spark - DataFrames and Spark SQL
100% (2)
Apache Spark - DataFrames and Spark SQL
146 pages
Assignment - 4 - Risk Response, Contingency and Control
No ratings yet
Assignment - 4 - Risk Response, Contingency and Control
4 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
Performance Tuning in Azure Databricks
100% (1)
Performance Tuning in Azure Databricks
124 pages
Spark Questions
No ratings yet
Spark Questions
7 pages
Working With CSV File in Databricks
No ratings yet
Working With CSV File in Databricks
4 pages
PySpark Entity Resolution
No ratings yet
PySpark Entity Resolution
5 pages
Pandas Cheatsheet Repost 1710006843
No ratings yet
Pandas Cheatsheet Repost 1710006843
8 pages
EDA - Session-1 - Basic Dataframe Opertaions-1
No ratings yet
EDA - Session-1 - Basic Dataframe Opertaions-1
7 pages
Tl-Wa850re Qig V6
No ratings yet
Tl-Wa850re Qig V6
2 pages
Azure Data Engineer
100% (4)
Azure Data Engineer
54 pages
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
0% (1)
Databricks Certified Developer For Apache Spark 3.0 Practice Tests 540 Questions
290 pages
PracticeExam DataEngineerAssociate
No ratings yet
PracticeExam DataEngineerAssociate
23 pages
Notes of Azure Data Bricks
No ratings yet
Notes of Azure Data Bricks
16 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
Presentation (Vehicle Insurance Policy)
No ratings yet
Presentation (Vehicle Insurance Policy)
10 pages
School Education and Sports Department
No ratings yet
School Education and Sports Department
1 page
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
Lecture14 Unix Advanced Commands
No ratings yet
Lecture14 Unix Advanced Commands
13 pages
C Handbook
No ratings yet
C Handbook
22 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Databricks Running Notes
No ratings yet
Databricks Running Notes
5 pages
.. Link Analysis Report: Site Information
No ratings yet
.. Link Analysis Report: Site Information
3 pages
Data Analysis With Databricks
75% (4)
Data Analysis With Databricks
80 pages
Student Guide Anthropogenic Climate Change
No ratings yet
Student Guide Anthropogenic Climate Change
9 pages
Pyspark Interview Code
100% (3)
Pyspark Interview Code
197 pages
Anand Techno Creations Company: Industrial Training Report
No ratings yet
Anand Techno Creations Company: Industrial Training Report
46 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Different Types of Sewing Machines
100% (1)
Different Types of Sewing Machines
11 pages
Gigabyte RX470 V1.1
No ratings yet
Gigabyte RX470 V1.1
29 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Pandas - PySpark Equivalents-1
No ratings yet
Pandas - PySpark Equivalents-1
3 pages
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
100% (7)
Etl With Azure Cookbook Practical Recipes For Building Modern Etl Solutions To Load and Transform Data From Any Source 1800203314 9781800203310
446 pages
Threat Intelligence Handbook
100% (6)
Threat Intelligence Handbook
108 pages
Levine Smume6 01
100% (1)
Levine Smume6 01
14 pages
Azure Databricks Interview
100% (2)
Azure Databricks Interview
35 pages
Bus Bus Bus
No ratings yet
Bus Bus Bus
4 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Data Engineering With Databricks
100% (2)
Data Engineering With Databricks
63 pages
Data Engineering Cookbook
89% (9)
Data Engineering Cookbook
88 pages
Architecting A Data Lake
100% (8)
Architecting A Data Lake
60 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet

Column Renaming in Pyspark

Uploaded by

Column Renaming in Pyspark

Uploaded by

Column Renaming in Pyspark:

#Replacing space with _

from pyspark.sql.functions import col

#Getting old columns

# Renaming all columns with new columns with Python list:

# Renaming all columns with Python dictionary

# Iterate through the mapping list and apply the renaming

# Display the DataFrame with renamed columns

# Check the number of columns

You might also like