0% found this document useful (0 votes)

169 views

Data Cleaning With Python Cheat Sheet Anello

This cheat sheet provides techniques for cleaning data in Python including: 1) Dealing with missing data through methods like dropna(), fillna(), and interpolation 2) Finding and dropping duplicates 3) Detecting outliers through descriptive statistics, boxplots, and outlier removal thresholds 4) Encoding categorical features using techniques like one-hot and label encoding 5) Transforming data through standardization, rescaling, and robust scaling.

Uploaded by

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

169 views

Data Cleaning With Python Cheat Sheet Anello

Uploaded by

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Data Cleaning Cheat Sheet in

Python - By Eugenia Anello

Table of Contents:
1. Dealing with Missing Data
2. Dealing with Duplicates
3. Outlier Detection
4. Encode Categorical Features
5. Transformation
1. Dealing with Missing data
Check missing data in each column of the dataset

df.isnull().sum()

Delete missing data

df.dropna(how='all')

Drop columns that have missing values

df.dropna(how='columns')

Drop specific columns that have missing values

df.dropna(subset=[‘municipal,'city'])

Replace missing values with Mean/Median/Mode

df[‘price’].fillna(df[‘price’].mean())
df[‘age’].fillna(df[‘age’].median())
df[‘type_building’].fillna(df[‘type_building’].mode())

Forward Fill - Fill missing values with values before them

df.fillna(method='ffill')

Backward Fill - FIll missing values with values after them

df.fillna(method='bfill')

Fill missing values using the interpolation method

df['stock_price'] =
df['stock_price'].interpolate(method='polynomial',order=2)

2. Dealing with Duplicates

Check if there are duplicates

df.duplicated().sum()
Extract duplicate rows from the dataframe

df[df.duplicated()]

Drop duplicates

df.drop_duplicates()

Aggregate data

df.groupby('id').agg({'price':'mean'}).reset_index()

3. Outlier detection
Detect range of values for each column of the dataset

df.describe([x*0.1 for x in range(10)])

Display boxplot to display the distribution of a column

import seaborn as sns

sns.boxplot(x=df['age'])

Display histogram to display the distribution of a column

sns.displot(data=df[‘column1’])

Remove outliers

df = df[df['age']<df[‘age'].quantile(0.9)]

Outlier detection with machine learning models, like Isolation Forest

if = IsolationForest(random_state=42)
if.fit(X)
y_pred = if.predict(X)
4. Encode categorical features
Apply one-hot-encoding to a categorical column

from sklearn.prepreprocessing import OneHotEncoder

ohe = OneHotEncoder()
encoded_data =
pd.DataFrame(ohe.fit_transform(df[[‘type_building’,’color’]]).toarray())
new_df = df.join(encoded_data)

Apple label-encoding to a categorical column

from sklearn.prepreprocessing import LabelEncoder

le = LabelEncoder()
df[‘column1’] = le.fit_transform(df[‘price_levels’])

5. Transformation
Standardize features by removing the mean and scaling to unit variance

from sklearn.processing import StandardScaler

X_std = StandardScaler().transform(X)

Rescale features into the range [0,1]

from sklearn.processing import MinMaxScaler

X_mms = MinMaxScaler().transform(X)

Scale features exploiting statistics that are robust to outliers

from sklearn.processing import RobustScaler
X_rs = RobustScaler().transform(X)

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Streetmacro 6701 Spec Sheet
100% (5)
Streetmacro 6701 Spec Sheet
32 pages
EDA Cheat Sheet - Exploratory Data Analysis
No ratings yet
EDA Cheat Sheet - Exploratory Data Analysis
2 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
DataCleaninginML
No ratings yet
DataCleaninginML
15 pages
7 Cleaning data w3s.............................................
No ratings yet
7 Cleaning data w3s.............................................
2 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
No ratings yet
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
12 pages
Data Cleaning and Preprocessing Techniques
No ratings yet
Data Cleaning and Preprocessing Techniques
13 pages
6.Data Cleaning
No ratings yet
6.Data Cleaning
20 pages
task2-eda-cleaning
No ratings yet
task2-eda-cleaning
33 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Data Cleaning in Machine Learning With Numerical Example
No ratings yet
Data Cleaning in Machine Learning With Numerical Example
3 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Lec4 SWN MC
No ratings yet
Lec4 SWN MC
45 pages
Code explanation for date types
No ratings yet
Code explanation for date types
8 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
47 pages
Analyzing Data Using Python - Cleaning and Analyzing Data in Pandas
No ratings yet
Analyzing Data Using Python - Cleaning and Analyzing Data in Pandas
81 pages
CheatSheet
No ratings yet
CheatSheet
15 pages
EDA (2)
No ratings yet
EDA (2)
7 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
lecture-week5
No ratings yet
lecture-week5
72 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
Document (2)
No ratings yet
Document (2)
29 pages
Pandas-1
No ratings yet
Pandas-1
13 pages
python_cheatsheet
No ratings yet
python_cheatsheet
3 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
pandas_merged
No ratings yet
pandas_merged
2 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
24 pages
Kenny-230722-Data Cleaning With Python and Pandas - Detecting Missing Values
No ratings yet
Kenny-230722-Data Cleaning With Python and Pandas - Detecting Missing Values
13 pages
EcommerceAnalysis 1680541297
No ratings yet
EcommerceAnalysis 1680541297
11 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
9 pages
Exp 2 Data Preprocessing_ Cleaning the Dataset Obtained from the UCI ML Repository
No ratings yet
Exp 2 Data Preprocessing_ Cleaning the Dataset Obtained from the UCI ML Repository
9 pages
Chapter1 PDF
No ratings yet
Chapter1 PDF
46 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
haha1
No ratings yet
haha1
2 pages
lec 4
No ratings yet
lec 4
9 pages
11_20241108_DataAnalysis_AppliExamples
No ratings yet
11_20241108_DataAnalysis_AppliExamples
36 pages
DAY-5 AI CODE
No ratings yet
DAY-5 AI CODE
1 page
Chapter 3
No ratings yet
Chapter 3
47 pages
Python Libraries Cheat Sheets
No ratings yet
Python Libraries Cheat Sheets
6 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Data Science Project
No ratings yet
Data Science Project
7 pages
Pandas Cheat Sheet
100% (2)
Pandas Cheat Sheet
6 pages
Data Cleaning
No ratings yet
Data Cleaning
119 pages
EXP-3
No ratings yet
EXP-3
10 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
CAMBRIDGE As LEVEL-PROB & STAT 1 May-June 2017 - 2021 PAST PAPERS BOOKLET
No ratings yet
CAMBRIDGE As LEVEL-PROB & STAT 1 May-June 2017 - 2021 PAST PAPERS BOOKLET
205 pages
Silo - Tips - Trader S Checklist Steps To Trading Success
No ratings yet
Silo - Tips - Trader S Checklist Steps To Trading Success
17 pages
Element Entry Creation Using HDL
No ratings yet
Element Entry Creation Using HDL
4 pages
pRRU5921 Description
No ratings yet
pRRU5921 Description
3 pages
Bash Chapter 10 Practice Questions Linux Handbook
No ratings yet
Bash Chapter 10 Practice Questions Linux Handbook
4 pages
Arm Exception Levels
No ratings yet
Arm Exception Levels
8 pages
Osteoporosis Assessment Update What's New in 2005
No ratings yet
Osteoporosis Assessment Update What's New in 2005
98 pages
Casio DV-220 / JV-220 / MV210 User's Guide
No ratings yet
Casio DV-220 / JV-220 / MV210 User's Guide
2 pages
Datasheet
No ratings yet
Datasheet
9 pages
IBM z16
No ratings yet
IBM z16
6 pages
(Ebook) Android Programming in Kotlin: Starting With An App by James, Mike ISBN 9781871962543, 1871962544 pdf download
100% (1)
(Ebook) Android Programming in Kotlin: Starting With An App by James, Mike ISBN 9781871962543, 1871962544 pdf download
59 pages
1884994
No ratings yet
1884994
193 pages
Product Manager - Kolkata-Sirius Digitech
No ratings yet
Product Manager - Kolkata-Sirius Digitech
3 pages
Artificial Intelligence-Week4
No ratings yet
Artificial Intelligence-Week4
4 pages
SQL
No ratings yet
SQL
2 pages
Simit Enus En-Us
No ratings yet
Simit Enus En-Us
1,004 pages
Mouzenidis Reservation Service
No ratings yet
Mouzenidis Reservation Service
10 pages
C/C++ Code and Arduino Code: Sistemas Embebidos Oscar Acevedo, PHD
No ratings yet
C/C++ Code and Arduino Code: Sistemas Embebidos Oscar Acevedo, PHD
7 pages
Immediate download Azure Data Factory Cookbook: Data engineers guide to build and manage ETL and ELT pipelines with data integration , 2nd Edition Dmitry Foshin ebooks 2024
100% (1)
Immediate download Azure Data Factory Cookbook: Data engineers guide to build and manage ETL and ELT pipelines with data integration , 2nd Edition Dmitry Foshin ebooks 2024
55 pages
Mindview Suite Subscription Tos En.
No ratings yet
Mindview Suite Subscription Tos En.
9 pages
Manual Módulo Acromag
No ratings yet
Manual Módulo Acromag
40 pages
Log Cat 1746696980006
No ratings yet
Log Cat 1746696980006
55 pages
S AV6 Toshiba Elenota - PL 1
No ratings yet
S AV6 Toshiba Elenota - PL 1
3 pages
CENCPP - Beyond-Birthday-Secure Encryption From Public Permutations
No ratings yet
CENCPP - Beyond-Birthday-Secure Encryption From Public Permutations
38 pages
MEKBORG Och STEEL PSALM Rules Reference
No ratings yet
MEKBORG Och STEEL PSALM Rules Reference
1 page
Data Science
100% (1)
Data Science
14 pages
A Review of Arduinobased Hand Gesture Controlled Robot Using IoT
No ratings yet
A Review of Arduinobased Hand Gesture Controlled Robot Using IoT
4 pages
Aquabplus/Aquabplus B2/ Aquabplus HF Settings Report: Chapter 12: Appendix
No ratings yet
Aquabplus/Aquabplus B2/ Aquabplus HF Settings Report: Chapter 12: Appendix
2 pages
Office Management Tools (16rsbe7:2) : Sengamalathayaar Educational Trust Women'S College
No ratings yet
Office Management Tools (16rsbe7:2) : Sengamalathayaar Educational Trust Women'S College
15 pages

Data Cleaning With Python Cheat Sheet Anello

Uploaded by

Data Cleaning With Python Cheat Sheet Anello

Uploaded by

Data Cleaning Cheat Sheet in

Python - By Eugenia Anello

Delete missing data

Drop columns that have missing values

Drop specific columns that have missing values

Replace missing values with Mean/Median/Mode

Forward Fill - Fill missing values with values before them

Backward Fill - FIll missing values with values after them

Fill missing values using the interpolation method

2. Dealing with Duplicates

df.describe([x*0.1 for x in range(10)])

Display boxplot to display the distribution of a column

import seaborn as sns

Display histogram to display the distribution of a column

Outlier detection with machine learning models, like Isolation Forest

from sklearn.prepreprocessing import OneHotEncoder

Apple label-encoding to a categorical column

from sklearn.prepreprocessing import LabelEncoder

from sklearn.processing import StandardScaler

Rescale features into the range [0,1]

from sklearn.processing import MinMaxScaler

Scale features exploiting statistics that are robust to outliers

You might also like