100% found this document useful (2 votes)

986 views8 pages

Data Cleaning - Cheatsheet

The document provides a cheat sheet with 33 techniques for cleaning and processing data in Python. It covers topics like handling missing values, data type conversions, duplicate removal, text cleaning, categorical processing, outlier detection, feature engineering, and geospatial data processing. The goal is to serve as a reference for common data cleaning and preparation tasks in Python.

Uploaded by

avinash18015

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (2 votes)

986 views8 pages

Data Cleaning - Cheatsheet

Uploaded by

avinash18015

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

# [ Data Cleaning ] {CheatSheet}

1. Handling Missing Values

● Identify Missing Values: df.isnull().sum()

● Drop Rows with Missing Values: df.dropna()
● Drop Columns with Missing Values: df.dropna(axis=1)
● Fill Missing Values with a Constant: df.fillna(value)
● Fill Missing Values with Mean/Median/Mode: df.fillna(df.mean())
● Forward Fill Missing Values: df.ffill()
● Backward Fill Missing Values: df.bfill()
● Interpolate Missing Values: df.interpolate()

2. Data Type Conversions

● Convert Data Type of a Column: df['col'] = df['col'].astype('type')

● Convert to Numeric: pd.to_numeric(df['col'], errors='coerce')
● Convert to Datetime: pd.to_datetime(df['col'], errors='coerce')
● Convert to Categorical: df['col'] = df['col'].astype('category')

3. Dealing with Duplicates

● Identify Duplicate Rows: df.duplicated()

● Drop Duplicate Rows: df.drop_duplicates()
● Drop Duplicates in a Specific Column:
df.drop_duplicates(subset='col')
● Drop Duplicates Keeping the Last Occurrence:
df.drop_duplicates(keep='last')

4. Text Data Cleaning

● Trim Whitespace: df['col'] = df['col'].str.strip()

● Convert to Lowercase: df['col'] = df['col'].str.lower()
● Convert to Uppercase: df['col'] = df['col'].str.upper()
● Remove Specific Characters: df['col'] =
df['col'].str.replace('[character]', '')

By: Waleed Mousa

● Replace Text Based on Pattern (Regex): df['col'] =
df['col'].str.replace(r'[regex]', 'replacement')
● Split Text into Columns: df[['col1', 'col2']] =
df['col'].str.split(',', expand=True)

5. Categorical Data Processing

● One-Hot Encoding: pd.get_dummies(df['col'])

● Label Encoding: from sklearn.preprocessing import LabelEncoder;
encoder = LabelEncoder(); df['col'] =
encoder.fit_transform(df['col'])
● Map Categories to Values: df['col'] = df['col'].map({'cat1': 1,
'cat2': 2})
● Convert Category to Ordinal: df['col'] = df['col'].cat.codes

6. Normalization and Scaling

● Min-Max Scaling: from sklearn.preprocessing import MinMaxScaler;

scaler = MinMaxScaler(); df['col'] =
scaler.fit_transform(df[['col']])
● Standard Scaling (Z-Score): from sklearn.preprocessing import
StandardScaler; scaler = StandardScaler(); df['col'] =
scaler.fit_transform(df[['col']])
● Robust Scaling (Median, IQR): from sklearn.preprocessing import
RobustScaler; scaler = RobustScaler(); df['col'] =
scaler.fit_transform(df[['col']])

7. Handling Outliers

● Remove Outliers with IQR: Q1 = df['col'].quantile(0.25); Q3 =

df['col'].quantile(0.75); IQR = Q3 - Q1; df = df[~((df['col'] < (Q1
- 1.5 * IQR)) | (df['col'] > (Q3 + 1.5 * IQR)))]
● Remove Outliers with Z-Score: from scipy import stats; df =
df[np.abs(stats.zscore(df['col'])) < 3]
● Capping and Flooring Outliers: df['col'] =
df['col'].clip(lower=lower_bound, upper=upper_bound)

By: Waleed Mousa

8. Data Transformation

● Log Transformation: df['col'] = np.log(df['col'])

● Square Root Transformation: df['col'] = np.sqrt(df['col'])
● Power Transformation (Box-Cox, Yeo-Johnson): from
sklearn.preprocessing import PowerTransformer; pt =
PowerTransformer(method='yeo-johnson'); df['col'] =
pt.fit_transform(df[['col']])
● Binning Data: df['bin_col'] = pd.cut(df['col'], bins=[range])

9. Time Series Data Cleaning

● Set Datetime Index: df.set_index('datetime_col', inplace=True)

● Resample Time Series Data: df.resample('D').mean()
● Fill Missing Time Series Data: df.asfreq('D', method='ffill')
● Time-Based Filtering: df['year'] = df.index.year; df[df['year'] >
2000]

10. Data Frame Operations

● Merge Data Frames: pd.merge(df1, df2, on='key', how='inner')

● Concatenate Data Frames: pd.concat([df1, df2], axis=0)
● Join Data Frames: df1.join(df2, on='key')
● Pivot Table: df.pivot_table(index='row', columns='col',
values='value')

11. Column Operations

● Aggregate Functions (sum, mean, etc.):

df.groupby('group_col').agg({'agg_col': ['sum', 'mean']})
● Rolling Window Calculations: df['col'].rolling(window=5).mean()
● Expanding Window Calculations: df['col'].expanding().sum()

12. Handling Complex Data Types

● Explode List to Rows: df.explode('list_col')

● Work with JSON Columns: df['json_col'].apply(lambda x:
json.loads(x))

By: Waleed Mousa

● Parse Nested Structures: df['new_col'] =
df['struct_col'].apply(lambda x: x['nested_field'])

13. Dealing with Geospatial Data

● Handling Latitude and Longitude: df['distance'] = df.apply(lambda

x: calculate_distance(x['lat'], x['long']), axis=1)
● Geocoding Addresses: df['coordinates'] =
df['address'].apply(geocode_address)

14. Data Quality Checks

● Check for Data Consistency: assert df['col1'].notnull().all()

● Validate Data Ranges: df[(df['col'] >= low_val) & (df['col'] <=
high_val)]
● Assert Data Types: assert df['col'].dtype == 'expected_type'

15. Efficient Computations

● Use Vectorized Operations: df['col'] = df['col1'] + df['col2']

● Parallel Processing with Dask: import dask.dataframe as dd; ddf =
dd.from_pandas(df, npartitions=10); result = ddf.compute()

16. Working with Large Datasets

● Sampling Data for Quick Insights: sampled_df = df.sample(frac=0.1)

● Chunking Large Files for Processing: for chunk in
pd.read_csv('large_file.csv', chunksize=10000): process(chunk)

17. Feature Engineering

● Creating Polynomial Features: from sklearn.preprocessing import

PolynomialFeatures; poly = PolynomialFeatures(degree=2); df_poly =
poly.fit_transform(df[['col1', 'col2']])
● Encoding Cyclical Features (e.g., hour of day, day of week):
df['hour_sin'] = np.sin(df['hour'] * (2 * np.pi / 24))

By: Waleed Mousa

18. Data Imputation

● Impute Missing Values with KNN: from sklearn.impute import

KNNImputer; imputer = KNNImputer(n_neighbors=5); df['col'] =
imputer.fit_transform(df[['col']])
● Iterative Imputation: from sklearn.experimental import
enable_iterative_imputer; from sklearn.impute import
IterativeImputer; imputer = IterativeImputer(); df_imputed =
imputer.fit_transform(df)

19. Data Validation

● Using Pandera for Schema Validation: import pandera as pa; schema

= pa.DataFrameSchema({'col': pa.Column(pa.Int, nullable=False)});
schema.validate(df)
● Validating Range of Values: df['col'].between(low_value,
high_value)

20. Data Anonymization

● Hashing Sensitive Data: df['hashed_col'] =

df['sensitive_col'].apply(lambda x: hash_function(x))
● Randomized Noise Addition: df['col'] = df['col'] +
np.random.normal(0, 1, df.shape[0])
● Masking Values: df['col'] = df['col'].apply(lambda x: x[:3] +
'***')

21. Data Integration and Alignment

● Aligning Columns from Different DataFrames: df1, df2 =

df1.align(df2, join='inner', axis=1)
● Combining Data from Multiple Sources: df_combined = pd.merge(df1,
df2, on='common_key')

22. String Operations and Regular Expressions

● Extracting Substrings with Regex: df['extracted'] =

df['text_col'].str.extract(r'(pattern)')

By: Waleed Mousa

● Removing Unwanted Characters: df['clean_text'] =
df['text'].str.replace('[^\w\s]', '', regex=True)

23. Handling Time and Date

● Extracting Date Components: df['year'] = df['date_col'].dt.year

● Calculating Date Differences: df['days_diff'] = (df['date_col1'] -
df['date_col2']).dt.days
● Date Range Generation for Time Series:
pd.date_range(start='2020-01-01', end='2020-12-31', freq='D')

24. Working with Indexes

● Resetting Index: df.reset_index(drop=True, inplace=True)

● Setting a Column as Index: df.set_index('col', inplace=True)
● Reindexing with a New Index: df.reindex(new_index)

25. Data Compression and Memory Management

● Reducing Memory Usage by Changing Data Types: df['int_col'] =

df['int_col'].astype('int32')
● Compressing DataFrame using Categories: df['cat_col'] =
df['cat_col'].astype('category')

26. Handling Large and Sparse Data

● Working with Sparse Data Structures: from scipy.sparse import

csr_matrix; sparse_matrix = csr_matrix(df)
● Efficiently Storing Large Data with HDF5: df.to_hdf('data.h5',
key='df', mode='w')

27. Data Randomization

● Shuffling Rows Randomly: df =

df.sample(frac=1).reset_index(drop=True)
● Generating Random Samples: df_sample = df.sample(n=100)

By: Waleed Mousa

28. Feature Extraction

● Extracting Features from Text: from sklearn.feature_extraction.text

import CountVectorizer; vectorizer = CountVectorizer(); X =
vectorizer.fit_transform(df['text_col'])
● Dimensionality Reduction (e.g., PCA): from sklearn.decomposition
import PCA; pca = PCA(n_components=2); df_reduced =
pca.fit_transform(df)

29. Combining Data

● Appending Rows of Another DataFrame: df = df.append(other_df)

● Concatenating DataFrames Vertically or Horizontally:
pd.concat([df1, df2], axis=0)

30. Data Cleaning Automation

● Using Clean Function from CleanPandas: from cleanpandas import

clean; df = clean(df)
● Automated Data Cleaning with DataCleaner: from datacleaner import
autoclean; df = autoclean(df)

31. Handling Numerical Data

● Rounding Numeric Columns: df['col'] = df['col'].round(decimals=2)

● Discretizing Continuous Variables: df['binned_col'] =
pd.qcut(df['col'], q=4)

32. Geospatial Data Processing

● Coordinate Transformation: df['x'], df['y'] =

zip(*df['coordinates'].apply(transform_coord))
● Distance Calculation Between Coordinates: df['distance'] =
df.apply(lambda row: calc_distance(row['lat1'], row['lon1'],
row['lat2'], row['lon2']), axis=1)

33. Multilingual and Locale-Specific Operations

By: Waleed Mousa

● Converting Currencies or Units: df['converted_col'] =
df['amount'].apply(convert_currency)
● Locale-Specific Sorting: df.sort_values(by='name', key=lambda col:
col.str.normalize('NFKD'))

34. Advanced DataFrame Manipulations

● Pivoting and Unpivoting Data: df.pivot(index='date',

columns='variable', values='value')
● Stacking and Unstacking Data: df.stack(); df.unstack()

35. Custom Cleaning Functions

● Applying Custom Cleaning Functions: df['clean_col'] =

df['col'].apply(custom_clean_function)
● Using Lambda Functions for Quick Cleaning: df['processed_col'] =
df['col'].apply(lambda x: x.strip().lower())

By: Waleed Mousa

Power BI Capstone Projects
No ratings yet
Power BI Capstone Projects
19 pages
Data Cleaning in Power BI
100% (1)
Data Cleaning in Power BI
9 pages
Hadoop Interview Questions New
No ratings yet
Hadoop Interview Questions New
9 pages
LaBorda ENG
No ratings yet
LaBorda ENG
20 pages
Codes Us
No ratings yet
Codes Us
56 pages
Power BI Licenses EN
No ratings yet
Power BI Licenses EN
1 page
SQL For Data Analysis
100% (2)
SQL For Data Analysis
63 pages
Module 08 Fixture I
100% (1)
Module 08 Fixture I
34 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Data Wrangling
No ratings yet
Data Wrangling
30 pages
Process Data From Dirty To Clean
No ratings yet
Process Data From Dirty To Clean
30 pages
Basic SQL Training
100% (1)
Basic SQL Training
90 pages
Practical Data Science
No ratings yet
Practical Data Science
121 pages
SQL Interview Questions For A Data Engineer
No ratings yet
SQL Interview Questions For A Data Engineer
11 pages
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
No ratings yet
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
8 pages
Day64 - Pandas Interview Questions
No ratings yet
Day64 - Pandas Interview Questions
5 pages
Data Visualization Tools Tableau: Presented by Submitted To
100% (1)
Data Visualization Tools Tableau: Presented by Submitted To
15 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Power BI 5 Mini Projects
No ratings yet
Power BI 5 Mini Projects
9 pages
Tableau Charts
100% (1)
Tableau Charts
25 pages
Visualization in Power BI
No ratings yet
Visualization in Power BI
30 pages
10 DAX Functions That I Regularly Use
No ratings yet
10 DAX Functions That I Regularly Use
13 pages
Powerbi Notes
No ratings yet
Powerbi Notes
1 page
SQL Notebook by Rishabh
No ratings yet
SQL Notebook by Rishabh
101 pages
Mastering SQL Window Functions - 01
No ratings yet
Mastering SQL Window Functions - 01
39 pages
13 Work With AI Visuals in Power BI
No ratings yet
13 Work With AI Visuals in Power BI
48 pages
Master's in With IIT Certification: Python & Data Science
No ratings yet
Master's in With IIT Certification: Python & Data Science
6 pages
Interview Question - Power BI-Part5
No ratings yet
Interview Question - Power BI-Part5
4 pages
Chapter 2 - NumPy and Pandas
No ratings yet
Chapter 2 - NumPy and Pandas
26 pages
Data Cleaning & Preparation
100% (2)
Data Cleaning & Preparation
2 pages
Power BI Cheat Sheet
No ratings yet
Power BI Cheat Sheet
10 pages
Power BI Interview Questions 1657728725
100% (1)
Power BI Interview Questions 1657728725
41 pages
Unit 3 - Data Visualization
No ratings yet
Unit 3 - Data Visualization
64 pages
Python Technical Interviews Questions
100% (1)
Python Technical Interviews Questions
15 pages
Data Analysis With Power BI SQL
100% (1)
Data Analysis With Power BI SQL
14 pages
Table Manipulation DAX Functions
No ratings yet
Table Manipulation DAX Functions
22 pages
Data Science With Python, Power BI and Tableau
100% (1)
Data Science With Python, Power BI and Tableau
3 pages
Data Modeling in Power BI
100% (1)
Data Modeling in Power BI
15 pages
What Is M, Power Query and DAX?
No ratings yet
What Is M, Power Query and DAX?
18 pages
Python Variables Cheatsheet
No ratings yet
Python Variables Cheatsheet
2 pages
New Batches Info: Quality Thought Ai-Data Science Diploma
No ratings yet
New Batches Info: Quality Thought Ai-Data Science Diploma
16 pages
Crime Analysis
No ratings yet
Crime Analysis
13 pages
Data Analytics Course
No ratings yet
Data Analytics Course
19 pages
Answers. The Questions Presented in This Blog Are Collected Based On The Opinion of
No ratings yet
Answers. The Questions Presented in This Blog Are Collected Based On The Opinion of
39 pages
Data Analyst Masters Program
No ratings yet
Data Analyst Masters Program
34 pages
Dax Zero To Developer
100% (1)
Dax Zero To Developer
71 pages
RDBMS Concepts: Database
100% (1)
RDBMS Concepts: Database
75 pages
Become A Data Analyst in One Month
No ratings yet
Become A Data Analyst in One Month
1 page
Power Bi Session Notes
No ratings yet
Power Bi Session Notes
8 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Data Engineering
No ratings yet
Data Engineering
92 pages
STAT 451: Intro To Machine Learning Lecture Notes
100% (1)
STAT 451: Intro To Machine Learning Lecture Notes
17 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Power BI Notes
No ratings yet
Power BI Notes
2 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
Doing-The-Job-British-English-Student
No ratings yet
Doing-The-Job-British-English-Student
8 pages
SSP 406 DCC Adaptive Chassis Control Design and Function
No ratings yet
SSP 406 DCC Adaptive Chassis Control Design and Function
32 pages
Acknowledgement Thesis Sample Friends
100% (2)
Acknowledgement Thesis Sample Friends
5 pages
Shouding: 1Mhz, 2A Step-Up Current Mode PWM Converter
No ratings yet
Shouding: 1Mhz, 2A Step-Up Current Mode PWM Converter
10 pages
Secure Data Exchange Via HSM
No ratings yet
Secure Data Exchange Via HSM
3 pages
DaVinci Resolve 19 488 610
No ratings yet
DaVinci Resolve 19 488 610
123 pages
1016
No ratings yet
1016
46 pages
Sunalign: Agri Tech
No ratings yet
Sunalign: Agri Tech
18 pages
01 23 ADCB Fire Pipes Egy Gulf Rev.01
No ratings yet
01 23 ADCB Fire Pipes Egy Gulf Rev.01
3 pages
Unit 1 Rates of Change Assessment of Learning 1 PDF
No ratings yet
Unit 1 Rates of Change Assessment of Learning 1 PDF
11 pages
Lab Manual JAVA
No ratings yet
Lab Manual JAVA
133 pages
Lingeswaran Vs Thirunagalingam
No ratings yet
Lingeswaran Vs Thirunagalingam
5 pages
ATC-SEAOC Training - Built To Resist Earthquakes - Contents
No ratings yet
ATC-SEAOC Training - Built To Resist Earthquakes - Contents
2 pages
Module 12
No ratings yet
Module 12
17 pages
Engineering Standard Draw FlowChart
No ratings yet
Engineering Standard Draw FlowChart
22 pages
Internship at D'Decor
No ratings yet
Internship at D'Decor
38 pages
SQM-Unit1 and Unit 2
No ratings yet
SQM-Unit1 and Unit 2
103 pages
Financial Statement Analysis: Abid Hussain
No ratings yet
Financial Statement Analysis: Abid Hussain
14 pages
Police Officer CV Examples Uk
100% (2)
Police Officer CV Examples Uk
7 pages
Polypac (All Grades) Sds
No ratings yet
Polypac (All Grades) Sds
10 pages
Design of Sewage Treatment Plants Course
100% (2)
Design of Sewage Treatment Plants Course
56 pages
5a.seismic Loading Criteria
No ratings yet
5a.seismic Loading Criteria
3 pages
Case Study Presentation Two Tough Calls A Harvard Business School
No ratings yet
Case Study Presentation Two Tough Calls A Harvard Business School
10 pages
Docslide - Us New Database1
No ratings yet
Docslide - Us New Database1
274 pages
Pre Board I SST
No ratings yet
Pre Board I SST
4 pages
Shirdi Room 2
No ratings yet
Shirdi Room 2
2 pages
MD - Asif Parvez Sarker
No ratings yet
MD - Asif Parvez Sarker
2 pages

Data Cleaning - Cheatsheet

Uploaded by

Data Cleaning - Cheatsheet

Uploaded by

# [ Data Cleaning ] {CheatSheet}

1. Handling Missing Values

● Identify Missing Values: df.isnull().sum()

2. Data Type Conversions

● Convert Data Type of a Column: df['col'] = df['col'].astype('type')

3. Dealing with Duplicates

● Identify Duplicate Rows: df.duplicated()

4. Text Data Cleaning

● Trim Whitespace: df['col'] = df['col'].str.strip()

By: Waleed Mousa

5. Categorical Data Processing

● One-Hot Encoding: pd.get_dummies(df['col'])

6. Normalization and Scaling

● Min-Max Scaling: from sklearn.preprocessing import MinMaxScaler;

● Remove Outliers with IQR: Q1 = df['col'].quantile(0.25); Q3 =

By: Waleed Mousa

● Log Transformation: df['col'] = np.log(df['col'])

9. Time Series Data Cleaning

● Set Datetime Index: df.set_index('datetime_col', inplace=True)

10. Data Frame Operations

● Merge Data Frames: pd.merge(df1, df2, on='key', how='inner')

11. Column Operations

● Aggregate Functions (sum, mean, etc.):

12. Handling Complex Data Types

● Explode List to Rows: df.explode('list_col')

By: Waleed Mousa

13. Dealing with Geospatial Data

● Handling Latitude and Longitude: df['distance'] = df.apply(lambda

14. Data Quality Checks

● Check for Data Consistency: assert df['col1'].notnull().all()

15. Efficient Computations

● Use Vectorized Operations: df['col'] = df['col1'] + df['col2']

16. Working with Large Datasets

● Sampling Data for Quick Insights: sampled_df = df.sample(frac=0.1)

17. Feature Engineering

● Creating Polynomial Features: from sklearn.preprocessing import

By: Waleed Mousa

● Impute Missing Values with KNN: from sklearn.impute import

19. Data Validation

● Using Pandera for Schema Validation: import pandera as pa; schema

20. Data Anonymization

● Hashing Sensitive Data: df['hashed_col'] =

21. Data Integration and Alignment

● Aligning Columns from Different DataFrames: df1, df2 =

22. String Operations and Regular Expressions

● Extracting Substrings with Regex: df['extracted'] =

By: Waleed Mousa

23. Handling Time and Date

● Extracting Date Components: df['year'] = df['date_col'].dt.year

24. Working with Indexes

● Resetting Index: df.reset_index(drop=True, inplace=True)

25. Data Compression and Memory Management

● Reducing Memory Usage by Changing Data Types: df['int_col'] =

26. Handling Large and Sparse Data

● Working with Sparse Data Structures: from scipy.sparse import

27. Data Randomization

● Shuffling Rows Randomly: df =

By: Waleed Mousa

● Extracting Features from Text: from sklearn.feature_extraction.text

29. Combining Data

● Appending Rows of Another DataFrame: df = df.append(other_df)

30. Data Cleaning Automation

● Using Clean Function from CleanPandas: from cleanpandas import

31. Handling Numerical Data

● Rounding Numeric Columns: df['col'] = df['col'].round(decimals=2)

32. Geospatial Data Processing

● Coordinate Transformation: df['x'], df['y'] =

33. Multilingual and Locale-Specific Operations

By: Waleed Mousa

34. Advanced DataFrame Manipulations

● Pivoting and Unpivoting Data: df.pivot(index='date',

35. Custom Cleaning Functions

● Applying Custom Cleaning Functions: df['clean_col'] =

By: Waleed Mousa

You might also like