0% found this document useful (0 votes)

14 views9 pages

Data Cleaning and Preparation

Uploaded by

Rane

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views9 pages

Data Cleaning and Preparation

Uploaded by

Rane

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Data Cleaning and

Preparation
using Python

swatikulkarni24/
Data cleaning and preparation are crucial
steps in the data analysis process. They
involve transforming raw data into a clean,
structured format that is suitable for
analysis.

Python provides several libraries and tools

that can be used for data cleaning and
preparation tasks.

Let's explore some commonly used

techniques and libraries.
1. Importing Libraries:
Start by importing the necessary libraries,
such as pandas and NumPy, which are
widely used for data manipulation and
analysis in Python.
import pandas as pd
import numpy as np

swatikulkarni24/
2. Loading Data:
Load your data into a pandas DataFrame,
which provides a powerful data structure
for working with structured data.

df = pd.read_csv('data.csv')
Replace 'data.csv' with your file path or URL

3. Removing Duplicates:
Duplicates can skew analysis results, so it's
important to identify and remove them if
necessary.

df.drop_duplicates(inplace=True)

swatikulkarni24/
4. Handling Missing Values:
Missing values are common in datasets and
can cause issues during analysis. You can
handle missing values in various ways, such
as dropping rows or columns with missing
values, imputing missing values with mean
or median, or using more sophisticated
techniques.
Drop rows with missing values
df.dropna(inplace=True)

Drops columns with any missing value

df.dropna(axis=1)

Impute missing values with mean

df.fillna(df.mean(), inplace=True)

Interpolates missing values using various

methods
df.interpolate()
swatikulkarni24/
5. Handling Outliers:
Outliers are extreme values that deviate
significantly from the majority of the data.
Depending on your analysis, you may
choose to remove or transform outliers.
First quartile
Q1 = df['column'].quantile(0.25)
Third quartile
Q3 = df['column'].quantile(0.75)
Interquartile range
IQR = Q3 - Q1
Remove outliers
df = df[~((df['column'] < (Q1 - 1.5 * IQR)) |
(df['column'] > (Q3 + 1.5 * IQR)))]
Or
Remove outliers using z-score
from scipy import stats
z_scores = np.abs(stats.zscore(df['column_name']))
threshold = 3
df = df[(z_scores < threshold)]

swatikulkarni24/
6. Handling Inconsistent Data:
Deal with inconsistencies in your data, such as
inconsistent capitalization or spelling errors.
Convert text to lowercase
df['column'].str.lower()
Replace specific values
df['column'].replace({'old_value': 'new_value'},
inplace=True)
7. Text Cleaning and Regular Expressions:
Clean text data using regular expressions
(regex) to remove special characters, and
unwanted symbols, or extract specific
patterns. import re
Remove non-alphabetic characters
df['text_column'] =
df['text_column'].apply(lambda x: re.sub('[^a-
zA-Z]', ' ', x))

swatikulkarni24/
8. Correcting Data Types:
Ensure that columns have the correct data
types for analysis
Convert a column to an integer type
df['column'] = df['column'].astype('int')

9. Handling Date and Time:

If your data includes date or time
information, convert them to the appropriate
data types and extract useful features.

Convert to DateTime format

df['date_column'] =
pd.to_datetime(df['date_column'])
Extract year
df['year'] = df['date_column'].dt.year
Extract month
df['month'] = df['date_column'].dt.month

swatikulkarni24/
10. Feature Engineering:
Feature engineering involves creating new
features or modifying existing ones to
improve the predictive power of the
dataset.
Create a new feature
df['new_feature'] = df['feature1'] + df['feature2']

Binning numerical values into categories

df['category'] = pd.cut(df['numerical_feature'],
bins=3, labels=['low', 'medium', 'high'])

These are just some common techniques

for data cleaning in Python. The specific
steps you need to perform may vary
depending on your dataset and the cleaning
requirements.

swatikulkarni24/
Follow me for more such contents
https://www.linkedin.com/in/swatikulkarni24/

swatikulkarni24/

Parasite SEO Secrets Revealed by Charles Floate
100% (1)
Parasite SEO Secrets Revealed by Charles Floate
73 pages
EF4e Uppint Filetest 5a
100% (6)
EF4e Uppint Filetest 5a
7 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Introduction-to-TikTok-Shop-Affiliate-Program 2
No ratings yet
Introduction-to-TikTok-Shop-Affiliate-Program 2
10 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
29 pages
Gauranga Das - The Art of Focus (2021, Penguin Random House India Private Limited) - Libgen - Li
67% (3)
Gauranga Das - The Art of Focus (2021, Penguin Random House India Private Limited) - Libgen - Li
253 pages
Cambridge International Exam Fees Lists May June 2024
No ratings yet
Cambridge International Exam Fees Lists May June 2024
4 pages
Microcontroller 8051
No ratings yet
Microcontroller 8051
72 pages
Task: For This Assessment, Students Are Expected To Write A Weekly Journal Over The
No ratings yet
Task: For This Assessment, Students Are Expected To Write A Weekly Journal Over The
4 pages
MSC Circ 0913
No ratings yet
MSC Circ 0913
11 pages
System Partitioning
No ratings yet
System Partitioning
3 pages
BUF16821 DC-DC Ic
100% (1)
BUF16821 DC-DC Ic
31 pages
Letter of Invitation SGC
No ratings yet
Letter of Invitation SGC
7 pages
Data Wrangling
No ratings yet
Data Wrangling
15 pages
Keyboard Layout Selection Procedure
No ratings yet
Keyboard Layout Selection Procedure
8 pages
Spe 201216 Ms Minifrac
No ratings yet
Spe 201216 Ms Minifrac
12 pages
Plucker and Callahan 2014
No ratings yet
Plucker and Callahan 2014
17 pages
Max 15.0V at 12V Max 31.5V at 24V Max 61.0V at 48V: Main Features
No ratings yet
Max 15.0V at 12V Max 31.5V at 24V Max 61.0V at 48V: Main Features
1 page
Analog Electronic Circuits Lab Manual
No ratings yet
Analog Electronic Circuits Lab Manual
99 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
Class 37 Exception Handeling 2
No ratings yet
Class 37 Exception Handeling 2
3 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
Assvid
No ratings yet
Assvid
13 pages
Vikramaditya 2
No ratings yet
Vikramaditya 2
1 page
Prof K V Subbaraju
No ratings yet
Prof K V Subbaraju
26 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Brochure 10 Month Program On Applied DS and ML Analyttica LEAPS
No ratings yet
Brochure 10 Month Program On Applied DS and ML Analyttica LEAPS
53 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Unit 8 Year 6 (w21)
No ratings yet
Unit 8 Year 6 (w21)
23 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Data Analysis by Using Python
No ratings yet
Data Analysis by Using Python
15 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
Premier League Data - Activity Questions: Part A: Sorting and Filtering
No ratings yet
Premier League Data - Activity Questions: Part A: Sorting and Filtering
3 pages
An Extensive Step by Step Guide To Exploratory Data Analysis
No ratings yet
An Extensive Step by Step Guide To Exploratory Data Analysis
26 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Contribution of Renewable Energy On Total Energy Capacity
No ratings yet
Contribution of Renewable Energy On Total Energy Capacity
6 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
Inner Ring
No ratings yet
Inner Ring
16 pages
Final Year Projects List
No ratings yet
Final Year Projects List
4 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Machine Learning Project Bootcamp
No ratings yet
Machine Learning Project Bootcamp
19 pages
Top 10 Python Tricks
No ratings yet
Top 10 Python Tricks
5 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Comprehensive EDA Python Guide
No ratings yet
Comprehensive EDA Python Guide
13 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
Data Cleaning 1728415892
No ratings yet
Data Cleaning 1728415892
10 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
Kel 13 Jurnal Ips
No ratings yet
Kel 13 Jurnal Ips
10 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
24th Edition of The Developer Nation Surveypdf
No ratings yet
24th Edition of The Developer Nation Surveypdf
4 pages
Word 4
No ratings yet
Word 4
1 page
Rest Assured Interview Question Bank
100% (1)
Rest Assured Interview Question Bank
10 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Laporan Daftar Pengguna GoodEva SmartSafety - Batch 1
No ratings yet
Laporan Daftar Pengguna GoodEva SmartSafety - Batch 1
3 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Document
No ratings yet
Document
29 pages
Social Science Sec 2024-25
No ratings yet
Social Science Sec 2024-25
65 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Literature Review On Iron and Steel Industry
100% (2)
Literature Review On Iron and Steel Industry
6 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Chemistry Quiz - General
No ratings yet
Chemistry Quiz - General
3 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
? Data Cleaning 101
No ratings yet
? Data Cleaning 101
17 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
11 20241108 DataAnalysis AppliExamples
No ratings yet
11 20241108 DataAnalysis AppliExamples
36 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Sma Exp 3
No ratings yet
Sma Exp 3
7 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Chapter3 DS
No ratings yet
Chapter3 DS
17 pages
7-10 Years Experience
No ratings yet
7-10 Years Experience
4 pages
क्लार्क GML excel file
No ratings yet
क्लार्क GML excel file
4,951 pages
Fresher Resume
No ratings yet
Fresher Resume
2 pages
Mark Scheme
No ratings yet
Mark Scheme
4 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
III Unit
No ratings yet
III Unit
4 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Data Wrangling
No ratings yet
Data Wrangling
6 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
MAQ TNC AC Test
No ratings yet
MAQ TNC AC Test
1 page
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Topic 2 Linear Programming
No ratings yet
Topic 2 Linear Programming
64 pages
Module 3
No ratings yet
Module 3
20 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
Datascience
No ratings yet
Datascience
26 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Revision Questions 12
No ratings yet
Revision Questions 12
1 page
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet

Data Cleaning and Preparation

Uploaded by

Data Cleaning and Preparation

Uploaded by

Data Cleaning and

Python provides several libraries and tools

Let's explore some commonly used

Drops columns with any missing value

Impute missing values with mean

Interpolates missing values using various

9. Handling Date and Time:

Convert to DateTime format

Binning numerical values into categories

These are just some common techniques

You might also like