Data Cleaning & Preparation

This document discusses data cleaning and preparation in pandas. It explains that data cleaning involves dealing with incorrect, missing, or duplicate values in a dataset to improve data quality. It then provides examples of different pandas functions for loading and exploring a dataset, finding and handling missing values, dropping columns, cleaning strings, converting data types, renaming columns, and more. The goal is to clean the data and make it suitable for building machine learning models.

Uploaded by

Nisha R S

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

100% found this document useful (2 votes)

299 views2 pages

Data Cleaning & Preparation

Uploaded by

Nisha R S

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Ex.No.

: Data Cleaning and Preparation

Date :
Aim :

To implement data cleaning and data preparations operations in a dataset.

Description:

Data preparation involves data collection and data cleaning. When working with multiple
sources of data, there are instances where the collected data could be incorrect, mislabeled, or
even duplicated. This would lead to unreliable machine learning models and wrong
outcomes. Hence, it is important to clean your data and get it into a usable form beforehand.
In this article, we cover the concept of data cleaning using Pandas.

What is Data Cleaning?

Data cleaning is the process of dealing with messy, disordered data and eliminating incorrect,
missing, duplicated values in your dataset. It improves the quality and accuracy of the data
being fed to the algorithms that will solve your data science problem.

Dataset:
https://www.kaggle.com/datasets/andrewmvd/occupation-salary-and-likelihood-of-
automation

 Load the dataset and display the first 5 rows [head function]
 Get information about the dataset [info. Function]
 Find duplicated values in a DataFrame [duplicated function]
 Drop duplicate values in a dataframe [drop_duplicates function]

Finding missing elements in a DataFrame

 Display the dataset with boolean values. Display false for null values [isnull() function]
 Display the dataset with boolean values. Display false for N/A values [isna() function]
 Provide boolean values in a columnar format [isna().any() function]
 Give the column-wise sum of the null values present in the dataset [isna().sum() function]
 Count Missing Values in a Pandas DataFrame [isnull().sum()function]
 count non-missing data in a Pandas DataFrame [isnotnull().sum()function]
 Replace missing values with average,median and mode values [mean(), median(), mode()
functions]

Dropping columns in a DataFrame

 Drop a specified column in a dataframe [drop function]

 Dropping Missing Data in a Pandas DataFrame [dropna()function]
 Filling Missing Data in a Pandas DataFrame [fillna()function]

Cleaning Strings in Pandas

 Remove the white space [str.strip() function]
 Replace missing value with Forward values [fillna(method=’pad’) function]
 Replace missing values [replace({}) function]
 Extract a particular record based on a given condition [isin[] function]
 Splitting Strings into Columns in Pandas [str.split()function]
 Changing String Case in Pandas [upper(),lower(),title() function]

Convert data to different formats

 convert all cells in the 'Date' column into dates [to_datetime() function]

Renaming Columns of a DataFrame

 In many cases, you might require renaming the columns for better interpretation [rename()
function]

Project 4 SQL Queries
No ratings yet
Project 4 SQL Queries
28 pages
Software Asset Management: What Is It and Why Do I Need It?: A Textbook on the Fundamentals in Software License Compliance, Audit Risks, Optimizing Software License ROI, Business Practices and Life Cycle Management
From Everand
Software Asset Management: What Is It and Why Do I Need It?: A Textbook on the Fundamentals in Software License Compliance, Audit Risks, Optimizing Software License ROI, Business Practices and Life Cycle Management
Carl A. Bolton
No ratings yet
Practical Data Science
No ratings yet
Practical Data Science
121 pages
Primo SQL Masterclass
No ratings yet
Primo SQL Masterclass
94 pages
Big Data - S
No ratings yet
Big Data - S
79 pages
Mongodb Cheat Sheet
No ratings yet
Mongodb Cheat Sheet
10 pages
SQL Full Course
No ratings yet
SQL Full Course
128 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
Class XII Data Handlinng Using PandasI
No ratings yet
Class XII Data Handlinng Using PandasI
46 pages
Snowflake Demo
No ratings yet
Snowflake Demo
13 pages
Join Stage
No ratings yet
Join Stage
14 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Datawarehouse PPT
No ratings yet
Datawarehouse PPT
39 pages
Data Mining
No ratings yet
Data Mining
87 pages
Panda Cheatsheet
No ratings yet
Panda Cheatsheet
17 pages
Data Visualization PDF
No ratings yet
Data Visualization PDF
3 pages
Mana Mohan R
No ratings yet
Mana Mohan R
147 pages
02 - Data Preparation and Cleaning
No ratings yet
02 - Data Preparation and Cleaning
16 pages
Data Quality and Cleaning
No ratings yet
Data Quality and Cleaning
9 pages
20IT503 - Big Data Analytics - Unit2
No ratings yet
20IT503 - Big Data Analytics - Unit2
62 pages
Big Data Analytics: By: Syed Nawaz Pasha at SR Univeristy Professional Elective-5 B.Tech Iv-Ii Sem
100% (1)
Big Data Analytics: By: Syed Nawaz Pasha at SR Univeristy Professional Elective-5 B.Tech Iv-Ii Sem
31 pages
Data Wrangling
No ratings yet
Data Wrangling
13 pages
Spark QA
No ratings yet
Spark QA
34 pages
02 - Data Analytics Prefessional Course
100% (1)
02 - Data Analytics Prefessional Course
16 pages
Structured Query Language (SQL)
No ratings yet
Structured Query Language (SQL)
145 pages
Lecture1 Big Data
No ratings yet
Lecture1 Big Data
47 pages
Pandas Complete Notes
No ratings yet
Pandas Complete Notes
105 pages
Pandas Guide
No ratings yet
Pandas Guide
64 pages
Interview Questions
No ratings yet
Interview Questions
2 pages
Mongo DB
No ratings yet
Mongo DB
30 pages
Uber Data Analysis Using Python
No ratings yet
Uber Data Analysis Using Python
24 pages
Introduction To MS Power BI Desktop - Exercise 02 - Deeper Understanding Power BI ETL - V03
No ratings yet
Introduction To MS Power BI Desktop - Exercise 02 - Deeper Understanding Power BI ETL - V03
6 pages
Shelly Bansal - SR Data Engineer
No ratings yet
Shelly Bansal - SR Data Engineer
6 pages
Pandas in Python 16sept2022
No ratings yet
Pandas in Python 16sept2022
8 pages
Unit I - BigData
No ratings yet
Unit I - BigData
47 pages
Talend Data Integration
No ratings yet
Talend Data Integration
5 pages
DML Practical 2
No ratings yet
DML Practical 2
2 pages
Master Pyspark Zero To Hero 1738689679
No ratings yet
Master Pyspark Zero To Hero 1738689679
102 pages
PySpark and Azure Data Engineer Free Notes
No ratings yet
PySpark and Azure Data Engineer Free Notes
65 pages
Presentation Python
No ratings yet
Presentation Python
17 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Azure Data Engineer Roadmap
No ratings yet
Azure Data Engineer Roadmap
4 pages
Day64 - Pandas Interview Questions
No ratings yet
Day64 - Pandas Interview Questions
5 pages
04SQL and Advanced SQL
No ratings yet
04SQL and Advanced SQL
133 pages
SQL Statements: - Select - Insert - Update - Delete - Create - Alter - Drop - Rename - Truncate - Commit - Rollback - Savepoint
100% (1)
SQL Statements: - Select - Insert - Update - Delete - Create - Alter - Drop - Rename - Truncate - Commit - Rollback - Savepoint
231 pages
Research Paper Presentation Pandas Moshiul Arefin
No ratings yet
Research Paper Presentation Pandas Moshiul Arefin
30 pages
Spark Architecture
No ratings yet
Spark Architecture
7 pages
Introduction To Python Libraries
No ratings yet
Introduction To Python Libraries
13 pages
PySpark Meetup Talk
No ratings yet
PySpark Meetup Talk
35 pages
Python Interview Questions
No ratings yet
Python Interview Questions
8 pages
ADB Lab Manual
No ratings yet
ADB Lab Manual
33 pages
Data Engineering
No ratings yet
Data Engineering
92 pages
MIcrosoft SQL Server 2012 - T-SQL
No ratings yet
MIcrosoft SQL Server 2012 - T-SQL
9 pages
Python For Data Engineering Guide
No ratings yet
Python For Data Engineering Guide
4 pages
International Indian School, Riyadh WORKSHEET (2020-2021) Grade - Xii - Informatics Practices - Second Term
No ratings yet
International Indian School, Riyadh WORKSHEET (2020-2021) Grade - Xii - Informatics Practices - Second Term
9 pages
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
No ratings yet
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
8 pages
Python Data Cleaning
100% (1)
Python Data Cleaning
20 pages
DWDM R20 Lab Manual 3-1 Cse 2022-2023 Sem 1
No ratings yet
DWDM R20 Lab Manual 3-1 Cse 2022-2023 Sem 1
151 pages
Top Pyspark InterviewQuestions
No ratings yet
Top Pyspark InterviewQuestions
21 pages
Databricks Question
No ratings yet
Databricks Question
7 pages
t06 Service Discovery
No ratings yet
t06 Service Discovery
26 pages
Microsoft Case Study
No ratings yet
Microsoft Case Study
19 pages
AI-900: Microsoft Azure AI Fundamentals
No ratings yet
AI-900: Microsoft Azure AI Fundamentals
9 pages
TIA Portal V20 Technical Slides EN
No ratings yet
TIA Portal V20 Technical Slides EN
10 pages
Python Programming Lab Manual
No ratings yet
Python Programming Lab Manual
13 pages
BTO Price List AUGUST-2010 Dealer
No ratings yet
BTO Price List AUGUST-2010 Dealer
1 page
Device Protection With Microsoft Endpoint Manager and Microsoft Defender For Endpoint - Module 03 - Endpoint Protection Overview
No ratings yet
Device Protection With Microsoft Endpoint Manager and Microsoft Defender For Endpoint - Module 03 - Endpoint Protection Overview
28 pages
Rendered Nomicon
No ratings yet
Rendered Nomicon
152 pages
1 & 2 Chapters
No ratings yet
1 & 2 Chapters
18 pages
Algorithm Pancake PDF
No ratings yet
Algorithm Pancake PDF
22 pages
Python Code Demonstration
No ratings yet
Python Code Demonstration
40 pages
Mid-II - Pps Question - Bank
No ratings yet
Mid-II - Pps Question - Bank
2 pages
Mio 2263
No ratings yet
Mio 2263
4 pages
Active Directory Documentation
No ratings yet
Active Directory Documentation
24 pages
Opera Exchange Interface - Communication Vendor Specification
No ratings yet
Opera Exchange Interface - Communication Vendor Specification
25 pages
Laboratory Activity No. 1: Cpe 511 - Microprocessor System
No ratings yet
Laboratory Activity No. 1: Cpe 511 - Microprocessor System
5 pages
BullSequana SA11a Product Brief
No ratings yet
BullSequana SA11a Product Brief
1 page
Computer Instructions
No ratings yet
Computer Instructions
12 pages
Adding Conditional Control To Text-to-Image Diffusion Models
No ratings yet
Adding Conditional Control To Text-to-Image Diffusion Models
33 pages
Computational Intelligence
No ratings yet
Computational Intelligence
6 pages
Physics-Lab-Project-Report
No ratings yet
Physics-Lab-Project-Report
38 pages
Web Based Application Development With PHP: TODO List
No ratings yet
Web Based Application Development With PHP: TODO List
16 pages
Sage Math
No ratings yet
Sage Math
5 pages
Applications of Automata in Electronic Machines and Android Games (Finite Automata)
No ratings yet
Applications of Automata in Electronic Machines and Android Games (Finite Automata)
5 pages
Sap QR Code Note 2889899
No ratings yet
Sap QR Code Note 2889899
4 pages
Bizhub 25 e ALL ACTIVE SOLUTIONS
No ratings yet
Bizhub 25 e ALL ACTIVE SOLUTIONS
17 pages
Nodejs JWT Workshop
No ratings yet
Nodejs JWT Workshop
5 pages
Superplan Stream
No ratings yet
Superplan Stream
2 pages
Solutions - Arrays in C Programming Lang Uage Exercises
No ratings yet
Solutions - Arrays in C Programming Lang Uage Exercises
4 pages
Unit - Ii Arithmetic For Computers
No ratings yet
Unit - Ii Arithmetic For Computers
28 pages

Data Cleaning & Preparation

Uploaded by

Data Cleaning & Preparation

Uploaded by

Ex.No.

: Data Cleaning and Preparation

To implement data cleaning and data preparations operations in a dataset.

What is Data Cleaning?

Finding missing elements in a DataFrame

Dropping columns in a DataFrame

 Drop a specified column in a dataframe [drop function]

Cleaning Strings in Pandas

Convert data to different formats

 convert all cells in the 'Date' column into dates [to_datetime() function]

Renaming Columns of a DataFrame

You might also like