0% found this document useful (0 votes)

29 views10 pages

Unit3 - Cleaning - Preparing - Data - Jupyter Notebook

Clean data

Uploaded by

neerajboggavarapu098

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views10 pages

Unit3 - Cleaning - Preparing - Data - Jupyter Notebook

Clean data

Uploaded by

neerajboggavarapu098

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

Cleaning and Preparing data ¶

In [24]:

import pandas as pd
d=pd.read_excel("C:\\Users\\Admin\\Desktop\\sree.xlsx")
df=pd.DataFrame(d)
df

Out[24]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

2 Balayya 23.0 34.0 NaN 35.0 37.0

3 Nag 35.0 23.0 32.0 NaN 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

5 Suresh 20.0 31.0 31.0 23.0 NaN

6 vijay NaN NaN 23.0 37.0 25.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

9 anushka 25.0 27.0 24.0 22.0 NaN

10 pspk 37.0 35.0 23.0 NaN 21.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

14 Lakshman 21.0 29.0 10.0 26.0 29.0

In [ ]:

##HANDLING MISSING VALUES##

####Pandas treat None and NaN as essentially interchangeable for indicating missin
#To facilitate this convention, there are several useful functions for detecting,

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 1/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [3]:

df.isnull()

Out[3]:

NAME AGE WT DSP COA CD

0 False False False False False False

1 False False False False False False

2 False False False True False False

3 False False False False True False

4 False False False False False False

5 False False False False False True

6 False True True False False False

7 False False False False False False

8 False False False False False False

9 False False False False False True

10 False False False False True False

11 False False False False False False

12 False False False False False False

13 False False False False False False

In [4]:

df.dropna()

Out[4]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 2/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [5]:

Out[5]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

2 Balayya 23.0 34.0 NaN 35.0 37.0

3 Nag 35.0 23.0 32.0 NaN 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

5 Suresh 20.0 31.0 31.0 23.0 NaN

6 vijay NaN NaN 23.0 37.0 25.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

9 anushka 25.0 27.0 24.0 22.0 NaN

10 pspk 37.0 35.0 23.0 NaN 21.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

In [7]:

df.dropna(inplace=True)

In [8]:

Out[8]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 3/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [11]:

import pandas as pd
d=pd.read_excel("C:\\Users\\Admin\\Desktop\\sree.xlsx")
df=pd.DataFrame(d)
df

Out[11]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

2 Balayya 23.0 34.0 NaN 35.0 37.0

3 Nag 35.0 23.0 32.0 NaN 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

5 Suresh 20.0 31.0 31.0 23.0 NaN

6 vijay NaN NaN 23.0 37.0 25.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

9 anushka 25.0 27.0 24.0 22.0 NaN

10 pspk 37.0 35.0 23.0 NaN 21.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 4/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [12]:

df.fillna(0)

Out[12]:

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0

1 Venky 24.0 23.0 23.0 5.0 35.0

2 Balayya 23.0 34.0 0.0 35.0 37.0

3 Nag 35.0 23.0 32.0 0.0 35.0

4 Lakshman 21.0 29.0 10.0 26.0 29.0

5 Suresh 20.0 31.0 31.0 23.0 0.0

6 vijay 0.0 0.0 23.0 37.0 25.0

7 prabhas 30.0 37.0 29.0 34.0 9.0

8 bunny 28.0 37.0 26.0 29.0 37.0

9 anushka 25.0 27.0 24.0 22.0 0.0

10 pspk 37.0 35.0 23.0 0.0 21.0

11 mahesh 34.0 29.0 17.0 22.0 9.0

12 ntr 32.0 23.0 40.0 22.0 23.0

13 ramcharan 31.0 2.0 26.0 40.0 42.0

In [16]:

# Filling Columns with Different Values

df = df.fillna({'COA': 25})
print(df)

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0
1 Venky 24.0 23.0 23.0 5.0 35.0
2 Balayya 23.0 34.0 25.0 35.0 37.0
3 Nag 35.0 23.0 32.0 25.0 35.0
4 Lakshman 21.0 29.0 10.0 26.0 29.0
5 Suresh 20.0 31.0 31.0 23.0 NaN
6 vijay NaN NaN 23.0 37.0 25.0
7 prabhas 30.0 37.0 29.0 34.0 9.0
8 bunny 28.0 37.0 26.0 29.0 37.0
9 anushka 25.0 27.0 24.0 22.0 NaN
10 pspk 37.0 35.0 23.0 25.0 21.0
11 mahesh 34.0 29.0 17.0 22.0 9.0
12 ntr 32.0 23.0 40.0 22.0 23.0
13 ramcharan 31.0 2.0 26.0 40.0 42.0

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 5/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [18]:

# Imputing a Missing Value with mean

df['CD'] = df['CD'].fillna(df['CD'].mean())
print(df)

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0
1 Venky 24.0 23.0 23.0 5.0 35.0
2 Balayya 23.0 34.0 25.0 35.0 37.0
3 Nag 35.0 23.0 32.0 25.0 35.0
4 Lakshman 21.0 29.0 10.0 26.0 29.0
5 Suresh 20.0 31.0 31.0 23.0 28.5
6 vijay NaN NaN 23.0 37.0 25.0
7 prabhas 30.0 37.0 29.0 34.0 9.0
8 bunny 28.0 37.0 26.0 29.0 37.0
9 anushka 25.0 27.0 24.0 22.0 28.5
10 pspk 37.0 35.0 23.0 25.0 21.0
11 mahesh 34.0 29.0 17.0 22.0 9.0
12 ntr 32.0 23.0 40.0 22.0 23.0
13 ramcharan 31.0 2.0 26.0 40.0 42.0

In [21]:

import pandas as pd
d=pd.read_excel("C:\\Users\\Admin\\Desktop\\sree.xlsx")
df=pd.DataFrame(d)
print(df.duplicated())

0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 True
dtype: bool

In [22]:

# Counting Duplicate Records in a DataFrame

print(df.duplicated().sum())

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 6/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [23]:

# Dropping Duplicates with Default Arguments

df = df.drop_duplicates()
print(df)

NAME AGE WT DSP COA CD

0 Chiru 23.0 30.0 34.0 24.0 40.0
1 Venky 24.0 23.0 23.0 5.0 35.0
2 Balayya 23.0 34.0 NaN 35.0 37.0
3 Nag 35.0 23.0 32.0 NaN 35.0
4 Lakshman 21.0 29.0 10.0 26.0 29.0
5 Suresh 20.0 31.0 31.0 23.0 NaN
6 vijay NaN NaN 23.0 37.0 25.0
7 prabhas 30.0 37.0 29.0 34.0 9.0
8 bunny 28.0 37.0 26.0 29.0 37.0
9 anushka 25.0 27.0 24.0 22.0 NaN
10 pspk 37.0 35.0 23.0 NaN 21.0
11 mahesh 34.0 29.0 17.0 22.0 9.0
12 ntr 32.0 23.0 40.0 22.0 23.0
13 ramcharan 31.0 2.0 26.0 40.0 42.0

In [ ]:

###Data Formatting###

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 7/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [9]:

import xlsxwriter
import csv

book=xlsxwriter.Workbook("dsp.xlsx")
Campus_Name="Rkvalley"
Branch_Name="CSE"
Section_Name="C"

format1=book.add_format({'bg_color':"orange",'border':1})
format2=book.add_format({'bg_color':"purple",'border':1})
s=book.add_worksheet("dsp")

s.write(1,0,"Campus name",format1)
s.write(1,1,Campus_Name,format2)
s.write(2,0,"Branch name",format1)
s.write(2,1,Branch_Name,format2)
s.write(3,0,"Section name",format1)
s.write(3,1,Section_Name,format2)

index=5
with open("stup.csv") as csvfile:
csv_reader= csv.reader(csvfile)
for row in csv_reader:
if index==5:
format=format1
else:
format=format2

s.write(index,0,row[0],format)
s.write(index,1,row[1],format)
s.write(index,2,row[2],format)
s.write(index,3,row[3],format)
s.write(index,4,row[4],format)
s.write(index,5,row[5],format)

index+= 1

book.close()

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 8/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [51]:

###BINNING##

import pandas as pd
d=pd.read_excel("C:\\Users\\Admin\\Desktop\\udaya.xlsx")
df=pd.DataFrame(d)
df

Out[51]:

NAME AGE WT DSP COA CD TOTAL

0 Chiru 23 30 34 24 40 128

1 Venky 24 23 23 5 35 86

2 Balayya 23 34 20 35 37 126

3 Nag 35 23 32 29 35 119

4 Lakshman 21 29 10 26 29 94

5 Suresh 20 31 31 23 28 113

6 vijay 27 2 23 37 25 87

7 prabhas 30 37 29 34 9 109

8 bunny 28 37 26 29 37 129

9 anushka 25 27 24 22 33 106

10 pspk 37 35 23 35 21 114

11 mahesh 34 29 17 22 9 77

12 ntr 32 23 40 22 23 108

13 ramcharan 31 2 26 40 42 110

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 9/10

04/05/2023, 12:58 Unit3-cleaning,preparing data - Jupyter Notebook

In [52]:

bins=[70,90,110,150]
group_names=['fail','average','good']
df['status']= pd.cut(df["TOTAL"],bins,labels=group_names)
df

Out[52]:

NAME AGE WT DSP COA CD TOTAL status

0 Chiru 23 30 34 24 40 128 good

1 Venky 24 23 23 5 35 86 fail

2 Balayya 23 34 20 35 37 126 good

3 Nag 35 23 32 29 35 119 good

4 Lakshman 21 29 10 26 29 94 average

5 Suresh 20 31 31 23 28 113 good

6 vijay 27 2 23 37 25 87 fail

7 prabhas 30 37 29 34 9 109 average

8 bunny 28 37 26 29 37 129 good

9 anushka 25 27 24 22 33 106 average

10 pspk 37 35 23 35 21 114 good

11 mahesh 34 29 17 22 9 77 fail

12 ntr 32 23 40 22 23 108 average

13 ramcharan 31 2 26 40 42 110 average

In [ ]:

localhost:8888/notebooks/anaconda3/Python/Unit3-cleaning%2Cpreparing data.ipynb 10/10

70T RT Tadano GR-700EX Load Charts PDF
No ratings yet
70T RT Tadano GR-700EX Load Charts PDF
12 pages
AI Practical 2025
No ratings yet
AI Practical 2025
14 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
12 Information Practices Text Book Preeti Arora
No ratings yet
12 Information Practices Text Book Preeti Arora
45 pages
Design Deliverables
No ratings yet
Design Deliverables
11 pages
Assignment
No ratings yet
Assignment
2 pages
12 Pandas
100% (1)
12 Pandas
21 pages
Pandas
No ratings yet
Pandas
4 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
287 pages
01 Road Roller Basic Knowledge (6611E)
0% (1)
01 Road Roller Basic Knowledge (6611E)
16 pages
CrimPro Lakas Atenista Notes
No ratings yet
CrimPro Lakas Atenista Notes
46 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Lab File
No ratings yet
Lab File
96 pages
Sarthak Python
No ratings yet
Sarthak Python
6 pages
Petts, Ann - Shapley, Bernard - On Supervision - Psychoanalytic and Jungian Analytic Perspectives-Karnac (2007)
100% (1)
Petts, Ann - Shapley, Bernard - On Supervision - Psychoanalytic and Jungian Analytic Perspectives-Karnac (2007)
266 pages
DA Lab Manual r22
No ratings yet
DA Lab Manual r22
31 pages
Data Science Practicals - Ipynb
No ratings yet
Data Science Practicals - Ipynb
54 pages
Practical File ANKIT RAJ CLASS 12-F
No ratings yet
Practical File ANKIT RAJ CLASS 12-F
48 pages
Unit 5 Python
No ratings yet
Unit 5 Python
30 pages
Service and Parts Frymaster Bigl30 Series Manual Lov™ Gas Fryer
No ratings yet
Service and Parts Frymaster Bigl30 Series Manual Lov™ Gas Fryer
75 pages
ML Lab Manual Final
No ratings yet
ML Lab Manual Final
36 pages
Data Cleaning and Pre Processing 2
No ratings yet
Data Cleaning and Pre Processing 2
27 pages
Sowmi DS
No ratings yet
Sowmi DS
27 pages
Data Sci
No ratings yet
Data Sci
29 pages
DA Lab
No ratings yet
DA Lab
27 pages
DAV Practicals
No ratings yet
DAV Practicals
26 pages
Dealing With Missing Values
No ratings yet
Dealing With Missing Values
19 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
Create A Pandas Series From A Dictionary of Values and An Ndarray
No ratings yet
Create A Pandas Series From A Dictionary of Values and An Ndarray
15 pages
Exercises Chapter 6 Capital Allowance
No ratings yet
Exercises Chapter 6 Capital Allowance
2 pages
Cleaning Process Data Analysis and Visualisation Using Python
No ratings yet
Cleaning Process Data Analysis and Visualisation Using Python
15 pages
Document (4) - 1
No ratings yet
Document (4) - 1
15 pages
I.P Practical Solution
No ratings yet
I.P Practical Solution
20 pages
IP Practic MINE
No ratings yet
IP Practic MINE
30 pages
CSC - 310 Advanced Python Programming Continuous Assessment-2 Assignment:Ca2
No ratings yet
CSC - 310 Advanced Python Programming Continuous Assessment-2 Assignment:Ca2
33 pages
PYTHON PROGRAMMING: Data Handling
No ratings yet
PYTHON PROGRAMMING: Data Handling
12 pages
Notebook PYTHON DATA SCIENCE
No ratings yet
Notebook PYTHON DATA SCIENCE
16 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Vagtacho Usb: See The List of Supported Cars For The Delco Hsfi, and Delco "F" Update
No ratings yet
Vagtacho Usb: See The List of Supported Cars For The Delco Hsfi, and Delco "F" Update
9 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
Unit3 - 3) Pandas - Ipynb - Colab
No ratings yet
Unit3 - 3) Pandas - Ipynb - Colab
11 pages
Attiq Ahmad Afsar Mid Exam
No ratings yet
Attiq Ahmad Afsar Mid Exam
8 pages
I037 - Manas Patel Experiment09
No ratings yet
I037 - Manas Patel Experiment09
9 pages
Code Explanation For Date Types
No ratings yet
Code Explanation For Date Types
8 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
10) Merging Dataframes: # Detecting Duplicates
No ratings yet
10) Merging Dataframes: # Detecting Duplicates
7 pages
cdp201 10 11 2023
No ratings yet
cdp201 10 11 2023
17 pages
DV Mid Internal 1
No ratings yet
DV Mid Internal 1
8 pages
Week1 Numpy, Pandas (178) .Ipynb Colab
No ratings yet
Week1 Numpy, Pandas (178) .Ipynb Colab
6 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
Exp 3
No ratings yet
Exp 3
10 pages
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
No ratings yet
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
12 pages
Lab 3 DWM
No ratings yet
Lab 3 DWM
5 pages
Project Prog
No ratings yet
Project Prog
6 pages
Dsbda Assignment 1
No ratings yet
Dsbda Assignment 1
5 pages
Term 1 IP AK
No ratings yet
Term 1 IP AK
6 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
L-2 (Data Frame Part 1) .Ipynb - Colab
No ratings yet
L-2 (Data Frame Part 1) .Ipynb - Colab
5 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Fda Exp2 E0323040
No ratings yet
Fda Exp2 E0323040
3 pages
Store - Ipynb - Colab
No ratings yet
Store - Ipynb - Colab
3 pages
2777959-Day 8 - Data Wrangling
No ratings yet
2777959-Day 8 - Data Wrangling
2 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Analog Display Digital VFO
No ratings yet
Analog Display Digital VFO
3 pages
Matchdata - Ipynb - Colaboratory
No ratings yet
Matchdata - Ipynb - Colaboratory
3 pages
Python Assignment-2
No ratings yet
Python Assignment-2
3 pages
ANNEX B LGU User Registration Form
No ratings yet
ANNEX B LGU User Registration Form
1 page
Online Platforms For ICT Content Development
No ratings yet
Online Platforms For ICT Content Development
11 pages
STV Insights
No ratings yet
STV Insights
20 pages
INSIGNIA Book Sample
No ratings yet
INSIGNIA Book Sample
38 pages
Experiment 1
No ratings yet
Experiment 1
3 pages
State Farm Report
No ratings yet
State Farm Report
20 pages
Aisi 5140 PDF
No ratings yet
Aisi 5140 PDF
2 pages
PFA Chemical Resistance Chart
No ratings yet
PFA Chemical Resistance Chart
8 pages
McDonald's in A Monopolistic Competition
No ratings yet
McDonald's in A Monopolistic Competition
23 pages
HTML - Multiple Web Frameset
No ratings yet
HTML - Multiple Web Frameset
8 pages
Biostar H61MLB Spec
No ratings yet
Biostar H61MLB Spec
2 pages
Ultralight Shape Load Table PDF
No ratings yet
Ultralight Shape Load Table PDF
13 pages
Required Documents - World Education Services
No ratings yet
Required Documents - World Education Services
6 pages
OIST Research Intern Application
No ratings yet
OIST Research Intern Application
12 pages
02 Activity 1 READING WRITING
No ratings yet
02 Activity 1 READING WRITING
5 pages
Grade 10 - Unit 01
No ratings yet
Grade 10 - Unit 01
2 pages
Split Learning Over Wireless Networks Parallel Design and Resource Management
No ratings yet
Split Learning Over Wireless Networks Parallel Design and Resource Management
30 pages
(Final Draft) Taskap Sesdilu - M. Arief Priowahono
No ratings yet
(Final Draft) Taskap Sesdilu - M. Arief Priowahono
21 pages
GBC - Group Contract Assignment Guidelines and Rubric 2023 3
No ratings yet
GBC - Group Contract Assignment Guidelines and Rubric 2023 3
4 pages
5 Diego V Castillo
No ratings yet
5 Diego V Castillo
2 pages
672448fa583fcf7e75908848 43302953161
No ratings yet
672448fa583fcf7e75908848 43302953161
2 pages