0% found this document useful (0 votes)

258 views36 pages

04 Data Cleaning in R

This document discusses steps for data cleansing in R, including checking for missing values and outliers, handling NA values, imputing missing data, removing duplicates, and transforming variables. It also covers splitting data into training and test sets, and sending output and graphical results to files. The key steps are checking for issues, exploring and handling NA values using functions like is.na() and na.omit(), imputing missing data with mean or median, removing outliers using IQR, and transforming variables. The data is then split into train and test sets before results are output to text and image files.

Uploaded by

Syed Ijlal Haider

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

258 views36 pages

04 Data Cleaning in R

Uploaded by

Syed Ijlal Haider

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 36

4- Data cleansing in R

Dr Akhter Raza
Review 1

Difference between parametric and non-parametric

statistics?

Business Statistics: Data Cleaning 2

Review 2

Difference between descriptive and inferential

statistics?

Business Statistics: Data Cleaning 3

Review 3

Difference between Parameter and statistic?

Business Statistics: Data Cleaning 4

Data Munging

Sometimes referred to as data wrangling is the

process of transforming and mapping raw data into
more appropriate and valuable form for the
purpose of analytics.

Business Statistics: Data Cleaning 5

Steps in data preparation
• Check for sensitive data
• Check for missing columns
• Check variables names
• Check missing observations
• Check variable classification
• Check misspellings/extra spaces
• Check numeric data distribution
• Check duplicate rows
• Check statistical assumptions
Business Statistics: Data Cleaning 6
Steps in data preparation

Business Statistics: Data Cleaning 7

Missing cases
One of the big issue in data is
i) NA
ii) NaN
iii) Inf

NA’s are the missing casses

NaN are not a number
Inf are the division by zero

Business Statistics: Data Cleaning 8

Function to be used in cleansing
head()
tail()
is.na()
any(is.na())
colSums(is.na())
na.omit()
complete.cases()

9
Business Statistics: Data Cleaning
Exploring and handling NA’s
The airquality data set is used for this
purpose. This set is found in Base R
df <- airquality
str(df)
this data contains 153 observations of
6 variables
is.na(df)
10
Business Statistics: Data Cleaning
Exploring and handling NA’s
Now we are deliberately creating NA’s
in data.
Add new column and a row full of NA’s
df[,7] <- c(NA)
df[154,] <- c(NA)
any(is.na(df))
is.na(df) 11
Business Statistics: Data Cleaning
Exploring and handling NA’s
Removing column number 7 because it
is full of NA's
df <- df[,-7]
str(df)
Removing last row
df <- df[-154,]
str(df) 12
Business Statistics: Data Cleaning
Exploring and handling NA’s
any(is.na(df))
How many total NA's are there
sum(is.na(df))
Now we check each column for na's
sum(is.na(df$Solar.R))

13
Business Statistics: Data Cleaning
Exploring and handling NA’s
instead of checking columns 1 by 1 for
NA’s we can use colSums function
colSums(is.na(df))
This shows that majority of NA’s are in
first column which is 37 and there are
7 missing cases in column 2 rest of the
columns are full and doesn’t have NA’s
14
Business Statistics: Data Cleaning
Exploring and handling NA’s
na.omit function can be used to
remove all missing cases
df.clean <- na.omit(df)
Most na's are in first column which are
37 if this column does not plays any
important role in data analysis then we
can omit this column
15
Business Statistics: Data Cleaning
Exploring and handling NA’s
we will remove na’s this will enhance
our sample size
df.clean2 <- na.omit(df[,-1])
nrow(df.clean2)

df.clean contains 111 rows

df.clean2 contain 146 rows 16
Business Statistics: Data Cleaning
Exploring and handling NA’s
We can implement a rule of keeping all
those columns in which NA’s are less
than 10

df.clean3 <- df[, colSums(is.na(df))<10]

nrow(df.clean3)
17
Business Statistics: Data Cleaning
Exploring and handling NA’s
mean, median and standard deviation
results in NA if variable having NA
mean(airquality$Solar.R)
median(airquality$Solar.R)
sd(airquality$Solar.R)
All three results are NA's
18
Business Statistics: Data Cleaning
Exploring and handling NA’s
To find mean and sd of remaining
values we use following

mean(!is.na(airquality$Solar.R))
sd(!is.na(airquality$Solar.R))

19
Business Statistics: Data Cleaning
Imputing NA’s
instead of deleting missing rows we
can impute them by mean or by
median

df.meanImputed <- df
df.medianImputed <- df

20
Business Statistics: Data Cleaning
Imputing NA’s
All NA’s are replaced by mean of the
rest of data

df.meanImputed$Solar.R[is.na(df.mean
Imputed$Solar.R)] <-
mean(!is.na(df.meanImputed$Solar.R))

Business Statistics: Data Cleaning 21

Imputing NA’s
All NA’s are replaced by median

df.medianImputed$Solar.R[is.na(df.me
dianImputed$Solar.R)] <-
median(!is.na(df.medianImputed$Solar
.R))

22
Business Statistics: Data Cleaning
Imputing NA’s
now we check is there any na in solar.r
of the two data frames

any(is.na(df.meanImputed$Solar.R))
any(is.na(df.medianImputed$Solar.R))

23
Business Statistics: Data Cleaning
Removing outliers
str(df.clean2)
boxplot(df.clean2$Temp)
No outlier in Temp variable
boxplot(df.clean2$Wind)
There are three outliers in the Wind
variable
summary(df.clean2$Wind) 24
Business Statistics: Data Cleaning
Removing outliers
There are three outliers in the Wind
variable
summary(df.clean2$Wind)
Q1=quantile(df.clean2$Wind,0.25)
Q3=quantile(df.clean2$Wind,0.75)
IQR_wind=Q3-Q1
25
Business Statistics: Data Cleaning
Removing outliers
# there is a direct function of IQR
# IQR(variablename)

upFenceWind <- Q3 + 1.5 * IQR_wind

df.clean4 <- subset(df.clean2,Wind <=
upFenceWind)
26
Business Statistics: Data Cleaning
Removing outliers
Now we can check the box plot of
Wind variable in clean4
boxplot(df.clean4)

box plot of clean4 shows no outlier in

any of the variable
boxplot(df.clean4$Wind)
27
Business Statistics: Data Cleaning
Checking for duplicates
str(df.clean4)
str(unique(df.clean4))
we duplicated row 130 at the 145
position
df.clean4[145,]<- df.clean4[130,]
str(df.clean4)
df.clean4[c(130,145),] 28
Business Statistics: Data Cleaning
Checking for duplicates
Now using unique function we
eliminate this row
df.clean4Distinct <- unique(df.clean4)
str(df.clean4Distinct)
hist(df.meanImputed$Wind)
hist(df.meanImputed$Temp)
29
Business Statistics: Data Cleaning
Transformations
Histogram is showing slightly left
skewed
we can use a transformation to make it
normal
Take log(), sin(), 1/x, sqrt() of original
data and regenerate Histogram

30
Business Statistics: Data Cleaning
Training and Testing set
Splitting data 80% training and 20% testing
data
sample_data <sample(2,nrow(df.clean4),
replace = TRUE, prob = c(0.8,0.2))

test_data<- df.clean4[sample_data==1,]

31
Business Statistics: Data Cleaning
Training and Testing set
train_data<-df.clean4[sample_data ==2,]
head(test_data)
head(train_data)
str(test_data)
str(train_data)

32
Business Statistics: Data Cleaning
Sending output to file
#sink("myfile",append=FALSE, split=FALSE)
# use sink() again to stop output to file
sink("myfile", append=FALSE, split=FALSE)
str(test_data) # output to myfile
str(train_data) # output to myfile
sink() # return output to screen
33
Business Statistics: Data Cleaning
Sending graphical outputs
# graphical output to any seperate file
# pdf("mygraph.pdf") pdf file
# png("mygraph.png") png file
# jpeg("mygraph.jpg") jpeg file
# bmp("mygraph.bmp") bmp file
# postscript("mygraph.ps") postscript file
# close the output use dev.off() function
Business Statistics: Data Cleaning
34
Sending graphical outputs
# Saving output to pdf

pdf("myplot.pdf")
hist(df.meanImputed$Wind)
hist(df.meanImputed$Temp)
dev.off()
35
Business Statistics: Data Cleaning
Questions?

Domains of AI - Class 8
0% (1)
Domains of AI - Class 8
10 pages
AI - Facilitators - Handbook - VIII 2025-26
100% (1)
AI - Facilitators - Handbook - VIII 2025-26
53 pages
Reference Books of Textile Technologies - Finishing - Pietro Bellini Et Al. (ACIMIT, 2006)
75% (4)
Reference Books of Textile Technologies - Finishing - Pietro Bellini Et Al. (ACIMIT, 2006)
253 pages
1 Analyse Data Using Scenarios and Goal Seek.
No ratings yet
1 Analyse Data Using Scenarios and Goal Seek.
27 pages
Class VIII Data Science Book Cbse
No ratings yet
Class VIII Data Science Book Cbse
34 pages
MRSPTU B.tech. CSE (Sem 1-8) Scheme and Syllabus 2022 Batch Onwards With Revised COs - POs
No ratings yet
MRSPTU B.tech. CSE (Sem 1-8) Scheme and Syllabus 2022 Batch Onwards With Revised COs - POs
89 pages
Presentation AirQuality Prediction Using Machine Learning
No ratings yet
Presentation AirQuality Prediction Using Machine Learning
16 pages
1353360372sql Practice Questions
100% (1)
1353360372sql Practice Questions
24 pages
Class-4 Files and Folders
No ratings yet
Class-4 Files and Folders
8 pages
CBSE Class 6 Hindi Worksheet PDF
No ratings yet
CBSE Class 6 Hindi Worksheet PDF
2 pages
Class 8 CH 2
No ratings yet
Class 8 CH 2
5 pages
Worksheets (6-10) Data Visualisation
100% (1)
Worksheets (6-10) Data Visualisation
11 pages
Ch-2 Opration On Large Numbers
No ratings yet
Ch-2 Opration On Large Numbers
19 pages
Data Science Methodology
No ratings yet
Data Science Methodology
4 pages
Single Row Functions Multiple Row Functions
100% (1)
Single Row Functions Multiple Row Functions
42 pages
Book Business and Technology
100% (1)
Book Business and Technology
29 pages
Digital Marketing Notes
No ratings yet
Digital Marketing Notes
47 pages
Unit V: Distance and Rule Based Models
No ratings yet
Unit V: Distance and Rule Based Models
56 pages
Practical Questions Mysql For Record 2023-24
0% (1)
Practical Questions Mysql For Record 2023-24
4 pages
FRP301 Advanced Exercises
100% (1)
FRP301 Advanced Exercises
70 pages
AFDM Final Exams - Evening Summer 2020
100% (2)
AFDM Final Exams - Evening Summer 2020
12 pages
EXCEL Lab Manual
No ratings yet
EXCEL Lab Manual
17 pages
Pincer Search Algo
No ratings yet
Pincer Search Algo
8 pages
Question - Paper Set (IP)
No ratings yet
Question - Paper Set (IP)
117 pages
Numbering and Numeration - Test 2. Class V
No ratings yet
Numbering and Numeration - Test 2. Class V
3 pages
Turban ch02 DataWarehouse
No ratings yet
Turban ch02 DataWarehouse
59 pages
Eduvate Student Manual
No ratings yet
Eduvate Student Manual
10 pages
Class - 7 Lesson - 3 Charts in Excel-V
No ratings yet
Class - 7 Lesson - 3 Charts in Excel-V
3 pages
BMS 3
100% (1)
BMS 3
13 pages
STD 6 RS 12
No ratings yet
STD 6 RS 12
16 pages
Statistics Symbols
67% (6)
Statistics Symbols
7 pages
Class VII Com SC Question
No ratings yet
Class VII Com SC Question
4 pages
Grade 12 - Data Handling Using Pandas 1-Worksheet 1
No ratings yet
Grade 12 - Data Handling Using Pandas 1-Worksheet 1
2 pages
Python and SQL Practice Questions
No ratings yet
Python and SQL Practice Questions
11 pages
Accounting Mechanics
100% (1)
Accounting Mechanics
13 pages
Classification Error: Training Errors Generalization Errors
No ratings yet
Classification Error: Training Errors Generalization Errors
39 pages
Task Analysis Hci
No ratings yet
Task Analysis Hci
11 pages
Name - Jai Ramteke Class - TYBBA (CA) Roll No - 50 Python Assignment 5 Set A
100% (1)
Name - Jai Ramteke Class - TYBBA (CA) Roll No - 50 Python Assignment 5 Set A
8 pages
A Project Report On Six Sigma On Rejection (Piston Line) at Global Autotech LTD
No ratings yet
A Project Report On Six Sigma On Rejection (Piston Line) at Global Autotech LTD
60 pages
Psytech Training
No ratings yet
Psytech Training
41 pages
Class 6 - Computer - Excel - Chap1
No ratings yet
Class 6 - Computer - Excel - Chap1
10 pages
Term Work: Database Management System
No ratings yet
Term Work: Database Management System
67 pages
Sample Exam Problems
100% (1)
Sample Exam Problems
9 pages
BCSL044
No ratings yet
BCSL044
20 pages
ADD-00058819 Six Sigma Learning Guide PDF
No ratings yet
ADD-00058819 Six Sigma Learning Guide PDF
65 pages
Advanced Features of Spreadsheet
No ratings yet
Advanced Features of Spreadsheet
42 pages
LET Assessment of Learning QUIZ
No ratings yet
LET Assessment of Learning QUIZ
5 pages
Computer Science (083) - Blue Print: Kendriya Vidyalaya Sangathan - Ernakulam Region
No ratings yet
Computer Science (083) - Blue Print: Kendriya Vidyalaya Sangathan - Ernakulam Region
1 page
Data Literacy Questions All Types
No ratings yet
Data Literacy Questions All Types
2 pages
11SQL Assign
No ratings yet
11SQL Assign
8 pages
Ananyaa Bansal STQA
No ratings yet
Ananyaa Bansal STQA
48 pages
B.SC Computer Applications PDF
No ratings yet
B.SC Computer Applications PDF
25 pages
Biostatistics Series Module 1: Basics of Biostatistics: Resumen
No ratings yet
Biostatistics Series Module 1: Basics of Biostatistics: Resumen
27 pages
Standard Costs and The Balanced Scorecard: Mcgraw-Hill/Irwin
No ratings yet
Standard Costs and The Balanced Scorecard: Mcgraw-Hill/Irwin
101 pages
Presentation Topics For Statistics 2024
No ratings yet
Presentation Topics For Statistics 2024
1 page
Data Structures: Stack and Its Applications
No ratings yet
Data Structures: Stack and Its Applications
55 pages
Physics 4AL: Mechanics Lab Manual
No ratings yet
Physics 4AL: Mechanics Lab Manual
110 pages
Class 3 4 Key
No ratings yet
Class 3 4 Key
12 pages
Assessment of Inward Leakage For Air Fed Suits
No ratings yet
Assessment of Inward Leakage For Air Fed Suits
34 pages
BookSlides 3B Data Exploration
No ratings yet
BookSlides 3B Data Exploration
60 pages
Apuntes de Clase - DataCamp - Visualization in Higher Dimensions
No ratings yet
Apuntes de Clase - DataCamp - Visualization in Higher Dimensions
50 pages
Business Statistics: Lecture 1: Course Introduction & Descriptive Statistics
No ratings yet
Business Statistics: Lecture 1: Course Introduction & Descriptive Statistics
46 pages
Role of Strategic Leadership in Applying Total Quality Management A Field Study in Private Hospitals in The Capital, Sana'a
No ratings yet
Role of Strategic Leadership in Applying Total Quality Management A Field Study in Private Hospitals in The Capital, Sana'a
12 pages
BF2 Paper
No ratings yet
BF2 Paper
34 pages
Assignment 1 (Lexical Analyzer)
No ratings yet
Assignment 1 (Lexical Analyzer)
17 pages
Cambridge O Level: Computer Science 2210/22
No ratings yet
Cambridge O Level: Computer Science 2210/22
16 pages
Add Math C5 Ex - Teach
No ratings yet
Add Math C5 Ex - Teach
21 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
4.2 Lecture Slides (With Solutions)
No ratings yet
4.2 Lecture Slides (With Solutions)
60 pages
g5 First Quarterly Assessment Result
No ratings yet
g5 First Quarterly Assessment Result
16 pages
11 One Way Anova
No ratings yet
11 One Way Anova
24 pages
Solved Chapter 5 Worksheet Class 7
No ratings yet
Solved Chapter 5 Worksheet Class 7
2 pages
Class Xii (Informatics Practices) Half Yearly QP Chennai Region
No ratings yet
Class Xii (Informatics Practices) Half Yearly QP Chennai Region
4 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
12 Ip
No ratings yet
12 Ip
5 pages
Pandas Questions
No ratings yet
Pandas Questions
4 pages
11 Grade 3rd Term Note Maths
No ratings yet
11 Grade 3rd Term Note Maths
22 pages
Patient and Parent Sleep in A Children's Hospital: Continuing Nursing Education
No ratings yet
Patient and Parent Sleep in A Children's Hospital: Continuing Nursing Education
8 pages
Test Bank
No ratings yet
Test Bank
36 pages
5 3 1 Notes
No ratings yet
5 3 1 Notes
11 pages
BPCC 108 Notes
No ratings yet
BPCC 108 Notes
11 pages
CS6303 Computer Architecture Question Bank 3rd Sem
No ratings yet
CS6303 Computer Architecture Question Bank 3rd Sem
5 pages
MATH 1280 Calculator
No ratings yet
MATH 1280 Calculator
13 pages
Pochampalli Class 4 Notes CBSE EVS Chapter 23 (PDF)
No ratings yet
Pochampalli Class 4 Notes CBSE EVS Chapter 23 (PDF)
4 pages
Exercise Probability
No ratings yet
Exercise Probability
8 pages
Resume 1
No ratings yet
Resume 1
3 pages
ES190 Inertia Briefing Sheet 2021-22 (Resit)
No ratings yet
ES190 Inertia Briefing Sheet 2021-22 (Resit)
6 pages
Week 2 - Manufacturing - Initial Reading For Case Study
No ratings yet
Week 2 - Manufacturing - Initial Reading For Case Study
4 pages
Anurag's Resume - 6
No ratings yet
Anurag's Resume - 6
1 page
Homework9 Due 11-30
No ratings yet
Homework9 Due 11-30
4 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
406 QM MCQ 75
No ratings yet
406 QM MCQ 75
3 pages
Monokomponen
No ratings yet
Monokomponen
3 pages
Documentation of Sample Size For Comparing Two Means: Msoe@sph - Emory.edu CDCKMS@SPH - Emory.edu
No ratings yet
Documentation of Sample Size For Comparing Two Means: Msoe@sph - Emory.edu CDCKMS@SPH - Emory.edu
3 pages
Module 3 Assesment MTH 310
No ratings yet
Module 3 Assesment MTH 310
3 pages
Summary-Mrs. Shehla Zia Vs WAPDA: Syed Ijlal Haider ERP 13309 Course: Legal and Regulatory Environment For Business
No ratings yet
Summary-Mrs. Shehla Zia Vs WAPDA: Syed Ijlal Haider ERP 13309 Course: Legal and Regulatory Environment For Business
1 page
Non-Anonymous Question
No ratings yet
Non-Anonymous Question
3 pages
Data Cleaning R
No ratings yet
Data Cleaning R
2 pages

04 Data Cleaning in R

Uploaded by

04 Data Cleaning in R

Uploaded by

4- Data cleansing in R

Difference between parametric and non-parametric

Business Statistics: Data Cleaning 2

Difference between descriptive and inferential

Business Statistics: Data Cleaning 3

Difference between Parameter and statistic?

Business Statistics: Data Cleaning 4

Sometimes referred to as data wrangling is the

Business Statistics: Data Cleaning 5

Business Statistics: Data Cleaning 7

NA’s are the missing casses

Business Statistics: Data Cleaning 8

df.clean contains 111 rows

df.clean3 <- df[, colSums(is.na(df))<10]

Business Statistics: Data Cleaning 21

upFenceWind <- Q3 + 1.5 * IQR_wind

box plot of clean4 shows no outlier in

You might also like