0% found this document useful (0 votes)

14 views8 pages

R programming and ipr

The document outlines methods for handling outliers in datasets using box plots, histograms, and bar charts. It demonstrates how to compute quartiles, identify, and remove outliers from the 'mtcars' and 'airquality' datasets, along with visualizations before and after cleaning the data. Additionally, it includes steps for imputing missing values and comparing original and cleaned data distributions.

Uploaded by

Shenbaga Kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views8 pages

R programming and ipr

Uploaded by

Shenbaga Kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

HANDLING OUTLIERS

Using Box Plot

# Load dataset
data <- mtcars$hp

# Create Box Plot

boxplot(data, main="Boxplot of Horsepower (hp) - Before Removing Outliers",
col="lightblue", horizontal=TRUE)

# Compute Q1, Q3, and IQR

Q1 <- quantile(data, 0.25) # 25th percentile
Q3 <- quantile(data, 0.75) # 75th percentile
IQR <- Q3 - Q1 # Interquartile Range

# Define lower and upper bounds

lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR
print(Q1)
print(Q3)
print(IQR)
print(lower_bound)
print(upper_bound)

# Identify outliers
outliers <- data[data < lower_bound | data > upper_bound]
print(outliers)

# Remove Outliers
data_clean <- data[data >= lower_bound & data <= upper_bound]

# Box Plot After Outlier Removal

boxplot(data_clean, main="Boxplot of Horsepower (hp) - After Removing Outliers",
col="lightgreen", horizontal=TRUE)
Output
> print(Q1) > print(IQR) > print(upper_bound)
25% 75% 75%
96.5 83.5 305.25
> print(Q3) > print(lower_bound) > print(outliers)
75% 25% [1] 335
180 -28.75
Using histogram
# Load dataset
data <- mtcars$hp

# Create Histogram
hist(data, main="Histogram of Horsepower (hp) - Before Handling Outliers",
col="lightblue", xlab="Horsepower (hp)", border="black", breaks=10)

# Compute Q1, Q3, and IQR

Q1 <- quantile(data, 0.25) # 25th percentile
Q3 <- quantile(data, 0.75) # 75th percentile
IQR <- Q3 - Q1 # Interquartile Range

# Define lower and upper bounds

lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR
print(Q1)
print(Q3)
print(IQR)
print(lower_bound)
print(upper_bound)

# Identify outliers
outliers <- data[data < lower_bound | data > upper_bound]
print(outliers)

# Remove Outliers
data_clean <- data[data >= lower_bound & data <= upper_bound]

# Create Histogram After Removing Outliers

hist(data_clean, main="Histogram of Horsepower (hp) - After Removing Outliers",
col="lightgreen", xlab="Horsepower (hp)", border="black", breaks=10)
Output
> print(Q1) > print(IQR) > print(upper_bound)
25% 75% 75%
96.5 83.5 305.25
> print(Q3) > print(lower_bound) > print(outliers)
75% 25% [1] 335
180 -28.75
Using barplot
# Load the built-in airquality dataset
data("airquality")

# 1. Check for Missing Values in Each Column

cat("Missing Values by Column:\n")
print(colSums(is.na(airquality)))

# 2. Visualize Gaps and Distribution Using Bar Chart

# Count the frequency of each Ozone value (including NA as a category)
ozone_data <- airquality$Ozone
ozone_data[is.na(ozone_data)] <- "Missing"

# Bar chart to show distribution and gaps in Ozone levels

barplot(table(ozone_data),
main = "Ozone Levels with Gaps",
xlab = "Ozone Levels",
ylab = "Frequency",
col = "lightblue",
border = "black",
las = 2, # Make x-axis labels vertical
cex.names = 0.7) # Reduce label size for readability

# 3. Detect Outliers Using Frequency Analysis

# Remove NAs for outlier detection
ozone_data_clean <- na.omit(airquality$Ozone)

# Count the frequency of each value

ozone_freq <- table(ozone_data_clean)
cat("\nFrequency of Ozone Levels:\n")
print(ozone_freq)

# Identify outliers as values with frequency of 1 (rare occurrences)

ozone_outliers <- names(ozone_freq[ozone_freq == 1])
cat("\nDetected Outliers (Rare Values):", ozone_outliers, "\n")

# Bar chart showing frequency distribution (for outlier spotting)

barplot(ozone_freq,
main = "Frequency Distribution of Ozone Levels",
xlab = "Ozone Levels",
ylab = "Frequency",
col = "salmon",
border = "black",
las = 2,
cex.names = 0.7)

# 4. Clean Data: Impute Missing Values with Median

# Impute missing values with median
median_value <- median(ozone_data_clean, na.rm = TRUE)
imputed_ozone <- ifelse(is.na(airquality$Ozone), median_value, airquality$Ozone)

# 5. Compare Before and After Cleaning Using Bar Chart

# Frequency of Original Data (with gaps and outliers)
ozone_freq_original <- table(airquality$Ozone)

# Frequency of Cleaned Data (without gaps and outliers)

ozone_freq_cleaned <- table(imputed_ozone)

# Set layout for side-by-side plots

par(mfrow = c(1, 2))

# Original Data (with gaps and outliers)

barplot(ozone_freq_original,
main = "Original Ozone Levels",
xlab = "Ozone Levels",
ylab = "Frequency",
col = "coral",
border = "black",
las = 2,
cex.names = 0.7)

# Cleaned Data (without gaps and outliers)

barplot(ozone_freq_cleaned,
main = "Cleaned & Imputed Ozone Levels",
xlab = "Ozone Levels",
ylab = "Frequency",
col = "lightgreen",
border = "black",
las = 2, cex.names = 0.7)

# Reset layout
par(mfrow = c(1, 1))
Output

Ipad 9 Invoice
No ratings yet
Ipad 9 Invoice
1 page
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
ML_EX2
No ratings yet
ML_EX2
7 pages
DSI237_GROUP_2
No ratings yet
DSI237_GROUP_2
27 pages
EX no-3
No ratings yet
EX no-3
3 pages
Chapter 2. Pre-Processing Data
No ratings yet
Chapter 2. Pre-Processing Data
37 pages
A110 Rayyan Expt4dep
No ratings yet
A110 Rayyan Expt4dep
9 pages
ds
No ratings yet
ds
14 pages
R code
No ratings yet
R code
9 pages
Explanatory Data Analysis
100% (1)
Explanatory Data Analysis
28 pages
Research File 3
No ratings yet
Research File 3
10 pages
R Studio Quality Management
No ratings yet
R Studio Quality Management
20 pages
L4 Data Preprocessing
No ratings yet
L4 Data Preprocessing
40 pages
Exploratory Data Analysis, Inference, Interpretation
No ratings yet
Exploratory Data Analysis, Inference, Interpretation
45 pages
Assignment 2 PDF
No ratings yet
Assignment 2 PDF
9 pages
ASSIGNMENT NO 808
No ratings yet
ASSIGNMENT NO 808
8 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
HANDLING MISSING VALUES AND OUTLIERS
No ratings yet
HANDLING MISSING VALUES AND OUTLIERS
4 pages
Exemplar_Explore confidence intervals
No ratings yet
Exemplar_Explore confidence intervals
11 pages
Assignment 2 Ds
No ratings yet
Assignment 2 Ds
8 pages
Sahanashree Ex-2 ML (2)
No ratings yet
Sahanashree Ex-2 ML (2)
9 pages
Air Quality Analysis
No ratings yet
Air Quality Analysis
17 pages
DP
No ratings yet
DP
9 pages
Graphics Using R
No ratings yet
Graphics Using R
96 pages
Exploratory Graphs
No ratings yet
Exploratory Graphs
23 pages
Tutorial 4
No ratings yet
Tutorial 4
8 pages
Data cleaning Using R
No ratings yet
Data cleaning Using R
5 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
4 pages
BAB 5-2 MTK Graph in R PT 2 Materi Line Plot
No ratings yet
BAB 5-2 MTK Graph in R PT 2 Materi Line Plot
9 pages
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
100% (1)
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
10 pages
Analysis Using Statistical: Introduction & Data Exploration
No ratings yet
Analysis Using Statistical: Introduction & Data Exploration
23 pages
6. Data Quality and Remediation
No ratings yet
6. Data Quality and Remediation
40 pages
Feature Engineering
No ratings yet
Feature Engineering
35 pages
Lec4 SWN MC
No ratings yet
Lec4 SWN MC
45 pages
Intro To Data Science Lecture 4
No ratings yet
Intro To Data Science Lecture 4
13 pages
Data_Analyzer
No ratings yet
Data_Analyzer
10 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
14 pages
Data Science Project - Flow Graph
No ratings yet
Data Science Project - Flow Graph
7 pages
DV Lab
No ratings yet
DV Lab
52 pages
Chapter 1. Data Preparation (2)
No ratings yet
Chapter 1. Data Preparation (2)
74 pages
DATAMINING
No ratings yet
DATAMINING
24 pages
Exploratory Data Analysis-1 (EDA-1)
No ratings yet
Exploratory Data Analysis-1 (EDA-1)
38 pages
Machine Learning Lab Manual (1)
No ratings yet
Machine Learning Lab Manual (1)
42 pages
ml observation
No ratings yet
ml observation
29 pages
R Basics
No ratings yet
R Basics
18 pages
Unit 2 Dpa Programs
No ratings yet
Unit 2 Dpa Programs
7 pages
Identifying and Handling Outliers in Pandas - A Step-By-Step Guide - by Arvid Eichner - Python in Plain English
No ratings yet
Identifying and Handling Outliers in Pandas - A Step-By-Step Guide - by Arvid Eichner - Python in Plain English
19 pages
EXTRAQC Manual July2013
No ratings yet
EXTRAQC Manual July2013
9 pages
Advanced R Data Analysis Training PDF
No ratings yet
Advanced R Data Analysis Training PDF
72 pages
ML_Lab_Manual (1)
No ratings yet
ML_Lab_Manual (1)
110 pages
Cleaning Data3
No ratings yet
Cleaning Data3
41 pages
ML LAB manual-1
No ratings yet
ML LAB manual-1
33 pages
Lab Wk1soln PDF
No ratings yet
Lab Wk1soln PDF
14 pages
TP2- ML -handling outliers
No ratings yet
TP2- ML -handling outliers
5 pages
Analysis of Hydrocarbon Data - Application of LASSO Regression
No ratings yet
Analysis of Hydrocarbon Data - Application of LASSO Regression
26 pages
R Lab Program
No ratings yet
R Lab Program
20 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
No ratings yet
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
4 pages
shahun term workR1
No ratings yet
shahun term workR1
34 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Digital Image Processing - Lecture Weeks 1&2 PDF
No ratings yet
Digital Image Processing - Lecture Weeks 1&2 PDF
50 pages
Template Springer - AIAMA - 2024-VF
No ratings yet
Template Springer - AIAMA - 2024-VF
7 pages
Ecdis Top Questions
100% (1)
Ecdis Top Questions
2 pages
Python Notes For 12th Class
No ratings yet
Python Notes For 12th Class
6 pages
2 ADM PLUMBING GRADE 9 1st Quarter
83% (6)
2 ADM PLUMBING GRADE 9 1st Quarter
29 pages
Quiz [Verify L1] results _ Your Learning
No ratings yet
Quiz [Verify L1] results _ Your Learning
8 pages
MEP Progress Report
No ratings yet
MEP Progress Report
1 page
Tecnofoam G-2025
No ratings yet
Tecnofoam G-2025
5 pages
Resume
No ratings yet
Resume
3 pages
CX - Airtel and Amdocs Case Study - FINAL
No ratings yet
CX - Airtel and Amdocs Case Study - FINAL
4 pages
Gauri Joshi - UX Research-Resume..
No ratings yet
Gauri Joshi - UX Research-Resume..
2 pages
Ryobi 18 Volt Battery Charger Manual
No ratings yet
Ryobi 18 Volt Battery Charger Manual
24 pages
Powerfactory 2022: Technical Reference
No ratings yet
Powerfactory 2022: Technical Reference
18 pages
Sikaplan WP 1100-15HL
No ratings yet
Sikaplan WP 1100-15HL
2 pages
Real Time Systems - 7th Sem - ECE - VTU - Unit 7 - Design of Real Time Systems - General Introduction - Ramisuniverse
No ratings yet
Real Time Systems - 7th Sem - ECE - VTU - Unit 7 - Design of Real Time Systems - General Introduction - Ramisuniverse
14 pages
Creating High Performance Agile Teams
No ratings yet
Creating High Performance Agile Teams
53 pages
IRIS NV Load Setting
No ratings yet
IRIS NV Load Setting
8 pages
Megawin 8051 Q&A
No ratings yet
Megawin 8051 Q&A
21 pages
Discontinuation Notice - CPM2A To CP1E
No ratings yet
Discontinuation Notice - CPM2A To CP1E
16 pages
Wallaga University School of Graduate Studies
No ratings yet
Wallaga University School of Graduate Studies
28 pages
Prev CSC Log
No ratings yet
Prev CSC Log
4 pages
Ticket 8841151030
No ratings yet
Ticket 8841151030
2 pages
Schneider Electric_PowerLogic-P3-Protection-Relays_REL52022
No ratings yet
Schneider Electric_PowerLogic-P3-Protection-Relays_REL52022
7 pages
BX3171 Assessment 3
No ratings yet
BX3171 Assessment 3
2 pages
Cyber War Law and Ethics For Virtual Conflicts 0198717490 9780198717492
100% (1)
Cyber War Law and Ethics For Virtual Conflicts 0198717490 9780198717492
307 pages
Cooling Bed
No ratings yet
Cooling Bed
14 pages
TR-Carpentry NC III
No ratings yet
TR-Carpentry NC III
151 pages
Migrating A Survey From LimeSurvey To Qualtrics
No ratings yet
Migrating A Survey From LimeSurvey To Qualtrics
11 pages
GSM History
No ratings yet
GSM History
337 pages