0% found this document useful (0 votes)

4 views

Pre Processing

The document outlines a process for handling missing values in a dataset using R, including methods to replace missing values with mean, median, and mode. It also describes steps to remove duplicate rows, convert categorical columns to factors, perform one-hot encoding, and normalize a specific column. The code snippets provided demonstrate these data preprocessing techniques.

Uploaded by

عبد ا للہ

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Pre Processing

Uploaded by

عبد ا للہ

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

df <- read.csv("dataset.

csv", header = TRUE, stringsAsFactors = FALSE)

sum(is.na(df)) # Total missing values

colSums(is.na(df)) # Missing values per column

c) Replacing Missing Values

# Replace missing values in a column with mean

df$Column1[is.na(df$Column1)] <- mean(df$Column1, na.rm =

TRUE)

# Replace missing values with median

df$Column1[is.na(df$Column1)] <- median(df$Column1, na.rm =

TRUE)

# Replace missing values with mode

mode_function <- function(x) {

unique_x <- unique(x)

unique_x[which.max(tabulate(match(x, unique_x)))]

df$Column1[is.na(df$Column1)] <- mode_function(df$Column1)

df <- df[!duplicated(df), ] # Remove duplicate rows

# Convert categorical column to factors

df$Category <- as.factor(df$Category)

# One-hot encoding (dummy variables)

library(dummies)

df_encoded <- dummy.data.frame(df, names = c("Category"), sep =

"_")

Normalization

df$Column1 <- (df$Column1 - min(df$Column1)) / (max(df$Column1)

- min(df$Column1))

df$Column1 <- (df$Column1 - mean(df$Column1, na.rm = TRUE)) /

sd(df$Column1, na.rm = TRUE)

HANDLING MISSING VALUES AND OUTLIERS
No ratings yet
HANDLING MISSING VALUES AND OUTLIERS
4 pages
Data Cleaning
No ratings yet
Data Cleaning
2 pages
Experiment 5
No ratings yet
Experiment 5
13 pages
Chapter 2. Pre-Processing Data
No ratings yet
Chapter 2. Pre-Processing Data
37 pages
EXP-12_IAIML
No ratings yet
EXP-12_IAIML
13 pages
Missing Data
No ratings yet
Missing Data
14 pages
Data Cleaning R
No ratings yet
Data Cleaning R
16 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
00a217fb-9d73-44e4-90d5-954e50b0c3db
No ratings yet
00a217fb-9d73-44e4-90d5-954e50b0c3db
2 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
Unit - 3 - R Programming
No ratings yet
Unit - 3 - R Programming
16 pages
FDS_U4.pptx
No ratings yet
FDS_U4.pptx
93 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
materi 4
No ratings yet
materi 4
30 pages
Group 11 - Lab5
No ratings yet
Group 11 - Lab5
4 pages
Da Lab It
No ratings yet
Da Lab It
20 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
Pandas
No ratings yet
Pandas
4 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
Lecture 4 New Data Pre Processing
No ratings yet
Lecture 4 New Data Pre Processing
41 pages
chapter_3
No ratings yet
chapter_3
58 pages
STA1040 MidSem Exam
No ratings yet
STA1040 MidSem Exam
12 pages
Data Cleaning Workshop:: Club Data Science and Cloud Computing
No ratings yet
Data Cleaning Workshop:: Club Data Science and Cloud Computing
6 pages
MATLAB CODE FOR DATA TYPES.
No ratings yet
MATLAB CODE FOR DATA TYPES.
10 pages
Missing Data Imputation Using Singular Value Decomposition
No ratings yet
Missing Data Imputation Using Singular Value Decomposition
6 pages
PreProcessing With R
No ratings yet
PreProcessing With R
6 pages
Unit2
No ratings yet
Unit2
76 pages
Curso Básico de Iniciación A La Programación Con R Álvaro Mauricio Bustamante Lozano
No ratings yet
Curso Básico de Iniciación A La Programación Con R Álvaro Mauricio Bustamante Lozano
9 pages
R Syntax Examples 1
No ratings yet
R Syntax Examples 1
6 pages
Missing Data
No ratings yet
Missing Data
25 pages
Appendix
No ratings yet
Appendix
12 pages
FDA EXP2 E0323040
No ratings yet
FDA EXP2 E0323040
3 pages
DA unit 2 15m handling missing data
No ratings yet
DA unit 2 15m handling missing data
3 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
chapter3 DS
No ratings yet
chapter3 DS
17 pages
DA Lab Manual
No ratings yet
DA Lab Manual
42 pages
handling_mi
No ratings yet
handling_mi
6 pages
Analysis Using Statistical: Introduction & Data Exploration
No ratings yet
Analysis Using Statistical: Introduction & Data Exploration
23 pages
Machine Learning Unit 2
No ratings yet
Machine Learning Unit 2
71 pages
PS-ML-Lect-5-9-Unit-2
No ratings yet
PS-ML-Lect-5-9-Unit-2
114 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
26 pages
Lab File
No ratings yet
Lab File
96 pages
Lect 2
No ratings yet
Lect 2
54 pages
Data Analytics lab manual
No ratings yet
Data Analytics lab manual
47 pages
Untitled Document 5
No ratings yet
Untitled Document 5
3 pages
R Functions
No ratings yet
R Functions
8 pages
Week2 R Program
No ratings yet
Week2 R Program
4 pages
Machine Learning Techniques Lesson 1
No ratings yet
Machine Learning Techniques Lesson 1
9 pages
R Exam
No ratings yet
R Exam
18 pages
A Short List of The Most Useful R Commands
No ratings yet
A Short List of The Most Useful R Commands
11 pages
handling missing values
No ratings yet
handling missing values
5 pages
Assignment-7
No ratings yet
Assignment-7
4 pages
Data Cleansing
No ratings yet
Data Cleansing
18 pages
To find columns with missing values in Excel
No ratings yet
To find columns with missing values in Excel
7 pages
Chapter 1 Introduction To Data Mining
No ratings yet
Chapter 1 Introduction To Data Mining
10 pages
Introduction To Missing Data: Nicholas Tierney
No ratings yet
Introduction To Missing Data: Nicholas Tierney
30 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Profound Linux For Developers
From Everand
Profound Linux For Developers
Onder Teker
No ratings yet
Pre Processing
No ratings yet
Pre Processing
66 pages
Assignment 1 Statement
No ratings yet
Assignment 1 Statement
1 page
ICT Lab Assignment-1
No ratings yet
ICT Lab Assignment-1
3 pages
ICT Assignment 2
No ratings yet
ICT Assignment 2
1 page

Pre Processing

Uploaded by

Pre Processing

Uploaded by

df <- read.csv("dataset.

csv", header = TRUE, stringsAsFactors = FALSE)

sum(is.na(df)) # Total missing values

colSums(is.na(df)) # Missing values per column

c) Replacing Missing Values

# Replace missing values in a column with mean

df$Column1[is.na(df$Column1)] <- mean(df$Column1, na.rm =

# Replace missing values with median

df$Column1[is.na(df$Column1)] <- median(df$Column1, na.rm =

# Replace missing values with mode

mode_function <- function(x) {

unique_x <- unique(x)

df$Column1[is.na(df$Column1)] <- mode_function(df$Column1)

df <- df[!duplicated(df), ] # Remove duplicate rows

# Convert categorical column to factors

df$Category <- as.factor(df$Category)

# One-hot encoding (dummy variables)

df_encoded <- dummy.data.frame(df, names = c("Category"), sep =

df$Column1 <- (df$Column1 - min(df$Column1)) / (max(df$Column1)

df$Column1 <- (df$Column1 - mean(df$Column1, na.rm = TRUE)) /

You might also like