0% found this document useful (0 votes)

7 views

Week2 R Program

Uploaded by

pz253

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views

Week2 R Program

Uploaded by

pz253

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

R program:

library(ggplot2)

# Step 1: Read and Examine Data

# Reading data from CSV
data <- read.csv("HMEQ_Loss.csv", na.strings = "")

# Display structure of the data

str(data)

# Display summary statistics

summary(data)

# Display first six records

head(data)

# Step 2: Box-Whisker Plots for numeric variables

create_boxplots <- function(data) {
# Get numeric columns
numeric_cols <- names(data)[sapply(data, is.numeric)]
numeric_cols <- numeric_cols[numeric_cols != "TARGET_BAD_FLAG"]

# Set up plotting area for multiple plots

par(mfrow = c(3, 3)) # Adjust based on number of variables

# Create box plots for each numeric variable

for(col in numeric_cols) {
boxplot(data[[col]] ~ data$TARGET_BAD_FLAG,
main = paste("Distribution of", col),
xlab = "Loan Status (0 = Good, 1 = Bad)",
ylab = col,
col = c("lightblue", "lightgreen"))
}

# Reset plotting area

par(mfrow = c(1, 1))
}

# Step 3: Create Histogram with Density Line

create_histogram <- function(data, variable) {
# Create histogram
hist(data[[variable]],
freq = FALSE,
breaks = 30,
main = paste("Distribution of", variable),
xlab = variable,
col = "lightblue",
border = "white")

# Add density line

lines(density(data[[variable]], na.rm = TRUE),
col = "red",
lwd = 2)
}

# Step 4: Handle Missing Values

impute_data <- function(data) {
# Create copy of original data
imputed_data <- data

# Handle TARGET variables

imputed_data$TARGET_BAD_FLAG[is.na(imputed_data$TARGET_BAD_FLAG)] <- 0
imputed_data$TARGET_LOSS_AMT[is.na(imputed_data$TARGET_LOSS_AMT)] <- 0

# Get numeric columns for imputation (excluding TARGET variables)

numeric_cols <- names(data)[sapply(data, is.numeric)]
numeric_cols <- numeric_cols[!numeric_cols %in% c("TARGET_BAD_FLAG",
"TARGET_LOSS_AMT")]

# Complex imputation for numeric variables

for(col in numeric_cols) {
# Create missing indicator
imputed_data[paste0("M_", col)] <- ifelse(is.na(data[[col]]), 1, 0)

# Perform imputation using median by TARGET_BAD_FLAG group

imputed_values <- tapply(data[[col]], data$TARGET_BAD_FLAG, median, na.rm = TRUE)

# Create new imputed column

imputed_data[paste0("IMP_", col)] <- data[[col]]

# Impute missing values by group

for(flag in c(0, 1)) {
mask <- is.na(imputed_data[paste0("IMP_", col)]) & imputed_data$TARGET_BAD_FLAG ==
flag
imputed_data[mask, paste0("IMP_", col)] <- imputed_values[as.character(flag)]
}
# Remove original column
imputed_data[[col]] <- NULL
}

return(imputed_data)
}

# Step 5: One Hot Encoding

one_hot_encode <- function(data) {
# Identify character columns
char_cols <- names(data)[sapply(data, is.character)]

# Create dummy variables for each character column

for(col in char_cols) {
# Get unique values
unique_values <- unique(data[[col]][!is.na(data[[col]])])

# Create dummy variables

for(value in unique_values) {
new_col_name <- paste0(col, "_", make.names(value))
data[[new_col_name]] <- ifelse(data[[col]] == value, 1, 0)
}

# Remove original column

data[[col]] <- NULL
}

return(data)
}

# Main execution
main <- function() {
# Read data
cat("Reading data...\n")
data <- read.csv("HMEQ_Loss.csv", na.strings = "")

# Step 1: Examine Data

cat("\nData Structure:\n")
str(data)

cat("\nData Summary:\n")
print(summary(data))

cat("\nFirst Six Records:\n")

print(head(data))

# Step 2: Create Box Plots

cat("\nCreating box plots...\n")
create_boxplots(data)

# Step 3: Create Histogram for LOAN amount

cat("\nCreating histogram for LOAN amount...\n")
create_histogram(data, "LOAN")

# Step 4: Handle Missing Values

cat("\nHandling missing values...\n")
imputed_data <- impute_data(data)

cat("\nSummary after imputation:\n")

print(summary(imputed_data))

# Print sum of missing value indicators

m_cols <- names(imputed_data)[startsWith(names(imputed_data), "M_")]
cat("\nNumber of imputed values per variable:\n")
print(colSums(imputed_data[m_cols]))

# Step 5: One Hot Encoding

cat("\nPerforming one-hot encoding...\n")
final_data <- one_hot_encode(imputed_data)

cat("\nFinal Data Structure:\n")

print(str(final_data))

return(final_data)
}

# Run the analysis

Blockchain and Distributed Ledger Technologies
No ratings yet
Blockchain and Distributed Ledger Technologies
34 pages
The Canadian Registered Safety Professional CRSP 1692207708
100% (1)
The Canadian Registered Safety Professional CRSP 1692207708
29 pages
Emax Make Me
No ratings yet
Emax Make Me
1 page
10-Visualization of Streaming Data and Class R Code-10!03!2023
No ratings yet
10-Visualization of Streaming Data and Class R Code-10!03!2023
19 pages
Main.py Text File
No ratings yet
Main.py Text File
5 pages
vertopal.com_R_practical
No ratings yet
vertopal.com_R_practical
9 pages
CheatSheet
No ratings yet
CheatSheet
15 pages
R Lab Program
No ratings yet
R Lab Program
21 pages
Part a r Programming
No ratings yet
Part a r Programming
10 pages
AML_code_for_m2
No ratings yet
AML_code_for_m2
7 pages
23BCE7092_ML_Lab_Assignment[1]
No ratings yet
23BCE7092_ML_Lab_Assignment[1]
14 pages
Aman DA 111
No ratings yet
Aman DA 111
14 pages
1740193353052_Practical 1
No ratings yet
1740193353052_Practical 1
10 pages
External
No ratings yet
External
11 pages
D3 docs
No ratings yet
D3 docs
6 pages
DATA MINING EX1
No ratings yet
DATA MINING EX1
10 pages
R Note
No ratings yet
R Note
56 pages
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
No ratings yet
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
7 pages
R Programs 2024-2025
No ratings yet
R Programs 2024-2025
13 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
21 pages
Data_Analyzer
No ratings yet
Data_Analyzer
10 pages
Csv Connectivity With Gui Interface.py
No ratings yet
Csv Connectivity With Gui Interface.py
6 pages
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Python Intenship
No ratings yet
Python Intenship
34 pages
DATA SCIENCE EXPERIMENTS
No ratings yet
DATA SCIENCE EXPERIMENTS
31 pages
BDA_practical01
No ratings yet
BDA_practical01
5 pages
Digital Assignment-6: Read The Data
No ratings yet
Digital Assignment-6: Read The Data
30 pages
EXP1-siddhant gupta (23_SE_148)
No ratings yet
EXP1-siddhant gupta (23_SE_148)
17 pages
AEC Lab Manual
No ratings yet
AEC Lab Manual
31 pages
FakeNewsDetection Student
No ratings yet
FakeNewsDetection Student
7 pages
8 R Basics 3
No ratings yet
8 R Basics 3
27 pages
ACTIVITY-01(VU22CSCI0100119)
No ratings yet
ACTIVITY-01(VU22CSCI0100119)
7 pages
ml
No ratings yet
ml
23 pages
DOC-20241108-WA0003
No ratings yet
DOC-20241108-WA0003
16 pages
DS Slips Solutions Sem 5
No ratings yet
DS Slips Solutions Sem 5
23 pages
Emp at Tricode
No ratings yet
Emp at Tricode
6 pages
Turn_CSV_data_into_Text2SQL_agent
No ratings yet
Turn_CSV_data_into_Text2SQL_agent
9 pages
Programs Lab Bca
No ratings yet
Programs Lab Bca
16 pages
Correction
No ratings yet
Correction
3 pages
DP
No ratings yet
DP
9 pages
XX
No ratings yet
XX
4 pages
R Practical File
No ratings yet
R Practical File
17 pages
R Assignment 10
No ratings yet
R Assignment 10
12 pages
ACTIVITY-01(VU22CSCI0100119)
No ratings yet
ACTIVITY-01(VU22CSCI0100119)
6 pages
R-programming -Final Lab Manual-2022 (1)
No ratings yet
R-programming -Final Lab Manual-2022 (1)
31 pages
DAVL PR1.2 Mit
No ratings yet
DAVL PR1.2 Mit
10 pages
code
No ratings yet
code
13 pages
Python Lab Programs
No ratings yet
Python Lab Programs
58 pages
وووووو
No ratings yet
وووووو
21 pages
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
No ratings yet
Multi Classification.py(for 1 Class Tp,Tn,Fp,Fn)
25 pages
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
100% (1)
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
10 pages
Ass6(DMDS)
No ratings yet
Ass6(DMDS)
7 pages
5 WEEK Python Programs
No ratings yet
5 WEEK Python Programs
20 pages
Python
No ratings yet
Python
32 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
IP Book 12 Question Bank
No ratings yet
IP Book 12 Question Bank
20 pages
VBA EXAM
No ratings yet
VBA EXAM
2 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
Manual Overview SQL
No ratings yet
Manual Overview SQL
24 pages
R Codes For Graphs
No ratings yet
R Codes For Graphs
2 pages
Visualisation All
0% (1)
Visualisation All
70 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Discovery & Inspection, Order 11
No ratings yet
Discovery & Inspection, Order 11
28 pages
Multicore Cable Schedule 21-12-01
No ratings yet
Multicore Cable Schedule 21-12-01
14 pages
Byers, T. (2017) - Development of An Observational Metric For Linking Pedagogy, Technology and Space. Whats Working. University of Melbourne
No ratings yet
Byers, T. (2017) - Development of An Observational Metric For Linking Pedagogy, Technology and Space. Whats Working. University of Melbourne
13 pages
Ds-pp-0107 - Mechanical Data Sheet For Swivel Joints (Rev.0)
No ratings yet
Ds-pp-0107 - Mechanical Data Sheet For Swivel Joints (Rev.0)
3 pages
Medication Math
100% (1)
Medication Math
48 pages
EVIDENCES OF EVOLUTION Activity To Be Printed
No ratings yet
EVIDENCES OF EVOLUTION Activity To Be Printed
3 pages
SM February 2024 GasibatQais
No ratings yet
SM February 2024 GasibatQais
19 pages
Practice of Introductory Time Series With R
No ratings yet
Practice of Introductory Time Series With R
22 pages
Modal Verbs: How Many Are There?
No ratings yet
Modal Verbs: How Many Are There?
4 pages
Nurs FPX 4050 Assessment 1 Preliminary Care Coordination Plan
No ratings yet
Nurs FPX 4050 Assessment 1 Preliminary Care Coordination Plan
4 pages
Heat Solar Energy
No ratings yet
Heat Solar Energy
6 pages
Aim: Determine The Total Hardness of Given Water Samples
No ratings yet
Aim: Determine The Total Hardness of Given Water Samples
2 pages
The Claw Hammer Top 10
100% (3)
The Claw Hammer Top 10
37 pages
Shriram Housing Finance List-of-collection-agencies
No ratings yet
Shriram Housing Finance List-of-collection-agencies
4 pages
Research Project Report Format MBA IV Sem
No ratings yet
Research Project Report Format MBA IV Sem
3 pages
M3JP 315MLB 6L 400V 50Hz 132kW
No ratings yet
M3JP 315MLB 6L 400V 50Hz 132kW
1 page
Benefit Illustration LIC's Index Plus
No ratings yet
Benefit Illustration LIC's Index Plus
6 pages
Pas FP Mining Minerals en 13 Web Data
No ratings yet
Pas FP Mining Minerals en 13 Web Data
12 pages
Research Progress in The Development of Natural Gas As Fuel For Road Vehicles: A Bibliographic Review (1991-2016)
No ratings yet
Research Progress in The Development of Natural Gas As Fuel For Road Vehicles: A Bibliographic Review (1991-2016)
41 pages
Clinical Biochemistry II
No ratings yet
Clinical Biochemistry II
13 pages
Pa3 Sample Paper
No ratings yet
Pa3 Sample Paper
2 pages
Competition Law Unit-I
No ratings yet
Competition Law Unit-I
71 pages
Case Study - The Street
No ratings yet
Case Study - The Street
16 pages
Multiple Sclerosis
100% (1)
Multiple Sclerosis
22 pages
CMA E Vidyarthi Sep 24-1
No ratings yet
CMA E Vidyarthi Sep 24-1
96 pages
Cme May 2023
No ratings yet
Cme May 2023
23 pages
Signs of Existence of God (Scientific Evidences)
No ratings yet
Signs of Existence of God (Scientific Evidences)
77 pages