0% found this document useful (0 votes)

31 views5 pages

Code Documentation: Loading The Packages

This document outlines code for analyzing pulsar star data. It loads packages, reads in training and test data, joins the datasets and renames columns. It checks for NAs, plots correlations, performs imputation, scales features, splits the data into training, validation and test sets. A support vector machine (SVM) model with a linear kernel is trained on the training set and validated on the held-out validation set. Predictions are made on the test set and a confusion matrix is plotted to evaluate model performance. The predicted test labels are written to a CSV file.

Uploaded by

Shashwat Patel mm19b053

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views5 pages

Code Documentation: Loading The Packages

Uploaded by

Shashwat Patel mm19b053

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Code Documentation

Loading the packages

library(tidyverse)
library(mice)
library(ggcorrplot)
library(ggthemes)
library(e1071)
library(caret)
library(scales)

Reading the data

train<-read_csv("pulsar_data_train.csv")
test<-read_csv("pulsar_data_test.csv")

Renaming the columns of the dataset and joining both test and
train data

colnames(train)<-c("Mean_IP","SD_IP","EK_IP","Skew_IP","Mean_DMSNR","SD_DMSNR",
"EK_DMSNR","Skew_DMSNR","class")

colnames(test)<-c("Mean_IP","SD_IP","EK_IP","Skew_IP","Mean_DMSNR","SD_DMSNR",
"EK_DMSNR","Skew_DMSNR","class")

full_data<-full_join(train,test)

Function to check number of NAs in the data

na_check<-function(dataset){
sapply(dataset,function(x) sum(is.na(x)))
}

1
Basic summary of data

str(full_data)
summary(full_data)

na_check(full_data[,-9])

na_check(train)

na_check(test[,-9])

Correlation plot

correlation<-cor(full_data[,-9],use="na.or.complete")

ggcorrplot(correlation, hc.order = TRUE,lab = TRUE)

Imputation and data preprocessing

class<-full_data[,9]
full_dat_without_class<-full_data[-9]

imputed_Data <- mice(full_dat_without_class, m=5, maxit = 50, method = 'pmm', seed = 500)
completeData <- complete(imputed_Data,2)

full_data<-completeData
full_data$class<-class$class

full_data$class<-as.factor(full_data$class)

Setting up the theme for visualization

my_theme<-theme_fivethirtyeight()+theme(plot.title = element_text(hjust = 0.5,size=20),

axis.title = element_text(size=20),
axis.text = element_text(size=14),
plot.subtitle = element_text(hjust=0.5),
legend.position = "top",
legend.title = element_text(size=15),
legend.text = element_text(size=15))

Fig 4

2
full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Mean_IP,Skew_IP,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Mean Vs Skewness of Integrated Profile")+
my_theme

Fig 5

full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Skew_IP,EK_IP,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Skewness Vs Excess kurtosis of Integrated Profile")+
my_theme

Fig 6

full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Mean_IP,SD_IP,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Mean Vs Standard Deviation of Integrated Profile")+
my_theme

Fig 7

full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Mean_DMSNR,SD_DMSNR,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Mean Vs Standard Deviation of DM-SNR curve")+
my_theme

Fig 8

full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Mean_DMSNR,EK_DMSNR,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Mean Vs Excess kurtosis of DM-SNR curve")+
my_theme

3
Fig 9

full_data%>%filter(!is.na(class))%>%ggplot()+
geom_point(aes(Skew_DMSNR,EK_DMSNR,col=class),size=2)+
scale_color_brewer(palette = "Set1")+
labs(title="Skewness Vs Excess kurtosis of DM-SNR curve")+
my_theme

Feature Scaling

full_data[,1:8]<-scale(full_data[,1:8])

Splitting the training, validation, test dataset

set.seed(1)

train<-full_data%>%filter(!is.na(class))

Index <- createDataPartition(train$class,p=0.8,list=FALSE)

train_data<-train[Index,]

validation_data<-train[-(Index),]

test<-full_data%>%filter(is.na(class))

Model

classifier_1<- svm(formula = class ~ .,

data = train_data,
type = 'C-classification',
kernel = 'linear')

val_pred<-predict(classifier_1,newdata = validation_data[,-9])

test_pred<- predict(classifier_1, newdata = test[,-9])

test$class<-test_pred

Confusion Matrix and Plot

4
cm_model1<-confusionMatrix(val_pred,validation_data$class)

cm_dataframe<-as.data.frame(cm_model1$table)

ggplot(data =cm_dataframe ,
aes(x = Reference, y = Prediction)) +
geom_tile(aes(fill = log(Freq)), colour = "white") +
scale_fill_gradient(low = "white", high = "steelblue") +
geom_text(aes(x = Reference, y = Prediction, label = Freq),size=6) +
labs(x="True Class",y="Predicted Class")+
ggtitle(paste("Accuracy:",percent_format()(cm_model1$overall[1])))+
theme_fivethirtyeight()+
theme(legend.position = "none",
axis.title = element_text(size=20),
axis.text = element_text(size=14),
plot.title = element_text(hjust=0.5,size=20))

Write predicted data csv

write.csv(test,file = "predicted.csv",row.names = FALSE)

Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
330 Lecture2 2015 PDF
No ratings yet
330 Lecture2 2015 PDF
24 pages
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Hasil Output
No ratings yet
Hasil Output
20 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
4 Preprocessing
No ratings yet
4 Preprocessing
72 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
Data Preparation .1
No ratings yet
Data Preparation .1
37 pages
Lec 3 Data Preprocessing and Transformation
No ratings yet
Lec 3 Data Preprocessing and Transformation
73 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
02 - 23ECE216 - EDA - Pre Processing
No ratings yet
02 - 23ECE216 - EDA - Pre Processing
16 pages
DM Chapter 3 Data Preprocessing
No ratings yet
DM Chapter 3 Data Preprocessing
76 pages
8 Feature Engineering
No ratings yet
8 Feature Engineering
29 pages
Feature Engineering 1708311524
No ratings yet
Feature Engineering 1708311524
48 pages
OUTPUT3
No ratings yet
OUTPUT3
3 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Lecture 3 - Data Preprocessing
No ratings yet
Lecture 3 - Data Preprocessing
50 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Ex 10 - Decision Tree With Rpart and Fancy Plot and Cardio Data
No ratings yet
Ex 10 - Decision Tree With Rpart and Fancy Plot and Cardio Data
4 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
File Rhysna 1
No ratings yet
File Rhysna 1
13 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
DA Unit 2 15m Handling Missing Data
No ratings yet
DA Unit 2 15m Handling Missing Data
3 pages
Tugas x1 x1
No ratings yet
Tugas x1 x1
8 pages
Metode Penelitian
No ratings yet
Metode Penelitian
5 pages
Tutorial-Identifying and Imputation of Missing Values
No ratings yet
Tutorial-Identifying and Imputation of Missing Values
20 pages
2 - Machine Learning - 130824
No ratings yet
2 - Machine Learning - 130824
81 pages
Lec 45
No ratings yet
Lec 45
9 pages
Tesis P
No ratings yet
Tesis P
11 pages
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
MLM Report Customer Churn
No ratings yet
MLM Report Customer Churn
17 pages
ML - Preprocessing - Introduction
No ratings yet
ML - Preprocessing - Introduction
14 pages
Project 2 Factor Hair Revised Case Study
No ratings yet
Project 2 Factor Hair Revised Case Study
25 pages
The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
Data Preprocessing PT 2
No ratings yet
Data Preprocessing PT 2
7 pages
Machine Learning Mindmap PDF
100% (1)
Machine Learning Mindmap PDF
5 pages
LectureSlidesDA00 Topics
No ratings yet
LectureSlidesDA00 Topics
31 pages
Correlations: Correlations /variables X1 Y /print Twotail Nosig /missing Pairwise
No ratings yet
Correlations: Correlations /variables X1 Y /print Twotail Nosig /missing Pairwise
7 pages
Preprocessing Techniques
No ratings yet
Preprocessing Techniques
63 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
03preprocessing DMDW
No ratings yet
03preprocessing DMDW
81 pages
PPT1
No ratings yet
PPT1
93 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
6 Data Preprocessing
No ratings yet
6 Data Preprocessing
37 pages
Week3 - Data Preprocessing, Extraction and Preparation
No ratings yet
Week3 - Data Preprocessing, Extraction and Preparation
34 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
Lecture 7 - Data Preprocessing - Cleaning-M
No ratings yet
Lecture 7 - Data Preprocessing - Cleaning-M
21 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Decision Tree
No ratings yet
Decision Tree
10 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
UpdatedUnit 1 Data Preprocessing
No ratings yet
UpdatedUnit 1 Data Preprocessing
38 pages
Missing Data
No ratings yet
Missing Data
14 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Validitas Faktor
No ratings yet
Validitas Faktor
26 pages
Npar Tests: Notes
No ratings yet
Npar Tests: Notes
5 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Tugas Suci
No ratings yet
Tugas Suci
12 pages
Code Doc
No ratings yet
Code Doc
5 pages
Code Doc
No ratings yet
Code Doc
14 pages
Assignment 1 (MM19B053)
No ratings yet
Assignment 1 (MM19B053)
20 pages
Assignment 3
No ratings yet
Assignment 3
1 page
Serverless Computing
No ratings yet
Serverless Computing
7 pages
Esfuerzos en Vigas - PDF
No ratings yet
Esfuerzos en Vigas - PDF
6 pages
Daylighting Streams Text
No ratings yet
Daylighting Streams Text
6 pages
Chemistry Class 10
No ratings yet
Chemistry Class 10
8 pages
The Role of Peer Interaction and Second Language Learning For Esl Students in Academic Contexts: An Extended Literature Review
No ratings yet
The Role of Peer Interaction and Second Language Learning For Esl Students in Academic Contexts: An Extended Literature Review
74 pages
CNC Nots 802d or 840d DX150
No ratings yet
CNC Nots 802d or 840d DX150
75 pages
Test Bank For Community Policing A Contemporary Perspective 6th Edition Kappelerdownload
100% (12)
Test Bank For Community Policing A Contemporary Perspective 6th Edition Kappelerdownload
32 pages
CMAT - Module 3 Answer Key (QA - DI - LR)
No ratings yet
CMAT - Module 3 Answer Key (QA - DI - LR)
8 pages
Đề thi minh họa số 16
No ratings yet
Đề thi minh họa số 16
6 pages
Book Sizes
No ratings yet
Book Sizes
9 pages
Kuvempu. Universe
No ratings yet
Kuvempu. Universe
73 pages
21UGYS01 - Mapping Techniques
No ratings yet
21UGYS01 - Mapping Techniques
109 pages
Strategic Moves: Amrutanjan Rebranding: It's Gone
No ratings yet
Strategic Moves: Amrutanjan Rebranding: It's Gone
19 pages
Modeling Class X AI
No ratings yet
Modeling Class X AI
24 pages
Lecture 7-2
No ratings yet
Lecture 7-2
37 pages
C' Ifornia: California Code Ol, Regulations
No ratings yet
C' Ifornia: California Code Ol, Regulations
62 pages
Dot Matrix Printer (DMP)
No ratings yet
Dot Matrix Printer (DMP)
12 pages
WhatsApp Chat PDF
No ratings yet
WhatsApp Chat PDF
1 page
ARDUINO SOLAR CHARGE CONTROLLER Version 30
No ratings yet
ARDUINO SOLAR CHARGE CONTROLLER Version 30
79 pages
Rb183210 Mpa Craft Guidebook FA
100% (1)
Rb183210 Mpa Craft Guidebook FA
23 pages
Intermittent Fasting
100% (1)
Intermittent Fasting
36 pages
8 D Report Format
No ratings yet
8 D Report Format
9 pages
Test Initial Engleza Clasa A 8 A
No ratings yet
Test Initial Engleza Clasa A 8 A
2 pages
Unit 13 Listening
No ratings yet
Unit 13 Listening
1 page
Detailed Lesson Plan
No ratings yet
Detailed Lesson Plan
6 pages
To 15a8-4-10-3 Navair 03-30ak-103
No ratings yet
To 15a8-4-10-3 Navair 03-30ak-103
42 pages
20 Questions 35 Minutes
No ratings yet
20 Questions 35 Minutes
7 pages
Angular JS-8
No ratings yet
Angular JS-8
87 pages
Job Portal
82% (11)
Job Portal
17 pages
Happy Birthday
No ratings yet
Happy Birthday
2 pages
Mycbseguide: Class 12 - Accountancy Sample Paper 07
No ratings yet
Mycbseguide: Class 12 - Accountancy Sample Paper 07
15 pages

Code Documentation: Loading The Packages

Uploaded by

Code Documentation: Loading The Packages

Uploaded by

Code Documentation

Loading the packages

Reading the data

Function to check number of NAs in the data

ggcorrplot(correlation, hc.order = TRUE,lab = TRUE)

Imputation and data preprocessing

Setting up the theme for visualization

my_theme<-theme_fivethirtyeight()+theme(plot.title = element_text(hjust = 0.5,size=20),

Splitting the training, validation, test dataset

Index <- createDataPartition(train$class,p=0.8,list=FALSE)

classifier_1<- svm(formula = class ~ .,

test_pred<- predict(classifier_1, newdata = test[,-9])

Confusion Matrix and Plot

Write predicted data csv

write.csv(test,file = "predicted.csv",row.names = FALSE)

You might also like