0% found this document useful (0 votes)

5 views18 pages

DAY 7 SESSION 2 Cross Validation

Uploaded by

codedrive51

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views18 pages

DAY 7 SESSION 2 Cross Validation

Uploaded by

codedrive51

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 18

Multiple Linear Regression

Model Validation

Day 7
Session 2

1
Cross Validation in Predictive Modeling

• Cross Validation is a process of evaluating the model on ‘Out of Sample’ data.

• Model performance measures such as R squared or Root Mean Squared

Error(RMSE) tend to be optimistic on 'In Sample Data'.

• More realistic measures of model performance are calculated using "Out of

Sample' data.

• cross-validation is a procedure for estimating the generalization performance

in this context.

2
Cross Validation in Predictive Modeling
Methods

• Hold-Out Validation

• K-Fold Cross-Validation

• Repeated K-Fold Cross-Validation

• Leave-One-Out Cross-Validation(LOOCV)

3
Introduction to Caret Package in R

• The caret package (short for Classification And REgression Training) is a set of
functions that attempt to streamline the process for creating predictive models.

• The package contains tools for:

 data splitting
 pre-processing
 feature selection
 model tuning using resampling
 variable importance estimation

4
Snapshot of the Data
Predicting Claim Amount
n=1000
VehicleAge CC Length Weight Claimamt
4 1495 4250 1023 72000
2 1061 3495 875 72000
2 1405 3675 980 50400
7 1298 4090 930 39960
2 1495 4250 1023 106800
1 1086 3565 854 69592
4 796 3495 740 38400
4 1061 3520 830 43182
2 796 3335 665 40346
1 1405 3675 980 76800
0 1086 3565 854 77822
2 1061 3520 825 72000
3 2499 4435 1585 88560
3 1405 3675 980 48000
8 1405 3675 980 25920
2 796 3335 665 43358
2 1086 3565 854 67200
1 1405 3675 980 78000
2 1396 3675 980 57216

5
Recap: Model Output
Parameter Estimates

Variance
Parameter Standard Inflation
Variable DF Estimate Error t Value Pr > |t| (VIF)
Intercept 1 -49195 5475.1511 -8.99 <.0001 0
VehicleAge 1 -6638.0765 155.5247 -42.68 <.0001 1.03836
CC 1 8.6886 1.4809 5.87 <.0001 2.83393
Length 1 32.0652 1.8522 17.31 <.0001 2.88972

R2 =73.19%.
#Variable weight was excluded
to correct multicollinearity problem.
-4 -3 -2 -1 0 1 2 3 4

6
Cross Validation in Predictive Modeling
Hold-Out Validation

• In Hold-Out validation method available data is split into two non-overlapped

parts: 'Training Data' and 'Testing Data'

• The model is developed using training data and evaluated using testing data.

• Training data should have more sample size. Typically 70%-80% data is used for
model development.

Training Data: data used to fit model

Test Data: “fresh” data used to
evaluate model

7
Hold-Out Validation in R

#import csv file 'Motor Insurance claim amount’

motor<-read.csv(file.choose(),header=T)
library(caret)

#Partition data into 2 parts. P=0.8 indicates partition is 80:20

index<-createDataPartition(motor$claimamt,p=0.8,list=FALSE)
head(index)
createDataPartition function generates list of observation
dim(index) numbers to be included in training data.

traindata<-motor[index,] Now we have training and testing data sets

testdata<-motor[-index,] ready.

dim(traindata)
dim(testdata)

8
Hold-Out Validation in R…..

motor_model<-lm(claimamt~Length+CC+vehage,data=traindata)
traindata$res<-residuals(motor_model)
head(traindata)
RMSEtrain<-sqrt(mean(traindata$res**2))
Overall Performance Measures
RMSEtrain RMSE: 11444.51
[1] 11512.18 Multiple R-squared: 0.7327

testdata$pred<-predict(motor_model,testdata)
testdata$res<-(testdata$claimamt-testdata$pred)
RMSEtest<-sqrt(mean(testdata$res**2))
RMSEtest
[1] 11181.45 RMSE values indicate stable model

9
rmse function in ModelMetrics

# Obtain predicted values of Y

traindata$fit<-fitted(motor_model)

install.packages("ModelMetrics")
library(ModelMetrics)

# rmse function requires observed and predicted values of Y

rmse(traindata$claimamt,traindata$fit)

10
Cross Validation in Predictive Modeling
K-Fold Cross-Validation

• In k-fold cross-validation the data is first partitioned into k equally (or nearly
equally) sized segments or folds.

• Here k iterations of training and testing are performed such that each time one
fold is kept aside for testing and model is developed using k-1 folds.

• Model performance measure is aggregate measure based on above iterations.

11
Cross Validation in Predictive Modeling
K-Fold Cross-Validation

12
K-Fold Cross-Validation in R

library(caret)
kfolds<-trainControl(method="cv",number=4)
model<-
train(claimamt~vehage+CC+Length,data=motor,method="lm",
trControl=kfolds)
model
__________________________________________________________________
Linear Regression
1000 samples
3 predictor Overall Performance Measures
RMSE: 11444.51
No pre-processing Multiple R-squared: 0.7327
Resampling: Cross-Validated (4 fold)
Summary of sample sizes: 749, 751, 750, 750
Resampling results:
RMSE values indicate stable model
RMSE Rsquared
13
11544.92 0.7286847
Cross Validation in Predictive Modeling
Repeated K-Fold Cross-Validation

• k-fold cross-validation can be repeated 'm' times to arrive at more robust

measure of model performance.

• Repeated k-fold CV does the same as above but more than once. For example,
five repeats of 10-fold CV would give 50 total resamples that are averaged. Note
this is not the same as 50-fold CV.

• The process requires computer with good computing power.

14
Repeated K-Fold Cross-Validation in R

library(caret)
kfolds<-trainControl(method="repeatedcv",number=4,repeats=5)
model<-
train(claimamt~vehage+CC+Length,data=motor,method="lm",
trControl=kfolds)
model
__________________________________________________________________
Overall Performance Measures
Linear Regression RMSE: 11444.51
1000 samples Multiple R-squared: 0.7327
3 predictor

No pre-processing
Resampling: Cross-Validated (4 fold, repeated 5 times)
Summary of sample sizes: 750, 750, 750, 750, 750, 748, ...
Resampling results: RMSE values indicate stable model

RMSE Rsquared
15
11498.15 0.7319296
Cross Validation in Predictive Modeling
Leave-One-Out Cross-Validation(LOOCV)

• Leave-one-out cross-validation (LOOCV) is a special case of k-fold cross-validation

where k equals the sample size (k=n)

• Let observation number i is kept aside. The model is developed using the remaining
data. Observation number i is predicted using the model and error is computed.

• The process is repeated for all i ( repeated n times).

• RMSE is computed based on these predicted residuals.

16
Leave-One-Out Cross-Validation(LOOCV) in R

library(caret)
kfolds<-trainControl(method="LOOCV")
model<-
train(claimamt~vehage+CC+Length,data=motor,method="lm",
trControl=kfolds)
model
__________________________________________________________________
Overall Performance Measures
Linear Regression
RMSE: 11444.51
1000 samples
Multiple R-squared: 0.7327
3 predictor

No pre-processing
Resampling: Leave-One-Out Cross-Validation
Summary of sample sizes: 999, 999, 999, 999, 999, 999, ...
Resampling results: RMSE values indicate stable model

RMSE Rsquared
17
11515.85 0.7294088
THANK YOU!!

ICDL Data Analytics - Foundation 1.0
No ratings yet
ICDL Data Analytics - Foundation 1.0
228 pages
Computed Tomography Breakthrough by Slidesgo
No ratings yet
Computed Tomography Breakthrough by Slidesgo
41 pages
Text Data Management and Analysis PDF
100% (3)
Text Data Management and Analysis PDF
531 pages
Cosmetics Analysis
50% (2)
Cosmetics Analysis
33 pages
18 CV & Model Selection
No ratings yet
18 CV & Model Selection
11 pages
Chapter2 1 33
No ratings yet
Chapter2 1 33
18 pages
hw16 109090023
No ratings yet
hw16 109090023
22 pages
Cross Validation
No ratings yet
Cross Validation
37 pages
Class 9 After
No ratings yet
Class 9 After
38 pages
MI - Unit 5
No ratings yet
MI - Unit 5
72 pages
P-2.1.2 Cross Validation and Regularization
No ratings yet
P-2.1.2 Cross Validation and Regularization
37 pages
Validation Model 2024-2
No ratings yet
Validation Model 2024-2
37 pages
Ch5 Resampling Methods
No ratings yet
Ch5 Resampling Methods
66 pages
Cross-Validation and Model Selection
No ratings yet
Cross-Validation and Model Selection
46 pages
Classification
No ratings yet
Classification
4 pages
List Steps in Data Preparation. Give Short Description of Each Step
No ratings yet
List Steps in Data Preparation. Give Short Description of Each Step
20 pages
Cross Validation
No ratings yet
Cross Validation
5 pages
Discussion 3 Supervised
No ratings yet
Discussion 3 Supervised
14 pages
INSY662 - F23 - Week 3-1
No ratings yet
INSY662 - F23 - Week 3-1
22 pages
Unit 5 (ML)
No ratings yet
Unit 5 (ML)
25 pages
Week7 Lecture 1 ML SPR25
No ratings yet
Week7 Lecture 1 ML SPR25
23 pages
Resampling Methods
No ratings yet
Resampling Methods
15 pages
5 CV Boot-Handout PDF
No ratings yet
5 CV Boot-Handout PDF
44 pages
Lect 03 Evaluation Part 2
No ratings yet
Lect 03 Evaluation Part 2
40 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
MIS410 Lecture8toLecture10
No ratings yet
MIS410 Lecture8toLecture10
13 pages
ISYE 6501 Georgia Tech hmwk3.1b
No ratings yet
ISYE 6501 Georgia Tech hmwk3.1b
5 pages
PE IV - Practical Machine Learning
No ratings yet
PE IV - Practical Machine Learning
7 pages
Cross Validation - Notes
No ratings yet
Cross Validation - Notes
10 pages
CH 05 Optimization Technique
No ratings yet
CH 05 Optimization Technique
58 pages
Crossvalidation - 1
No ratings yet
Crossvalidation - 1
30 pages
Machine Learning: Cross Validation Machine Learning by Tom M. Mitchell Muhammad Affan Alim
No ratings yet
Machine Learning: Cross Validation Machine Learning by Tom M. Mitchell Muhammad Affan Alim
56 pages
EDA Module 2
No ratings yet
EDA Module 2
28 pages
On Estimating Model Accuracy
No ratings yet
On Estimating Model Accuracy
6 pages
DAV Module 2
No ratings yet
DAV Module 2
21 pages
ML Unit 4 Trupesh Patel
No ratings yet
ML Unit 4 Trupesh Patel
56 pages
10 CV Val1
No ratings yet
10 CV Val1
26 pages
4-ResamplingMethods 1
No ratings yet
4-ResamplingMethods 1
23 pages
Lecture Slide 02 - Supervised Learning - Summer 2023
No ratings yet
Lecture Slide 02 - Supervised Learning - Summer 2023
43 pages
Week 10 - PROG 8510 Week 10
No ratings yet
Week 10 - PROG 8510 Week 10
16 pages
Ovefitting, Generalization, Cross Validation
No ratings yet
Ovefitting, Generalization, Cross Validation
20 pages
ISYE6501 Homework 2
No ratings yet
ISYE6501 Homework 2
11 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
Lecture-4 Model Evaluation
No ratings yet
Lecture-4 Model Evaluation
28 pages
Section 1: Cross-Validation and Model Performance
No ratings yet
Section 1: Cross-Validation and Model Performance
33 pages
Cross Validation
No ratings yet
Cross Validation
6 pages
Unit 5 ML
No ratings yet
Unit 5 ML
21 pages
2022hw01sol Na Na
No ratings yet
2022hw01sol Na Na
11 pages
Embed Lec Midterm Reviewer
No ratings yet
Embed Lec Midterm Reviewer
14 pages
Unit 2
No ratings yet
Unit 2
28 pages
INSY446 - 02 - Linear Model Part 1
No ratings yet
INSY446 - 02 - Linear Model Part 1
27 pages
DATA ANALYSIS UNIT 4 Notes
No ratings yet
DATA ANALYSIS UNIT 4 Notes
19 pages
Statistical Learning: Master in Data Science For Management
No ratings yet
Statistical Learning: Master in Data Science For Management
47 pages
Cross Validation
No ratings yet
Cross Validation
14 pages
A Short Introduction To The Caret Package: Max Kuhn June 20, 2013
No ratings yet
A Short Introduction To The Caret Package: Max Kuhn June 20, 2013
10 pages
ECS171: Machine Learning: Lecture 13: Validation, Model Selection
No ratings yet
ECS171: Machine Learning: Lecture 13: Validation, Model Selection
32 pages
Cross Validation
No ratings yet
Cross Validation
7 pages
Bias Varience Trade Off
100% (2)
Bias Varience Trade Off
35 pages
ML-4th Unit
No ratings yet
ML-4th Unit
44 pages
Model Evaluation and Cross-Validation Methods
No ratings yet
Model Evaluation and Cross-Validation Methods
3 pages
01 Showcase Your Work
No ratings yet
01 Showcase Your Work
1 page
Chapter I-V
No ratings yet
Chapter I-V
192 pages
Supervised Learning Workshop
No ratings yet
Supervised Learning Workshop
30 pages
39 77 1 SM PDF
No ratings yet
39 77 1 SM PDF
17 pages
Thai Cuisine - Introduction
No ratings yet
Thai Cuisine - Introduction
13 pages
CIS 674 Introduction To Data Mining: Srinivasan Parthasarathy Srini@cse - Ohio-State - Edu Office Hours: TTH 2-3:18PM DL317
No ratings yet
CIS 674 Introduction To Data Mining: Srinivasan Parthasarathy Srini@cse - Ohio-State - Edu Office Hours: TTH 2-3:18PM DL317
40 pages
AD-LAB-SoI-Coursera-Syllabus-Mapping
No ratings yet
AD-LAB-SoI-Coursera-Syllabus-Mapping
172 pages
Kelompok 5 - Biostatistik Intermediet
No ratings yet
Kelompok 5 - Biostatistik Intermediet
8 pages
Lab4 Orthogonal Contrasts and Multiple Comparisons
No ratings yet
Lab4 Orthogonal Contrasts and Multiple Comparisons
14 pages
John Miller CV
No ratings yet
John Miller CV
1 page
International Islamic University Islamabad The Mobile Phone Company
No ratings yet
International Islamic University Islamabad The Mobile Phone Company
3 pages
Understanding Student Performance Through Clustering in Educational Data Mining
No ratings yet
Understanding Student Performance Through Clustering in Educational Data Mining
3 pages
STEM Teaching Tool 30 Task Formats For 3D Assessment Design v2
No ratings yet
STEM Teaching Tool 30 Task Formats For 3D Assessment Design v2
16 pages
Instrumental Variables
No ratings yet
Instrumental Variables
28 pages
Assignment Week 2 BDA
No ratings yet
Assignment Week 2 BDA
4 pages
Dsbda Ut3
No ratings yet
Dsbda Ut3
14 pages
12 Perform Analytics in Power BI
No ratings yet
12 Perform Analytics in Power BI
33 pages
Ms A 2011 Load Forecasting Workshop
No ratings yet
Ms A 2011 Load Forecasting Workshop
47 pages
Coefficient of Determination PDF
No ratings yet
Coefficient of Determination PDF
7 pages
Group 4 - AEC1
No ratings yet
Group 4 - AEC1
17 pages
Penting 2
No ratings yet
Penting 2
22 pages
Powerpoint Presentation - Data Transformation
No ratings yet
Powerpoint Presentation - Data Transformation
3 pages
5.2test Statistics For Population Mean - 075022
No ratings yet
5.2test Statistics For Population Mean - 075022
45 pages
Data Science QB
No ratings yet
Data Science QB
42 pages
Measures of Central Tendency
100% (15)
Measures of Central Tendency
15 pages
Siphelele Dlamini-1
No ratings yet
Siphelele Dlamini-1
4 pages

DAY 7 SESSION 2 Cross Validation

Uploaded by

DAY 7 SESSION 2 Cross Validation

Uploaded by

Multiple Linear Regression

• Cross Validation is a process of evaluating the model on ‘Out of Sample’ data.

• Model performance measures such as R squared or Root Mean Squared

• More realistic measures of model performance are calculated using "Out of

• cross-validation is a procedure for estimating the generalization performance

• Repeated K-Fold Cross-Validation

• The package contains tools for:

• In Hold-Out validation method available data is split into two non-overlapped

Training Data: data used to fit model

#import csv file 'Motor Insurance claim amount’

#Partition data into 2 parts. P=0.8 indicates partition is 80:20

traindata<-motor[index,] Now we have training and testing data sets

# Obtain predicted values of Y

# rmse function requires observed and predicted values of Y

• Model performance measure is aggregate measure based on above iterations.

• k-fold cross-validation can be repeated 'm' times to arrive at more robust

• The process requires computer with good computing power.

• Leave-one-out cross-validation (LOOCV) is a special case of k-fold cross-validation

• The process is repeated for all i ( repeated n times).

• RMSE is computed based on these predicted residuals.

You might also like