0% found this document useful (0 votes)

16 views49 pages

L03 Generalization, Train Test Splits and Validation

Uploaded by

black hello

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views49 pages

L03 Generalization, Train Test Splits and Validation

Uploaded by

black hello

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 49

Model Generalization

Choosing Between Different Complexities

Polynomial Degree Polynomial Degree Polynomial Degree =
=1 =4 15
Model
True Function
Samples

Y Y Y

X X X
How Well Does the Model Generalize?
Polynomial Degree Polynomial Degree Polynomial Degree =
=1 =4 15
Model
True Function
Samples

Y Y Y

X X X

Poor at Training Good at Training

Just Right
Poor at Predicting Poor at Predicting
Underfitting vs Overfitting
Polynomial Degree Polynomial Degree Polynomial Degree =
=1 =4 15
Model
True Function
Samples

Y Y Y

X X X
Underfitting Just Right Overfitting
Bias – Variance Tradeoff
Polynomial Degree Polynomial Degree Polynomial Degree =
=1 =4 15
Model
True Function
Samples

Y Y Y

X X X

High Bias Low Bias

Just Right
Low Variance High Variance
Training and Test Splits
Training and Test Splits

Trainin
g
Data

Test
Data
Using Training and Test Data

Trainin fit the model

g
Data

measure performance
Test - predict label with model
Data - compare with actual
value
- measure error
Using Training and Test Data
Training Data Test Data
x108 x108

4. 4.

0 0
3. 3.

0 0
2. 2.

0 0
1. 1.

0 0
0. 1. 2. 0. 1. 2.
x108 x108
0 0 0 0 0 0
Using Training and Test Data
Training Data Test Data
x108 x108

4. 4.

0 0
3. 3.

0 0
2. 2.

0 0
1. 1.

0 0
0. 1. 2. 0. 1. 2.
x108 x108
0 0 0 0 0 0
Fit the model
Using Training and Test Data
Training Data Test Data
x108 x108

4. 4.

0 0
3. 3.

0 0
2. 2.

0 0
1. 1.

0 0
0. 1. 2. 0. 1. 2.
x108 x108
0 0 0 0 0 0
Make predictions
Using Training and Test Data
Training Data Test Data
x108 x108

4. 4.

0 0
3. 3.

0 0
2. 2.

0 0
1. 1.

0 0
0. 1. 2. 0. 1. 2.
x108 x108
0 0 0 0 Measure
0 error
0
Fitting Training and Test Data
Trainin
g X_train
model.fit( X_train, Y_train ) model
Data Y_train

X_test
Test model
.predict( X_test ) Y_predict
Data

error_metric( Y_test, test error

Y_test Y_predict)
13
Train and Test Splitting: The Syntax
Import the train and test split function
from sklearn.model_selection import train_test_split
Train and Test Splitting: The Syntax
Import the train and test split function
from sklearn.model_selection import train_test_split

Split the data and put 30% into the test set
train, test = train_test_split(data, test_size=0.3)
Train and Test Splitting: The Syntax
Import the train and test split function
from sklearn.model_selection import train_test_split

Split the data and put 30% into the test set
train, test = train_test_split(data, test_size=0.3)

Other method for splitting data:

from sklearn.model_selection import ShuffleSplit
Using Training and Test Data

Trainin
g fit the model
Data

measure performance
Test - predict label with model
Data - compare with actual
value
- measure error

17
Training and Test Splits
Beyond a Single Test Set: Cross Validation

Trainin
g
Data

Validati
on
Data
Beyond a Single Test Set: Cross Validation
Training Data Test Data
x108 x108

4. 4.

0 0
3. 3.

0 0
2. 2.

0 0
1. 1.

0 0
0. 1. 2. 0. 1. 2.
x108 x108
0 0 0 0 0 0
Best model for this test
set
Beyond a Single Test Set: Cross Validation

Trainin
g
Data 1

Validati
on
Data 1
Beyond a Single Test Set: Cross Validation

Training
Data 2

Validati
on
Data 2
Beyond a Single Test Set: Cross Validation

Validati
on
Data 3

Trainin
g
Data 3
Beyond a Single Test Set: Cross Validation

Validati
on
Data 4

Training
Data 4
Beyond a Single Test Set: Cross Validation
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split

Average cross validation results.

Beyond a Single Test Set: Cross Validation
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split
+
Training Training Training
Test Split
Split Split Split

Average cross validation results.

Model Complexity vs Error

cross validation
error
error

training error
Model Complexity vs Error

cross validation
error
error

training error
Model Complexity vs Error

cross validation
error
error

training error
Model Complexity vs Error
Polynomial Degree
=1
Model
True Function
cross validation Samples
error
error

training error

Underfitting: training and cross validation error are high

Model Complexity vs Error
Polynomial Degree =
15
Model
True Function
cross validation Samples
error
error

training error

X
model complexity

Overfitting: training error is low, cross validation is high

Model Complexity vs Error
Polynomial Degree
=4
Model
True Function
cross validation Samples
error
error

training error

Just right: training and cross validation errors are low

Cross Validation: The Syntax
Import the train and test split function
from sklearn.model_selection import cross_val_score

Perform cross-validation with a given model

cross_val = cross_val_score(KNN, X_data, y_data, cv=4,
scoring='neg_mean_squared_error')

Other methods for cross validation:

from sklearn.model_selection import KFold, StratifiedKFold
Cross Validation: The Syntax
Import the train and test split function
from sklearn.model_selection import cross_val_score

Perform cross-validation with a given model

cross_val = cross_val_score(KNN, X_data, y_data, cv=4,
scoring='neg_mean_squared_error')

Other methods for cross validation:

from sklearn.model_selection import KFold, StratifiedKFold
Cross Validation: The Syntax
Import the train and test split function
from sklearn.model_selection import cross_val_score

Perform cross-validation with a given model

cross_val = cross_val_score(KNN, X_data, y_data, cv=4,
scoring='neg_mean_squared_error')

Other methods for cross validation:

from sklearn.model_selection import KFold, StratifiedKFold
Modelling Best Practice

• Use cost function to fit model

• Develop multiple models
• Compare results and choose best
one
Other Model Metrics

𝑚
Sum of Squared Error ∑ ( 𝑦 𝛽 (𝑥 (𝑖)
)− 𝑦 (𝑖) 2
𝑜𝑏𝑠 )
(SSE): 𝑖=1

𝑚
Total Sum of Squares ∑ ( 𝑦 𝑜𝑏𝑠 − 𝑦 ) (𝑖) 2
𝑜𝑏𝑠
(TSS): 𝑖=1

𝑆𝑆𝐸
Correlation Coefficient 1−
(R2):
𝑇𝑆𝑆
Other Measures of Error

𝑚
Sum of Squared Error ∑ ( 𝑦 𝛽 (𝑥 (𝑖)
)− 𝑦 (𝑖) 2
𝑜𝑏𝑠 )
(SSE): 𝑖=1

𝑚
Total Sum of Squares ∑ ( 𝑦 𝑜𝑏𝑠 − 𝑦 ) (𝑖) 2
𝑜𝑏𝑠
(TSS): 𝑖=1

𝑆𝑆𝐸
Correlation Coefficient 1−
(R2):
𝑇𝑆𝑆
Other Measures of Error

𝑚
Sum of Squared Error ∑ ( 𝑦 𝛽 (𝑥 (𝑖)
)− 𝑦 (𝑖) 2
𝑜𝑏𝑠 )
(SSE): 𝑖=1

𝑚
Total Sum of Squares ∑ ( 𝑦 𝑜𝑏𝑠 − 𝑦 ) (𝑖) 2
𝑜𝑏𝑠
(TSS): 𝑖=1

𝑆𝑆𝐸
Correlation Coefficient 1−
(R2):
𝑇𝑆𝑆
Advanced
Linear Regression
Scaling is a Type of Feature Transformation
6
60
24 0

4
40 22
Age 0
20 2
20
18 0

12345 1 2 3 4 5
Number of Surgeries Number of Surgeries
Transformation of Data Distributions

• Predictions from linear

regression models assume
residuals are normally
distributed
• Features and predicted data
are often skewed
• Data transformations can
solve this issue
Transformation of Data Distributions

• Predictions from linear

regression models assume
residuals are normally
distributed
• Features and predicted data
are often skewed
• Data transformations can
solve this issue
Transformation of Data Distributions

from numpy import log, log1p

from scipy.stats import boxcox

Transformation of Data Distributions

• Predictions from linear

regression models assume
residuals are normally
distributed
• Features and predicted data
are often skewed
• Data transformations can
solve this issue
Feature Types

Feature Type Transformation

• Continuous: numerical • Standard Scaling, Min-Max
values Scaling

• Nominal: categorical, • One-hot encoding (0, 1)

unordered features (True or
False)
• Ordinal encoding (0, 1, 2, 3)
• Ordinal: categorical,
ordered features (movie
ratings)
Feature Types

Feature Type Transformation

• Continuous: numerical • Standard Scaling, Min-Max
values Scaling

• Nominal: categorical, • One-hot encoding (0, 1)

unordered features (True or
False)
• Ordinal encoding (0, 1, 2, 3)
• Ordinal: categorical,
ordered features (movie
ratings)
Feature Types

Feature Type Transformation

• Continuous: numerical • Standard Scaling, Min-Max
values Scaling

• Nominal: categorical, • One-hot encoding (0, 1)

unordered features (True or
False)
• Ordinal encoding (0, 1, 2, 3)
• Ordinal: categorical,
ordered features (movie
from sklearn.preprocessing
ratings) import LabelEncoder, LabelBinarizer, OneHotEncoder
Feature Types

Feature Type Transformation

• Continuous: numerical • Standard Scaling, Min-Max
values Scaling

• Nominal: categorical, • One-hot encoding (0, 1)

unordered features (True or
False)
• Ordinal encoding (0, 1, 2, 3)
• Ordinal: categorical,
ordered features
from (movie
sklearn.feature_extraction import DictVectorizer
ratings)
from pandas import get_dummies

C2 W3 Assignment
No ratings yet
C2 W3 Assignment
437 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
Lesson 2 - Introduction To ML
No ratings yet
Lesson 2 - Introduction To ML
36 pages
DSA Module 3
No ratings yet
DSA Module 3
30 pages
Intro To ML
No ratings yet
Intro To ML
29 pages
Lecture 7
No ratings yet
Lecture 7
29 pages
Model Generalization
No ratings yet
Model Generalization
117 pages
Lec9 - Evaluation
No ratings yet
Lec9 - Evaluation
11 pages
DS Notes Unit - V
No ratings yet
DS Notes Unit - V
13 pages
ML W8 Merged
No ratings yet
ML W8 Merged
27 pages
Exam 2 Review
No ratings yet
Exam 2 Review
23 pages
Lecture 2
No ratings yet
Lecture 2
98 pages
Train and Test Datasets in Machine Learning
No ratings yet
Train and Test Datasets in Machine Learning
26 pages
ML.1Lecture.2 (Old)
No ratings yet
ML.1Lecture.2 (Old)
23 pages
11-AI ML Intro 2022
No ratings yet
11-AI ML Intro 2022
54 pages
ML Unit 2
No ratings yet
ML Unit 2
86 pages
Machine Learning General: Definiton
No ratings yet
Machine Learning General: Definiton
14 pages
INSY446 - 02 - Linear Model Part 1
No ratings yet
INSY446 - 02 - Linear Model Part 1
27 pages
Guide
No ratings yet
Guide
24 pages
07 - Evaluating Performance
No ratings yet
07 - Evaluating Performance
46 pages
Cross Validation Thesis
100% (4)
Cross Validation Thesis
5 pages
DSA Module 3 Notes
No ratings yet
DSA Module 3 Notes
22 pages
Train and Test Datasets in Machine Learning
No ratings yet
Train and Test Datasets in Machine Learning
6 pages
First Cut Draft LS1.4
No ratings yet
First Cut Draft LS1.4
11 pages
ML Unit 2
No ratings yet
ML Unit 2
18 pages
Mutliple Regression-Mcqs
No ratings yet
Mutliple Regression-Mcqs
10 pages
Ovefitting, Generalization, Cross Validation
No ratings yet
Ovefitting, Generalization, Cross Validation
20 pages
2020 Evaluation PDF
No ratings yet
2020 Evaluation PDF
25 pages
Model Selection and Evaluation
No ratings yet
Model Selection and Evaluation
23 pages
Tuning Decision Trees Python
No ratings yet
Tuning Decision Trees Python
50 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
116 pages
Skit Learn Cheatsheet
No ratings yet
Skit Learn Cheatsheet
11 pages
Lab Manual 04
No ratings yet
Lab Manual 04
12 pages
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
No ratings yet
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
8 pages
ML 3170724 Unit-3
No ratings yet
ML 3170724 Unit-3
48 pages
Python Learning
No ratings yet
Python Learning
21 pages
ML Unit 4 Trupesh Patel
No ratings yet
ML Unit 4 Trupesh Patel
56 pages
CH-5 ML
No ratings yet
CH-5 ML
36 pages
Advanced Machine Learning: Neural Networks Decision Trees Random Forest Xgboost
No ratings yet
Advanced Machine Learning: Neural Networks Decision Trees Random Forest Xgboost
61 pages
ML Unit 2
No ratings yet
ML Unit 2
33 pages
Xiiaiuniticapstone Projectpartii
No ratings yet
Xiiaiuniticapstone Projectpartii
11 pages
04 - Model Selection
No ratings yet
04 - Model Selection
62 pages
Aula 4 (L) - Oggi La Tua Lezione È in Presenza
No ratings yet
Aula 4 (L) - Oggi La Tua Lezione È in Presenza
11 pages
Practical 3 - ESP32 WiFi
100% (1)
Practical 3 - ESP32 WiFi
9 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
PPT6-Buss Intel Analytics
No ratings yet
PPT6-Buss Intel Analytics
41 pages
Deep Learning Unit 3
No ratings yet
Deep Learning Unit 3
19 pages
CSO504 Machine Learning: Evaluation and Error Analysis Validation and Regularization Koustav Rudra 22/08/2022
No ratings yet
CSO504 Machine Learning: Evaluation and Error Analysis Validation and Regularization Koustav Rudra 22/08/2022
28 pages
DL Unit2
No ratings yet
DL Unit2
22 pages
APS1070 Lecture (3) Slides
No ratings yet
APS1070 Lecture (3) Slides
70 pages
Chapter 1 Capstone Project Ai Class 12
No ratings yet
Chapter 1 Capstone Project Ai Class 12
5 pages
Regression
No ratings yet
Regression
24 pages
Regression With Stata
75% (4)
Regression With Stata
108 pages
Week 4 - Intro To ML
No ratings yet
Week 4 - Intro To ML
37 pages
AI & ML Notes
No ratings yet
AI & ML Notes
22 pages
CFA L2 SimpleSheets Formula Sheet Final
No ratings yet
CFA L2 SimpleSheets Formula Sheet Final
5 pages
Module 3 - ML
No ratings yet
Module 3 - ML
101 pages
Choosing Model and Tuning
No ratings yet
Choosing Model and Tuning
20 pages
Ritesh Machine Learning Project
100% (9)
Ritesh Machine Learning Project
46 pages
(Ebook PDF) Statistics For Business and Economics, Global Edition 9th Edition PDF Download
100% (2)
(Ebook PDF) Statistics For Business and Economics, Global Edition 9th Edition PDF Download
53 pages
Week 7 Laboratory Activity
No ratings yet
Week 7 Laboratory Activity
12 pages
Train Test Split in Python
No ratings yet
Train Test Split in Python
11 pages
UNIT-III Lecture Notes
No ratings yet
UNIT-III Lecture Notes
18 pages
6 - Train - Test - Split - Ipynb - Colaboratory
No ratings yet
6 - Train - Test - Split - Ipynb - Colaboratory
5 pages
Chap01 - Intro To Programming
No ratings yet
Chap01 - Intro To Programming
37 pages
User Guide of GARCH-MIDAS and DCC-MIDAS MATLAB Programs
No ratings yet
User Guide of GARCH-MIDAS and DCC-MIDAS MATLAB Programs
12 pages
Concept of Sampling
No ratings yet
Concept of Sampling
20 pages
1.EE 563 Syllabus
No ratings yet
1.EE 563 Syllabus
3 pages
Chapter 6 - Multimedia Element Video
No ratings yet
Chapter 6 - Multimedia Element Video
44 pages
DSE 3 Unit 4
No ratings yet
DSE 3 Unit 4
8 pages
L04 Decision Trees
No ratings yet
L04 Decision Trees
34 pages
Chapter 4 Data Link Layer (OSI Model) - July 2023
No ratings yet
Chapter 4 Data Link Layer (OSI Model) - July 2023
39 pages
L10 Neural Network
No ratings yet
L10 Neural Network
52 pages
MATH 1281 Assignment Unit 6
No ratings yet
MATH 1281 Assignment Unit 6
5 pages
Harmon Foods
No ratings yet
Harmon Foods
11 pages
Chapter 2 Network Protocols - Communication - July 2023
No ratings yet
Chapter 2 Network Protocols - Communication - July 2023
56 pages
Lecture 6 LBS Slides
No ratings yet
Lecture 6 LBS Slides
105 pages
ECON 322 ECONOMETRICS II - Kabarak University
No ratings yet
ECON 322 ECONOMETRICS II - Kabarak University
4 pages
Maximum Likelihood Estimation by K.Kashin
No ratings yet
Maximum Likelihood Estimation by K.Kashin
34 pages
Chapter 6 Network Layer - July 2023
No ratings yet
Chapter 6 Network Layer - July 2023
58 pages
Regression and Analysis
No ratings yet
Regression and Analysis
132 pages
Regression
No ratings yet
Regression
35 pages
L08 Hierachical Agglomerative Clustering
No ratings yet
L08 Hierachical Agglomerative Clustering
41 pages
Regression Cookbook
100% (1)
Regression Cookbook
11 pages
Practical 1 Slide
No ratings yet
Practical 1 Slide
20 pages
L02 Classification and Regression
No ratings yet
L02 Classification and Regression
26 pages
Chapter 10 Application Layer - July 2023
No ratings yet
Chapter 10 Application Layer - July 2023
36 pages
2SLS Notes
No ratings yet
2SLS Notes
44 pages
Probit Logit Analysis
No ratings yet
Probit Logit Analysis
3 pages
Inbound 3991216296804003764
No ratings yet
Inbound 3991216296804003764
15 pages
Inferential Statistics
No ratings yet
Inferential Statistics
3 pages
L01 Introduction To ML
No ratings yet
L01 Introduction To ML
16 pages
L05 Unsupervised Learning - Overview
No ratings yet
L05 Unsupervised Learning - Overview
16 pages
Lab 4
No ratings yet
Lab 4
20 pages
Setup - Firebase
No ratings yet
Setup - Firebase
9 pages
10 2015 Social Support Stress and Suicidal Ideation in Professional Firefighters
No ratings yet
10 2015 Social Support Stress and Suicidal Ideation in Professional Firefighters
7 pages
Applied Econometrics With R
No ratings yet
Applied Econometrics With R
5 pages
R301B - Panel Data
No ratings yet
R301B - Panel Data
9 pages
Guide To Install Visual Studio 2019
No ratings yet
Guide To Install Visual Studio 2019
3 pages
Practical 2 Hadoop Distributed File System (HDFS)
No ratings yet
Practical 2 Hadoop Distributed File System (HDFS)
4 pages
Homework 5
No ratings yet
Homework 5
6 pages
Chapter 15 CRAVEN SALES MODEL - Multiple Regression
No ratings yet
Chapter 15 CRAVEN SALES MODEL - Multiple Regression
19 pages
General Concepts of Point Estimation
No ratings yet
General Concepts of Point Estimation
9 pages
Question 3
No ratings yet
Question 3
3 pages
Machine Learning Interview Questions
From Everand
Machine Learning Interview Questions
Tech Interviews
4.5/5 (2)

L03 Generalization, Train Test Splits and Validation

Uploaded by

L03 Generalization, Train Test Splits and Validation

Uploaded by

Model Generalization

Choosing Between Different Complexities

Poor at Training Good at Training

High Bias Low Bias

Trainin fit the model

error_metric( Y_test, test error

Other method for splitting data:

Average cross validation results.

Average cross validation results.

Underfitting: training and cross validation error are high

Overfitting: training error is low, cross validation is high

Just right: training and cross validation errors are low

Perform cross-validation with a given model

Other methods for cross validation:

Perform cross-validation with a given model

Other methods for cross validation:

Perform cross-validation with a given model

Other methods for cross validation:

• Use cost function to fit model

• Predictions from linear

• Predictions from linear

from numpy import log, log1p

from scipy.stats import boxcox

• Predictions from linear

Feature Type Transformation

• Nominal: categorical, • One-hot encoding (0, 1)

Feature Type Transformation

• Nominal: categorical, • One-hot encoding (0, 1)

Feature Type Transformation

• Nominal: categorical, • One-hot encoding (0, 1)

Feature Type Transformation

• Nominal: categorical, • One-hot encoding (0, 1)

You might also like