0% found this document useful (0 votes)

34 views5 pages

Assign 3

This document discusses and compares several model evaluation techniques: leave-one-out cross-validation, K-fold cross-validation, the holdout method, time series split, and shuffle split. For each technique, it provides examples of advantages and disadvantages, along with sample Python code demonstrating implementation.

Uploaded by

Rana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views5 pages

Assign 3

Uploaded by

Rana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Question 1(b)

What are the advantages and disadvantages of using a specific

splitting criteria for model evaluation? Provide examples for each
case(with code) to illustrate your points.

Leave one out cross validation

Advantages Disadvantages
Makes use of nearly all data in each fold Training the model N times for N data
for maximum training efficiency. points can be computationally expensive,
especially for large datasets.

Useful when dataset is small. Can have high variance in model

performance estimates, especially for
noisy datasets.

Code:
from sklearn.model_selection import LeaveOneOut
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Sample data
X = [[1], [2], [3], [4]]
y = [0, 1, 1, 0]

# Leave-One-Out Cross-Validation
loo = LeaveOneOut()

for train_index, test_index in loo.split(X):

X_train, X_test = [X[i] for i in train_index], [X[i] for i in test_index]
y_train, y_test = [y[i] for i in train_index], [y[i] for i in test_index]

# Train and evaluate the model

model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")
K fold cross validation

Advantages Disadvantages
More computationally efficient than Still computationally demanding for large
LOOCV, as it involves fewer model datasets and complex models.
training iterations.

Provides a less biased and less variable Can be sensitive to the choice of K.
estimate of model performance than
LOOCV.

Flexibility in controlling bias-variance tradeoff

by adjusting the number of folds (K)

Code:
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Sample data
X = [[1], [2], [3], [4]]
y = [0, 1, 1, 0]

# K-Fold Cross-Validation
kf = KFold(n_splits=2)

for train_index, test_index in kf.split(X):

X_train, X_test = [X[i] for i in train_index], [X[i] for i in test_index]
y_train, y_test = [y[i] for i in train_index], [y[i] for i in test_index]

# Train and evaluate the model

model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

Holdout Method

Advantages Disadvantages
The implementation of this method is Can have high variance in performance
simple and it is computationally efficient. estimates, as it depends on the specific
data split.

Useful for large datasets where Might not fully utilize all available data for
computationally expensive methods are training.
impractical.

Code
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Sample data
X = [[1], [2], [3], [4]]
y = [0, 1, 1, 0]

# Holdout Method
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5,
random_state=42)

# Train and evaluate the model

model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")
Time Series Split
Advantages Disadvantages
Preserves temporal order in time- Not suitable for non-temporal data.
dependent data, ensuring training data
precedes testing data.

Avoids "data leakage" from future time Might not capture long-term patterns or
points into model training. trends if the validation set is too short.

‘For the given dataset we can’t apply time series split method.’

Shuffle split
Advantages Disadvantages
Introduces randomness, ensuring diverse Can disrupt patterns or relationships in
training and testing sets. data if shuffling is not appropriate.

When the dataset is small, it is beneficial

to make the most out of available
samples.

Code
from sklearn.model_selection import ShuffleSplit
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Sample data
X = [[1], [2], [3], [4]]
y = [0, 1, 1, 0]

# Shuffle Split
shuffle_split = ShuffleSplit(n_splits=2, test_size=0.5, random_state=42)

for train_index, test_index in shuffle_split.split(X):

X_train, X_test = [X[i] for i in train_index], [X[i] for i in test_index]
y_train, y_test = [y[i] for i in train_index], [y[i] for i in test_index]
# Train and evaluate the model
model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

Wa0001.
No ratings yet
Wa0001.
173 pages
MCS 224 New P
No ratings yet
MCS 224 New P
42 pages
Performance Comparison of Simple Regression Random Forest and XGBoost Algorithms For Forecasting Electricity Demand
No ratings yet
Performance Comparison of Simple Regression Random Forest and XGBoost Algorithms For Forecasting Electricity Demand
7 pages
modellingandevaluationunit2june2322-220623063944-5c70ebed
No ratings yet
modellingandevaluationunit2june2322-220623063944-5c70ebed
53 pages
Cross-Validation in Machine Learning
No ratings yet
Cross-Validation in Machine Learning
18 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
1 (A) Explain Supervised Learning and Unsupervised Learning
No ratings yet
1 (A) Explain Supervised Learning and Unsupervised Learning
52 pages
Machine Learning Feature - Week 5-8
No ratings yet
Machine Learning Feature - Week 5-8
54 pages
Notes - Unit 3 - Machine Learning Lnctu-bca (Aida) - IV Sem - (1)
No ratings yet
Notes - Unit 3 - Machine Learning Lnctu-bca (Aida) - IV Sem - (1)
19 pages
ML Unit 2
No ratings yet
ML Unit 2
86 pages
L03 Generalization, Train Test Splits and Validation
No ratings yet
L03 Generalization, Train Test Splits and Validation
49 pages
ML Mod 5
No ratings yet
ML Mod 5
58 pages
Machine Learning-Lecture 02
No ratings yet
Machine Learning-Lecture 02
28 pages
ML Unit 4 Trupesh Patel
No ratings yet
ML Unit 4 Trupesh Patel
56 pages
Unit 6_model selection (1)
No ratings yet
Unit 6_model selection (1)
13 pages
Assignment Solution
No ratings yet
Assignment Solution
21 pages
5.4
No ratings yet
5.4
27 pages
Lecture 9
No ratings yet
Lecture 9
16 pages
Sampling Methods in Machine Learning
No ratings yet
Sampling Methods in Machine Learning
13 pages
CH 05 Optimization Technique
No ratings yet
CH 05 Optimization Technique
58 pages
ML UNIT4 NOTES
No ratings yet
ML UNIT4 NOTES
20 pages
SPlit An Optimal Method For Data Splitting
No ratings yet
SPlit An Optimal Method For Data Splitting
36 pages
Cross Validation
No ratings yet
Cross Validation
10 pages
Unit 9 Model Evaluation
No ratings yet
Unit 9 Model Evaluation
26 pages
8
No ratings yet
8
56 pages
Lecture Slide 02 - Supervised Learning - Summer 2023
No ratings yet
Lecture Slide 02 - Supervised Learning - Summer 2023
43 pages
ML-4th Unit
No ratings yet
ML-4th Unit
44 pages
IML 8 - Grid Search and Cross Validation
No ratings yet
IML 8 - Grid Search and Cross Validation
22 pages
Ml Unit4 Notes
No ratings yet
Ml Unit4 Notes
20 pages
ML.1Lecture.2 (Old)
No ratings yet
ML.1Lecture.2 (Old)
23 pages
Resampling Methods Class 2
No ratings yet
Resampling Methods Class 2
38 pages
AI and Machine Learning
No ratings yet
AI and Machine Learning
92 pages
Lec 16
No ratings yet
Lec 16
18 pages
UNIT4 Cross Validation
No ratings yet
UNIT4 Cross Validation
16 pages
ch-3 FML
No ratings yet
ch-3 FML
14 pages
Practical Issues
No ratings yet
Practical Issues
30 pages
Ovefitting, Generalization, Cross Validation
No ratings yet
Ovefitting, Generalization, Cross Validation
20 pages
Module 6_ML
No ratings yet
Module 6_ML
30 pages
Model Evaluation and Cross-Validation Methods
No ratings yet
Model Evaluation and Cross-Validation Methods
3 pages
04 - Model Selection
No ratings yet
04 - Model Selection
62 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
K-Fold CV On Imbalance Classification Data - Analytics Vidhya - Ayobami Akiode
No ratings yet
K-Fold CV On Imbalance Classification Data - Analytics Vidhya - Ayobami Akiode
18 pages
Cross Validation - Notes
No ratings yet
Cross Validation - Notes
10 pages
Comparison Between Performance of Classifiers
No ratings yet
Comparison Between Performance of Classifiers
5 pages
ADS_phase 3
No ratings yet
ADS_phase 3
34 pages
Introduction to K-fold Cross-Validation
No ratings yet
Introduction to K-fold Cross-Validation
6 pages
Research Trends in Machine Learning: Muhammad Kashif Hanif
No ratings yet
Research Trends in Machine Learning: Muhammad Kashif Hanif
20 pages
ADS
No ratings yet
ADS
20 pages
3. Cross Validation
No ratings yet
3. Cross Validation
16 pages
Lecture Note #6_PEC-CS701E
No ratings yet
Lecture Note #6_PEC-CS701E
11 pages
Module 3 - ML
No ratings yet
Module 3 - ML
101 pages
Cross Validation: Chandan B K Mrs. S Asst Professor, Department of Computer Science Engineering
No ratings yet
Cross Validation: Chandan B K Mrs. S Asst Professor, Department of Computer Science Engineering
21 pages
IFN 554 Week 4 Lecture Slides
No ratings yet
IFN 554 Week 4 Lecture Slides
52 pages
Model Evaluation - II
No ratings yet
Model Evaluation - II
12 pages
XIIAIUNITICAPSTONE_PROJECTPARTII
No ratings yet
XIIAIUNITICAPSTONE_PROJECTPARTII
11 pages
Unit 2
No ratings yet
Unit 2
28 pages
Cross Validation in ML
No ratings yet
Cross Validation in ML
5 pages
Performance Management - 2023
No ratings yet
Performance Management - 2023
41 pages
cross validation
No ratings yet
cross validation
5 pages
Unit 5 New
No ratings yet
Unit 5 New
9 pages
The Geneva School: Prepared by Olha Patko Diana Kachor
No ratings yet
The Geneva School: Prepared by Olha Patko Diana Kachor
13 pages
Train Test Split in Python
No ratings yet
Train Test Split in Python
11 pages
Week 12
No ratings yet
Week 12
34 pages
Learning Best Practices For Model Evaluation and Hyperparameter Tuning
No ratings yet
Learning Best Practices For Model Evaluation and Hyperparameter Tuning
17 pages
All Types of Cross Validation
No ratings yet
All Types of Cross Validation
9 pages
2001 American Control Conference
No ratings yet
2001 American Control Conference
63 pages
Transfer Learning With Time Series Data A Systematic Mapping Study
No ratings yet
Transfer Learning With Time Series Data A Systematic Mapping Study
24 pages
Question Bank
No ratings yet
Question Bank
13 pages
Midterm Sp16 Solutions
100% (1)
Midterm Sp16 Solutions
17 pages
p3461 Melnik
No ratings yet
p3461 Melnik
12 pages
Chatgpt Used in Banking Sector
No ratings yet
Chatgpt Used in Banking Sector
4 pages
Control Systems: - 1 - Class Code: ME-2011A - Engr:M Irfan Khan
No ratings yet
Control Systems: - 1 - Class Code: ME-2011A - Engr:M Irfan Khan
33 pages
Minsky1969 - An Introduction To Computational Geometry
No ratings yet
Minsky1969 - An Introduction To Computational Geometry
9 pages
Psycho-Cybernetics by Maxwell Maltz Book Summary
100% (1)
Psycho-Cybernetics by Maxwell Maltz Book Summary
29 pages
Finkster-Python Cheatsheet
No ratings yet
Finkster-Python Cheatsheet
11 pages
Project 3 Fuzzy Control Logic
No ratings yet
Project 3 Fuzzy Control Logic
9 pages
TBW Project Report
No ratings yet
TBW Project Report
4 pages
A Concise Introduction To Reinforcement Learning: February 2018
No ratings yet
A Concise Introduction To Reinforcement Learning: February 2018
12 pages
Ps Assignment - Solution
No ratings yet
Ps Assignment - Solution
7 pages
Artificial Neural Network Tutorial
No ratings yet
Artificial Neural Network Tutorial
8 pages
SST Word
No ratings yet
SST Word
13 pages
Applying Machine Learning
No ratings yet
Applying Machine Learning
4 pages
Autonomous Robotic Systems
No ratings yet
Autonomous Robotic Systems
22 pages
S Pecial Features: Language As An Emergent System
No ratings yet
S Pecial Features: Language As An Emergent System
4 pages
Ids Cif
No ratings yet
Ids Cif
3 pages
CS231n - Convolutional-Networks 1
No ratings yet
CS231n - Convolutional-Networks 1
3 pages
1) The Acquisition/Learning Hypothesis: Krashen'S Five Hypothesis
No ratings yet
1) The Acquisition/Learning Hypothesis: Krashen'S Five Hypothesis
2 pages
Brief Introduction To GenAI
No ratings yet
Brief Introduction To GenAI
1 page
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
ISTQB Advanced Level Technical Test Analyst- Exam Insights: Q&A with Explanations
From Everand
ISTQB Advanced Level Technical Test Analyst- Exam Insights: Q&A with Explanations
SUJAN
No ratings yet