Machine Learning-Lecture 02

The document discusses splitting datasets into training and test sets when using machine learning algorithms. It explains that typically 80% of data is used for training and 20% for testing. It also discusses different types of train-test splits including 50:50 splits and k-fold cross validation as well as situations where train-test splitting should not be used such as with small datasets.

Uploaded by

Amna Arooj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

65 views28 pages

Machine Learning-Lecture 02

Uploaded by

Amna Arooj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Machine Learning

LECTURE – 02

Training and Test Data

How Supervised Learning Algorithm works

April 27, 2024 2

Splitting Datasets

• To use a dataset in Machine Learning, the dataset is first split into a training
and test set

• The training set is used to train the model

• The test set is used to test the accuracy of the model

• Typically, split 80% training, 20% test.

• The objective is to estimate the performance of the machine learning model

on new data: data not used to train the model.
It’s About Training
Slicing Dataset

• You could imagine slicing the single data set as follows:

When not to use train-test split
• Dataset is small.
• Not enough data in the training dataset for the model to learn an effective mapping
of inputs to outputs.
• Not enough data in the test set to effectively evaluate the model performance.

• The estimated performance could be overly optimistic (good) or overly pessimistic

(bad).
When not to use train-test split
• Data Imbalance – Overfitting
• If the training data is overly unbalanced, then the model will predict a non-meaningful
result
• For example, if the model is a binary classifier (apple vs. pear), and nearly all the
samples are of the same label (e.g., apple), then the model will simply learn that
everything is related to that particular label (apple)
• This is called overfitting. To prevent overfitting, there needs to be a fairly equal
distribution of training samples for each classification, or range if label is a real value.
When not to use train-test split

• Reusing the same data for both training and testing is a bad idea
because we need to know how the method will work on data it was
not trained on.
Types of train-test split

• 50:50 split

• Leave One Out Cross Validation

• K-Fold Cross validation

Dataset
50:50 split
K-Fold Cross validation
Leave One Out Cross Validation

• LOOCV is an extreme case of k-fold where k=n

• In the leave-one-out (LOO) cross-validation, we train our machine-

learning model n times where n is to our dataset’s size.
Leave One Out Cross Validation
LOOCV
Train-Test Split Procedure in Scikit-Learn
• The scikit-learn Python machine learning library provides an
implementation of the train-test split evaluation procedure via
the train_test_split() function.

• The function takes a loaded dataset as input and returns the dataset
split into two subsets
Train-Test Split Procedure in Scikit-Learn

• Ideally, you can split your original dataset into input (X) and output (y)
columns, then call the function passing both arrays and have them
split appropriately into train and test subsets.

• 0.33 where 33 percent of the dataset will be allocated to the test set
and 67 percent will be allocated to the training set.
Train-Test Split Procedure in Scikit-Learn

Train and Test Datasets in Machine Learning
No ratings yet
Train and Test Datasets in Machine Learning
6 pages
Train Test Split in Python
No ratings yet
Train Test Split in Python
11 pages
Train and Test Datasets in Machine Learning
No ratings yet
Train and Test Datasets in Machine Learning
26 pages
Train-Test Split
No ratings yet
Train-Test Split
13 pages
Train-Test Split in Python with Sklearn
No ratings yet
Train-Test Split in Python with Sklearn
5 pages
ML Unit1
No ratings yet
ML Unit1
11 pages
Lab 2 Train - Test Split
No ratings yet
Lab 2 Train - Test Split
11 pages
Xiiaiuniticapstone Projectpartii
No ratings yet
Xiiaiuniticapstone Projectpartii
11 pages
Train-Test Split For Evaluating Machine Learning Algorithms
No ratings yet
Train-Test Split For Evaluating Machine Learning Algorithms
13 pages
ML Unit 2
No ratings yet
ML Unit 2
18 pages
Train Test Split in Machine Learning
No ratings yet
Train Test Split in Machine Learning
1 page
Wa0001.
No ratings yet
Wa0001.
173 pages
Unit I - ML For Data Analytics
No ratings yet
Unit I - ML For Data Analytics
106 pages
Research Trends in Machine Learning: Muhammad Kashif Hanif
No ratings yet
Research Trends in Machine Learning: Muhammad Kashif Hanif
20 pages
CSC407 - Chapter 5-6
No ratings yet
CSC407 - Chapter 5-6
42 pages
IDML Presentation
No ratings yet
IDML Presentation
12 pages
Deep Learning Unit 3
No ratings yet
Deep Learning Unit 3
19 pages
Unit V
No ratings yet
Unit V
16 pages
Chapter 7 Learning
No ratings yet
Chapter 7 Learning
34 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
Bias-Variance Tradeoff in ML
No ratings yet
Bias-Variance Tradeoff in ML
14 pages
Chapter-3-Common Issues in Machine Learning
No ratings yet
Chapter-3-Common Issues in Machine Learning
20 pages
ML Unit 4 Trupesh Patel
No ratings yet
ML Unit 4 Trupesh Patel
56 pages
Python Decision Trees for Analysts
No ratings yet
Python Decision Trees for Analysts
50 pages
Machine Learning Course Guide
No ratings yet
Machine Learning Course Guide
60 pages
Data Splitting-Training Material
No ratings yet
Data Splitting-Training Material
42 pages
Unit 3 ML
No ratings yet
Unit 3 ML
40 pages
Evaluating Model Performance in ML
No ratings yet
Evaluating Model Performance in ML
16 pages
Model Evaluation: Splitting Criteria Guide
No ratings yet
Model Evaluation: Splitting Criteria Guide
5 pages
Unit 7 Deterministic Models
No ratings yet
Unit 7 Deterministic Models
71 pages
2020 Evaluation PDF
No ratings yet
2020 Evaluation PDF
25 pages
CH 05 Optimization Technique
No ratings yet
CH 05 Optimization Technique
58 pages
K-Fold Cross Validation in ML
No ratings yet
K-Fold Cross Validation in ML
22 pages
5 DL
No ratings yet
5 DL
33 pages
Ensemble Learning Techniques Explained
No ratings yet
Ensemble Learning Techniques Explained
107 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
Scikit-Learn Machine Learning Guide
No ratings yet
Scikit-Learn Machine Learning Guide
72 pages
Comparison Between Performance of Classifiers
No ratings yet
Comparison Between Performance of Classifiers
5 pages
ML Module Iii
No ratings yet
ML Module Iii
12 pages
M.L L-6 Re-Sampling Methods
No ratings yet
M.L L-6 Re-Sampling Methods
24 pages
AI Model Train Test QA
No ratings yet
AI Model Train Test QA
1 page
04 - Model Selection
No ratings yet
04 - Model Selection
62 pages
Machine Learning Feature - Week 5-8
No ratings yet
Machine Learning Feature - Week 5-8
54 pages
ML Unit 2
No ratings yet
ML Unit 2
33 pages
Xii Ai Capstone Project
No ratings yet
Xii Ai Capstone Project
35 pages
Cross-Validation in Scikit-Learn
No ratings yet
Cross-Validation in Scikit-Learn
12 pages
ML MU Unit 2
100% (3)
ML MU Unit 2
84 pages
Optimal Data Splitting with SPlit
No ratings yet
Optimal Data Splitting with SPlit
36 pages
19 ML Intro
No ratings yet
19 ML Intro
31 pages
Module 4 - Classification
No ratings yet
Module 4 - Classification
10 pages
L03 Generalization, Train Test Splits and Validation
No ratings yet
L03 Generalization, Train Test Splits and Validation
49 pages
Intro To ML
No ratings yet
Intro To ML
29 pages
Top 45 Machine Learning Interview Questions
No ratings yet
Top 45 Machine Learning Interview Questions
24 pages
Understanding Datasets Features Selection Train Test Validation Sets L12
No ratings yet
Understanding Datasets Features Selection Train Test Validation Sets L12
25 pages
MLA CT1 - Notes
No ratings yet
MLA CT1 - Notes
17 pages
Week-6 Linear Regression
No ratings yet
Week-6 Linear Regression
16 pages
Data Splitting for Model Training
No ratings yet
Data Splitting for Model Training
9 pages
Ovefitting, Generalization, Cross Validation
No ratings yet
Ovefitting, Generalization, Cross Validation
20 pages
Week 5
No ratings yet
Week 5
18 pages
Lecture 1, Intro To Computer Ethics
No ratings yet
Lecture 1, Intro To Computer Ethics
23 pages
6 Effective Business Model, Mintzberg Roles
No ratings yet
6 Effective Business Model, Mintzberg Roles
11 pages
Machine Learning-Lecture 01
No ratings yet
Machine Learning-Lecture 01
28 pages
K-Nearest Neighbor Algorithm Guide
No ratings yet
K-Nearest Neighbor Algorithm Guide
19 pages
5 Business Plan
No ratings yet
5 Business Plan
22 pages
4 Industry Analysis
No ratings yet
4 Industry Analysis
17 pages
Asim Zaman Ceasar Cipher
No ratings yet
Asim Zaman Ceasar Cipher
2 pages
Tayyab Abdullah 30
No ratings yet
Tayyab Abdullah 30
6 pages
Sre Assignment
No ratings yet
Sre Assignment
15 pages
Amna Arooj Lab 1
No ratings yet
Amna Arooj Lab 1
4 pages
1 s2.0 S2096720923000404 Main
No ratings yet
1 s2.0 S2096720923000404 Main
44 pages
Cost Optimization of I-Girder Bridges
No ratings yet
Cost Optimization of I-Girder Bridges
5 pages
Unit 3 Nis 22620
No ratings yet
Unit 3 Nis 22620
6 pages
Heart Disease Identification Method Using Machine Learning Classification in E Healthcare
No ratings yet
Heart Disease Identification Method Using Machine Learning Classification in E Healthcare
9 pages
Security Mechanisms Simplified BoldHeadings
No ratings yet
Security Mechanisms Simplified BoldHeadings
3 pages
Modified Downsandblack
No ratings yet
Modified Downsandblack
3 pages
Fall 2022 - CS702 - 1 Sol
No ratings yet
Fall 2022 - CS702 - 1 Sol
3 pages
CP4292 Mcap
No ratings yet
CP4292 Mcap
24 pages
Employee Turnover Prediction
No ratings yet
Employee Turnover Prediction
12 pages
Final Data Science Report 25 Pages
No ratings yet
Final Data Science Report 25 Pages
4 pages
Financial Risk Management With Bayesian Estimation of GARCH Models PDF
No ratings yet
Financial Risk Management With Bayesian Estimation of GARCH Models PDF
204 pages
Blockchain - Potentes Nexus
No ratings yet
Blockchain - Potentes Nexus
2 pages
Random Experiment and Basic Terms
No ratings yet
Random Experiment and Basic Terms
9 pages
Scalability in Data Mining Techniques
No ratings yet
Scalability in Data Mining Techniques
53 pages
Decision Tree
0% (1)
Decision Tree
16 pages
Boosting Algorithms Explained
No ratings yet
Boosting Algorithms Explained
79 pages
Elec 3244-HW-1
No ratings yet
Elec 3244-HW-1
3 pages
Community Structure Identification in Graphs
No ratings yet
Community Structure Identification in Graphs
10 pages
Dynamic Programming Explained
No ratings yet
Dynamic Programming Explained
33 pages
Lecture 15 Affine Cipher
No ratings yet
Lecture 15 Affine Cipher
18 pages
Module 5
No ratings yet
Module 5
17 pages
ModelCondensation - & IRS Techniques
No ratings yet
ModelCondensation - & IRS Techniques
24 pages
Regression Analysis for ML Beginners
No ratings yet
Regression Analysis for ML Beginners
12 pages
Huffman Coding for Programmers
No ratings yet
Huffman Coding for Programmers
4 pages
DSA Lab Manual (Selection Sort)
No ratings yet
DSA Lab Manual (Selection Sort)
2 pages
Lagrange's Equation: 1 Calculus of Variations
No ratings yet
Lagrange's Equation: 1 Calculus of Variations
4 pages
Darp Midterm v3
No ratings yet
Darp Midterm v3
4 pages
Machine Learning
No ratings yet
Machine Learning
2 pages
Informed and Uninformed Search
No ratings yet
Informed and Uninformed Search
74 pages
Probability Presentation
No ratings yet
Probability Presentation
12 pages
Data Science Unit 5 Sppu Notes
No ratings yet
Data Science Unit 5 Sppu Notes
23 pages