0% found this document useful (0 votes)

3 views2 pages

Statistics in Machine Learning

Statistics

Uploaded by

futureboyz comedy XX

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views2 pages

Statistics in Machine Learning

Statistics

Uploaded by

futureboyz comedy XX

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Statistics in Machine Learning

You should apply statistics in machine learning at various stages of the data lifecycle to help the

machine understand the data effectively. Here's when and how statistics are critical:

1. During Data Exploration and Preprocessing

Purpose: To understand the structure, distribution, and relationships within the dataset.

Statistical Techniques:

- Descriptive statistics (mean, median, mode, variance, standard deviation) to summarize data.

- Distribution analysis (e.g., normality checks using histograms or tests like the Shapiro-Wilk test).

- Correlation analysis to identify relationships between features (e.g., Pearson/Spearman

correlation).

- Outlier detection using z-scores, IQR, or box plots.

2. For Feature Selection and Engineering

Purpose: To identify and create the most relevant inputs for the machine learning model.

Statistical Techniques:

- Hypothesis testing (e.g., t-tests, ANOVA) to check feature significance.

- Mutual information to assess the dependency between variables.

- Variance thresholding to remove low-variance features.

3. During Model Building and Training

Purpose: To ensure the model is learning effectively and not biased by data imbalances or noise.

Statistical Techniques:

- Understanding the distribution of target labels to handle class imbalances (e.g., using

oversampling or SMOTE).
- Regularization techniques to avoid overfitting, guided by statistics on model complexity.

4. For Model Evaluation

Purpose: To assess model performance and validate its reliability.

Statistical Techniques:

- Cross-validation for reliable performance estimates.

- Confidence intervals for performance metrics.

- Statistical significance tests (e.g., paired t-tests) to compare models.

5. For Interpretability and Explanation

Purpose: To explain the model's predictions and ensure transparency.

Statistical Techniques:

- Feature importance rankings (e.g., using statistical measures like F-tests or regression

coefficients).

- Partial dependence plots and SHAP values for understanding feature effects.

6. During Real-World Deployment and Monitoring

Purpose: To monitor data and model performance over time.

Statistical Techniques:

- Drift detection (e.g., using statistical divergence measures like KL divergence).

- Statistical process control for model accuracy tracking.

Key Takeaway

Statistics help at every stage by providing mathematical foundations for decision-making, ensuring

data quality, and validating the machine learning model's behavior. It's essential to use statistics

whenever you need to understand, manipulate, evaluate, or validate the data and model.

ML Unit - 3
No ratings yet
ML Unit - 3
23 pages
PR2 Lesson 7 Hypothesis Testing
No ratings yet
PR2 Lesson 7 Hypothesis Testing
59 pages
Political Science Research Methods (Etc.)
100% (4)
Political Science Research Methods (Etc.)
609 pages
ML Life Cycle
No ratings yet
ML Life Cycle
4 pages
Advanced Process Capability
No ratings yet
Advanced Process Capability
11 pages
The Optimization of Injection Molding Processes Using DOE
No ratings yet
The Optimization of Injection Molding Processes Using DOE
8 pages
Statistical Data Presentation Tools
0% (1)
Statistical Data Presentation Tools
21 pages
Lecture 3 2014 Statistical Data Treatment and Evaluation
No ratings yet
Lecture 3 2014 Statistical Data Treatment and Evaluation
44 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
112 pages
Statistics For Data Science - 1
100% (2)
Statistics For Data Science - 1
38 pages
ESTIMATION (One Population) : CHAPTER - 8
100% (1)
ESTIMATION (One Population) : CHAPTER - 8
14 pages
Biometry Lecture 3 Posted
No ratings yet
Biometry Lecture 3 Posted
47 pages
Application of Normal Distribution
No ratings yet
Application of Normal Distribution
6 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
Complete IT Report
No ratings yet
Complete IT Report
32 pages
Statistics Review: EEE 305 Lecture 10: Regression
No ratings yet
Statistics Review: EEE 305 Lecture 10: Regression
12 pages
pp07
0% (1)
pp07
14 pages
Statistical Analysis and Visualization
From Everand
Statistical Analysis and Visualization
Mohit Chatterjee
No ratings yet
Estimating Single Population Parameters: Exercises
No ratings yet
Estimating Single Population Parameters: Exercises
17 pages
Data Science - Ebook
No ratings yet
Data Science - Ebook
32 pages
Unit 1
No ratings yet
Unit 1
50 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
Machine Learning Life Cycle
No ratings yet
Machine Learning Life Cycle
11 pages
MathsforMachineLearning-GeeksforGeeks 1738137698972
No ratings yet
MathsforMachineLearning-GeeksforGeeks 1738137698972
14 pages
Intro To Hypothesis Testing
No ratings yet
Intro To Hypothesis Testing
83 pages
Test of Goodness of Fit
No ratings yet
Test of Goodness of Fit
3 pages
Regression
No ratings yet
Regression
86 pages
Statistic For Machine Learning & Data Science
No ratings yet
Statistic For Machine Learning & Data Science
102 pages
Machine Learning
No ratings yet
Machine Learning
84 pages
Build ETL Using Python
No ratings yet
Build ETL Using Python
7 pages
Unit 2 ML 2019
No ratings yet
Unit 2 ML 2019
91 pages
MachineLearning Presentation
No ratings yet
MachineLearning Presentation
71 pages
Statistics For Machine Learning Part 01 1719342613
No ratings yet
Statistics For Machine Learning Part 01 1719342613
27 pages
Boss
No ratings yet
Boss
13 pages
Unit 1 TE Honours
No ratings yet
Unit 1 TE Honours
22 pages
Machine Learning: Dr. Jagan. T Professor Department of ECE, GRIET
No ratings yet
Machine Learning: Dr. Jagan. T Professor Department of ECE, GRIET
69 pages
4.introductin To Machine Learning
No ratings yet
4.introductin To Machine Learning
28 pages
ML Unit1
No ratings yet
ML Unit1
15 pages
Module-2 Statistical Concepts
No ratings yet
Module-2 Statistical Concepts
50 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
19 pages
Measures of Position - Ungrouped Data
No ratings yet
Measures of Position - Ungrouped Data
3 pages
B Lab Manual Machine Learning SEM-7 CSE 2024
No ratings yet
B Lab Manual Machine Learning SEM-7 CSE 2024
49 pages
ML Notes All
No ratings yet
ML Notes All
32 pages
Pattern Recognition Unit 2
No ratings yet
Pattern Recognition Unit 2
24 pages
Statistics Concepts
No ratings yet
Statistics Concepts
19 pages
Machine Learning Required Topics
No ratings yet
Machine Learning Required Topics
22 pages
TSeminar
No ratings yet
TSeminar
20 pages
Machine Learning Mindmap PDF
100% (1)
Machine Learning Mindmap PDF
5 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
19 pages
Trinetra Banerjee
No ratings yet
Trinetra Banerjee
9 pages
Manual Data
No ratings yet
Manual Data
13 pages
Linear Models in Stata and Anova
No ratings yet
Linear Models in Stata and Anova
20 pages
150+ Detailed Mathematics Questions and Answers
No ratings yet
150+ Detailed Mathematics Questions and Answers
7 pages
Lecture-4: Introduction To Data Science
No ratings yet
Lecture-4: Introduction To Data Science
41 pages
Introduction To Statistical Learning - Why Do We Need Statistical Learning
No ratings yet
Introduction To Statistical Learning - Why Do We Need Statistical Learning
15 pages
Lecture 1, Applied Statistics Basic Concepts
No ratings yet
Lecture 1, Applied Statistics Basic Concepts
30 pages
Qa Theory-1
No ratings yet
Qa Theory-1
12 pages
Part 2 Introduction To ML
No ratings yet
Part 2 Introduction To ML
13 pages
Basic Statistics
No ratings yet
Basic Statistics
16 pages
Unit Ii-Ds
No ratings yet
Unit Ii-Ds
12 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
8 pages
Machine Learning Techniques - Types of Machine Learning - Applications Mathematical Foundations of Machine Learning
No ratings yet
Machine Learning Techniques - Types of Machine Learning - Applications Mathematical Foundations of Machine Learning
15 pages
Categorical Data Analysis and Chi-Square
No ratings yet
Categorical Data Analysis and Chi-Square
27 pages
Prepared By: Abdulkadir Aidin Abdulrahman Fazl Bara Ibrahim Henar Tarq Mohammad Salah - Supervisor: Sairan Hamza
No ratings yet
Prepared By: Abdulkadir Aidin Abdulrahman Fazl Bara Ibrahim Henar Tarq Mohammad Salah - Supervisor: Sairan Hamza
13 pages
Prepared By: Abdulkadir Aidin Abdulrahman Fazl Bara Ibrahim Henar Tarq Mohammad Salah - Supervisor: Sairan Hamza
No ratings yet
Prepared By: Abdulkadir Aidin Abdulrahman Fazl Bara Ibrahim Henar Tarq Mohammad Salah - Supervisor: Sairan Hamza
11 pages
University Institute of Engineering Department of Computer Science and Engg
No ratings yet
University Institute of Engineering Department of Computer Science and Engg
15 pages
ML4RM Class00
No ratings yet
ML4RM Class00
16 pages
Statistics
No ratings yet
Statistics
7 pages
Machinelearning Unit1
No ratings yet
Machinelearning Unit1
9 pages
Methods in Reliability
No ratings yet
Methods in Reliability
24 pages
Importance Statistics ML
No ratings yet
Importance Statistics ML
3 pages
Steps To Create Your Own Machine Learning Models
No ratings yet
Steps To Create Your Own Machine Learning Models
7 pages
ML MAKAUT Unit-3
No ratings yet
ML MAKAUT Unit-3
6 pages
Statistical Modelling Using Python
No ratings yet
Statistical Modelling Using Python
2 pages
Statss
No ratings yet
Statss
4 pages
Assingmant Hassan 1
No ratings yet
Assingmant Hassan 1
4 pages
AIMl TA2
No ratings yet
AIMl TA2
4 pages
IB9Y8 2019 Handout 4 2 Testing
No ratings yet
IB9Y8 2019 Handout 4 2 Testing
23 pages
Curran PG (2016) Preprint
No ratings yet
Curran PG (2016) Preprint
65 pages
Module ECM3420 (2020) Learning From Data
No ratings yet
Module ECM3420 (2020) Learning From Data
2 pages
SSM Book (Durbin Koopman)
No ratings yet
SSM Book (Durbin Koopman)
41 pages
Ani Reliabilitas
No ratings yet
Ani Reliabilitas
11 pages
HENRI
No ratings yet
HENRI
7 pages
Proof Wilks Theorem Likelihood Ratio Test
No ratings yet
Proof Wilks Theorem Likelihood Ratio Test
4 pages
Ntroduction TO Ypothesis Esting: o o o o
No ratings yet
Ntroduction TO Ypothesis Esting: o o o o
1 page
EEE 509 Module.3
No ratings yet
EEE 509 Module.3
49 pages
Obar
No ratings yet
Obar
9 pages
Dejaegher 2007
No ratings yet
Dejaegher 2007
20 pages
Lecture 4a - Transmission Line Equations
No ratings yet
Lecture 4a - Transmission Line Equations
14 pages
Quartiles, Deciles, Percentiles, Skewness, and Kurtosis
No ratings yet
Quartiles, Deciles, Percentiles, Skewness, and Kurtosis
11 pages
MOOC Econometrics Test Exercise 2
No ratings yet
MOOC Econometrics Test Exercise 2
3 pages
FDS Lesson Plan Upload
No ratings yet
FDS Lesson Plan Upload
6 pages
Process Performance Models: Statistical, Probabilistic & Simulation
From Everand
Process Performance Models: Statistical, Probabilistic & Simulation
Vishnuvarthanan Moorthy
No ratings yet
EEE 501 Assignment 1
No ratings yet
EEE 501 Assignment 1
4 pages
(Ebook) Causality in A Social World: Moderation, Mediation and Spill-Over by Guanglei Hong ISBN 9781118332566, 1118332563 PDF Download
100% (4)
(Ebook) Causality in A Social World: Moderation, Mediation and Spill-Over by Guanglei Hong ISBN 9781118332566, 1118332563 PDF Download
58 pages

Statistics in Machine Learning

Uploaded by

Statistics in Machine Learning

Uploaded by

Statistics in Machine Learning

1. During Data Exploration and Preprocessing

- Correlation analysis to identify relationships between features (e.g., Pearson/Spearman

- Outlier detection using z-scores, IQR, or box plots.

2. For Feature Selection and Engineering

- Hypothesis testing (e.g., t-tests, ANOVA) to check feature significance.

- Mutual information to assess the dependency between variables.

- Variance thresholding to remove low-variance features.

3. During Model Building and Training

4. For Model Evaluation

Purpose: To assess model performance and validate its reliability.

- Cross-validation for reliable performance estimates.

- Confidence intervals for performance metrics.

- Statistical significance tests (e.g., paired t-tests) to compare models.

5. For Interpretability and Explanation

Purpose: To explain the model's predictions and ensure transparency.

6. During Real-World Deployment and Monitoring

Purpose: To monitor data and model performance over time.

- Drift detection (e.g., using statistical divergence measures like KL divergence).

- Statistical process control for model accuracy tracking.

You might also like