0% found this document useful (0 votes)

2 views

Machine learning algorithms are generally categorized into three main types

The document provides a comprehensive overview of statistical measures, probability distributions, hypothesis testing, correlation, feature selection metrics, and machine learning algorithms. It includes Python code snippets for calculating mean, median, variance, and performing various statistical tests, as well as examples of supervised and unsupervised learning algorithms. Key concepts such as mutual information, entropy, and information gain in decision trees are also discussed.

Uploaded by

arunkumar799392

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Machine learning algorithms are generally categorized into three main types

Uploaded by

arunkumar799392

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 7

📌 1️⃣ Measures of Central Tendency (Mean, Median, Mode)

python

CopyEdit

import numpy as np

import pandas as pd

from scipy import stats

# Sample Data

data = [10, 15, 12, 18, 15, 21, 25, 10, 30, 15]

# Mean

mean_value = np.mean(data)

print("Mean:", mean_value)

# Median

median_value = np.median(data)

print("Median:", median_value)

# Mode

mode_value = stats.mode(data, keepdims=True)

print("Mode:", mode_value.mode[0])

📌 2️⃣ Measures of Dispersion (Variance, Standard Deviation, Range, IQR)

python

CopyEdit

# Variance

variance_value = np.var(data, ddof=1) # Sample variance

print("Variance:", variance_value)

# Standard Deviation

std_dev = np.std(data, ddof=1)

print("Standard Deviation:", std_dev)

# Range

range_value = max(data) - min(data)

print("Range:", range_value)

# Interquartile Range (IQR)

q1 = np.percentile(data, 25)

q3 = np.percentile(data, 75)

iqr_value = q3 - q1

print("IQR:", iqr_value)

📌 3️⃣ Probability Distributions

Normal Distribution (Gaussian)

python

CopyEdit

import matplotlib.pyplot as plt

import scipy.stats as stats

# Generate data with normal distribution

mu, sigma = 0, 1 # Mean and Standard Deviation

normal_data = np.random.normal(mu, sigma, 1000)

# Plot normal distribution

plt.hist(normal_data, bins=30, density=True, alpha=0.6, color='g')

# Plot theoretical normal curve

xmin, xmax = plt.xlim()

x = np.linspace(xmin, xmax, 100)

p = stats.norm.pdf(x, mu, sigma)

plt.plot(x, p, 'k', linewidth=2)

plt.title("Normal Distribution")

plt.show()

Binomial Distribution

python

CopyEdit

# Binomial Distribution Example: 10 trials, 0.5 probability of success

n, p = 10, 0.5

binom_data = np.random.binomial(n, p, 1000)

# Plot histogram

plt.hist(binom_data, bins=10, density=True, alpha=0.6, color='b')

plt.title("Binomial Distribution")

plt.show()

📌 4️⃣ Hypothesis Testing

T-Test (Comparing Two Groups)

python

CopyEdit

# Generate two random samples

group1 = np.random.normal(50, 10, 30)

group2 = np.random.normal(55, 10, 30)

# Perform t-test

t_stat, p_value = stats.ttest_ind(group1, group2)

print("T-Test Statistic:", t_stat)

print("P-Value:", p_value)

Chi-Square Test (Categorical Variables)

python

CopyEdit
# Contingency Table

observed = np.array([[10, 20, 30], [6, 9, 17]])

# Perform Chi-Square Test

chi2, p, dof, expected = stats.chi2_contingency(observed)

print("Chi-Square Value:", chi2)

print("P-Value:", p)

📌 5️⃣ Correlation & Covariance

python

CopyEdit

# Generate two random datasets

x = np.random.rand(10)

y = np.random.rand(10)

# Correlation Coefficient

correlation = np.corrcoef(x, y)[0, 1]

print("Correlation Coefficient:", correlation)

# Covariance

covariance = np.cov(x, y)[0, 1]

print("Covariance:", covariance)

📌 6️⃣ Feature Selection Metrics

Mutual Information

python

CopyEdit

from sklearn.feature_selection import mutual_info_classif

# Example dataset

X = np.array([[1], [2], [3], [4], [5]])

y = np.array([0, 1, 0, 1, 0])

# Compute Mutual Information

mi_score = mutual_info_classif(X, y)

print("Mutual Information Score:", mi_score[0])

📌 7️⃣ Entropy & Information Gain (Decision Trees)

python

CopyEdit

from sklearn.tree import DecisionTreeClassifier

# Sample Data

X = np.array([[0], [1], [2], [3], [4], [5]])

y = np.array([0, 1, 0, 1, 0, 1])

# Train Decision Tree

clf = DecisionTreeClassifier(criterion='entropy')

clf.fit(X, y)

# Get Information Gain for each feature

feature_importance = clf.feature_importances_

print("Information Gain:", feature_importance)

🚀 Summary of Implemented Concepts

✅ Mean, Median, Mode

✅ Variance, Standard Deviation, Range, IQR
✅ Normal & Binomial Distributions
✅ T-Test & Chi-Square Test
✅ Correlation & Covariance
✅ Mutual Information & Information Gain

Machine learning algorithms are generally categorized into three main types:

1️⃣ Supervised Learning

In supervised learning, the algorithm is trained on labeled data, meaning each training example has
an input and a corresponding correct output.

🔹 Regression Algorithms (For predicting continuous values)

 Linear Regression

 Polynomial Regression

 Decision Tree Regression

 Random Forest Regression

 Support Vector Regression (SVR)

# Importing regression models

from sklearn.linear_model import LinearRegression

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

from sklearn.svm import SVR

# Initializing models with key parameters

linear_model = LinearRegression(fit_intercept=True, normalize='deprecated') #

fit_intercept=True means adding bias term

tree_model = DecisionTreeRegressor(criterion='mse', max_depth=5, min_samples_split=2)

forest_model = RandomForestRegressor(n_estimators=100, max_depth=10,

min_samples_split=2, random_state=42)

svr_model = SVR(kernel='rbf', C=1.0, epsilon=0.1) # C is the regularization parameter

🔹 Classification Algorithms (For predicting discrete categories)

 Logistic Regression

 K-Nearest Neighbors (KNN)

 Decision Tree

 Random Forest

 Support Vector Machine (SVM)

 Naïve Bayes

 Neural Networks

# Importing classification models

from sklearn.linear_model import LogisticRegression

from sklearn.neighbors import KNeighborsClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.svm import SVC

from sklearn.naive_bayes import GaussianNB

# Initializing models with key parameters

logistic_model = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', max_iter=1000)

knn_model = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2) # p=2 is for

Euclidean distance

tree_classifier = DecisionTreeClassifier(criterion='gini', max_depth=5, min_samples_split=2)

forest_classifier = RandomForestClassifier(n_estimators=100, max_depth=10,

min_samples_split=2, random_state=42)

svm_classifier = SVC(kernel='rbf', C=1.0, gamma='scale', probability=True)

naive_bayes = GaussianNB(var_smoothing=1e-9)

2️⃣ Unsupervised Learning

In unsupervised learning, the algorithm is trained on unlabeled data and tries to find hidden
patterns.

🔹 Clustering Algorithms (For grouping similar data points)

 K-Means

 Hierarchical Clustering

 DBSCAN (Density-Based Clustering)

# Importing clustering models

from sklearn.cluster import KMeans, DBSCAN

# Initializing models with key parameters

kmeans_model = KMeans(n_clusters=3, init='k-means++', max_iter=300, n_init=10,

random_state=42)

dbscan_model = DBSCAN(eps=0.5, min_samples=5, metric='euclidean')

Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
Data Science Cheatsheet
100% (1)
Data Science Cheatsheet
5 pages
ml record
No ratings yet
ml record
21 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
0975 Data Science and Machine Learning
No ratings yet
0975 Data Science and Machine Learning
6 pages
ML Lab Manual
No ratings yet
ML Lab Manual
28 pages
lab ML
No ratings yet
lab ML
26 pages
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
No ratings yet
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
4 pages
Udacity Machine Learning Analysis Supervised Learning
100% (1)
Udacity Machine Learning Analysis Supervised Learning
504 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Machine Learning Mathematics in Python -- Jamie Flux -- 2024
No ratings yet
Machine Learning Mathematics in Python -- Jamie Flux -- 2024
238 pages
Machine Learning Strategies
No ratings yet
Machine Learning Strategies
59 pages
21CSC305P Ml - Lab Programs 1 -9
No ratings yet
21CSC305P Ml - Lab Programs 1 -9
36 pages
Data science and analtics Laboratory
No ratings yet
Data science and analtics Laboratory
21 pages
Dav practicals
No ratings yet
Dav practicals
33 pages
week_3
No ratings yet
week_3
10 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
No ratings yet
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
68 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
Argha's ML LAB_240927_121838
No ratings yet
Argha's ML LAB_240927_121838
13 pages
Statistics Consulting Cheat Sheet: Kris Sankaran October 1, 2017
100% (1)
Statistics Consulting Cheat Sheet: Kris Sankaran October 1, 2017
44 pages
statistics for applied science 200l
No ratings yet
statistics for applied science 200l
122 pages
Lab Experiments Vi Sem-1
No ratings yet
Lab Experiments Vi Sem-1
10 pages
Final ML File
No ratings yet
Final ML File
34 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
Statistical Machine Learning: Yiqiao YIN Department of Statistics Columbia University
No ratings yet
Statistical Machine Learning: Yiqiao YIN Department of Statistics Columbia University
204 pages
Train
No ratings yet
Train
17 pages
Orange3 Data Mining Library Using Python
50% (2)
Orange3 Data Mining Library Using Python
102 pages
IML_Module_Answer
No ratings yet
IML_Module_Answer
12 pages
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
No ratings yet
Import Pandas As PD DF PD - Read - CSV ("Titanic - Train - CSV") DF - Head
20 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Orange 3
100% (1)
Orange 3
46 pages
MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
4-12
No ratings yet
4-12
17 pages
Data Science Classes
No ratings yet
Data Science Classes
13 pages
Data Science
No ratings yet
Data Science
13 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
Bishop Solutions PDF
No ratings yet
Bishop Solutions PDF
87 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
4 pages
ML File
No ratings yet
ML File
37 pages
machinelearning_lab manual
No ratings yet
machinelearning_lab manual
26 pages
ml lab programs 2
No ratings yet
ml lab programs 2
16 pages
Cost Practical
No ratings yet
Cost Practical
13 pages
Ml Lab Manual
No ratings yet
Ml Lab Manual
36 pages
CS3362 Data Science Laboratory Manual 2022-23
No ratings yet
CS3362 Data Science Laboratory Manual 2022-23
54 pages
TOBo ML
No ratings yet
TOBo ML
135 pages
7708 - MBA PredAnanBigDataNov21
No ratings yet
7708 - MBA PredAnanBigDataNov21
11 pages
Pattern Summary Final
No ratings yet
Pattern Summary Final
28 pages
Edaunit IV
No ratings yet
Edaunit IV
15 pages
Python Code - Summary Statistics
No ratings yet
Python Code - Summary Statistics
6 pages
mll
No ratings yet
mll
5 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
Big Data Mid Term
No ratings yet
Big Data Mid Term
14 pages
Aayushi ML File
No ratings yet
Aayushi ML File
37 pages
SMEC ML LAB MANUAL R22
No ratings yet
SMEC ML LAB MANUAL R22
21 pages
1
No ratings yet
1
130 pages
Exercises
No ratings yet
Exercises
69 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Chapter 5 - Random Sapling
No ratings yet
Chapter 5 - Random Sapling
25 pages
Methods For Identifying Out-of-Trend Data in Analysis of Stability Measurements - Part I: Regression Control Chart
No ratings yet
Methods For Identifying Out-of-Trend Data in Analysis of Stability Measurements - Part I: Regression Control Chart
7 pages
MC03
No ratings yet
MC03
7 pages
Mtcars: Choosing The Most Related Variable (S) To The Response
No ratings yet
Mtcars: Choosing The Most Related Variable (S) To The Response
13 pages
Stat Tables 2
No ratings yet
Stat Tables 2
7 pages
Numerical Methods Chapter Three Curve Fitting: Woldia University Institute of Technology
No ratings yet
Numerical Methods Chapter Three Curve Fitting: Woldia University Institute of Technology
22 pages
Tutorial How To Run Panel Data Analysis by Using Stata
No ratings yet
Tutorial How To Run Panel Data Analysis by Using Stata
21 pages
Jamovi
100% (2)
Jamovi
519 pages
Tugas Ekonometrika Lanjutan Hasil Interpretasi Pengujian Masalah Stasioner
No ratings yet
Tugas Ekonometrika Lanjutan Hasil Interpretasi Pengujian Masalah Stasioner
6 pages
Chapter2 BI
No ratings yet
Chapter2 BI
77 pages
Linear Regression. Examples
No ratings yet
Linear Regression. Examples
6 pages
Using ACF and PACF To Select MA (Q) or AR (P) Models
No ratings yet
Using ACF and PACF To Select MA (Q) or AR (P) Models
3 pages
PLS Tutorial PDF
No ratings yet
PLS Tutorial PDF
12 pages
Clustering
No ratings yet
Clustering
53 pages
08 Split Plots
No ratings yet
08 Split Plots
25 pages
Sample Final Examination Attempt Review
No ratings yet
Sample Final Examination Attempt Review
19 pages
Fourth Periodict Test 10
No ratings yet
Fourth Periodict Test 10
5 pages
Module 5 Advanced Classification Techniques
No ratings yet
Module 5 Advanced Classification Techniques
40 pages
ML IA1 Answers
No ratings yet
ML IA1 Answers
26 pages
Machine Learning and Econometrics EF
No ratings yet
Machine Learning and Econometrics EF
270 pages
NCERT Solutions for Class 11 Maths Chapter 13 Statistics - Free PDF Download (1)
No ratings yet
NCERT Solutions for Class 11 Maths Chapter 13 Statistics - Free PDF Download (1)
39 pages
Art. Fisher Exact Test
No ratings yet
Art. Fisher Exact Test
5 pages
August - 2018-R16 M3
No ratings yet
August - 2018-R16 M3
2 pages
Telecom Churn Solution
100% (5)
Telecom Churn Solution
28 pages
Group Assignment Questions Landscape
No ratings yet
Group Assignment Questions Landscape
14 pages
1 Solution To Problem 8.1
No ratings yet
1 Solution To Problem 8.1
16 pages
BCSL-044 S3
No ratings yet
BCSL-044 S3
3 pages
Bank Rpubs
No ratings yet
Bank Rpubs
24 pages
EWMA Charts
No ratings yet
EWMA Charts
18 pages
Full Download Research Design and Methods: A Process Approach, 11th Edition Bordens - eBook PDF PDF DOCX
100% (1)
Full Download Research Design and Methods: A Process Approach, 11th Edition Bordens - eBook PDF PDF DOCX
62 pages