Machine Learning Project Roadmap

The document outlines a machine learning project workflow, detailing steps such as importing libraries, data exploration, identifying and treating missing values, performing exploratory data analysis (EDA), and handling outliers. It emphasizes the importance of data transformation, scaling, encoding, and splitting the dataset into training and testing sets. The note at the end suggests applying the steps as relevant to the specific project, allowing for flexibility in the workflow.

Uploaded by

Karan Kosare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views4 pages

Machine Learning Project Roadmap

Uploaded by

Karan Kosare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

DCS CSED

Machine Learning Project Workflow

1. Import Libraries and Load the dataset
import numpy as np
import pandas as pd
import [Link] as plt
import seaborn as sns

from [Link] import SimpleImputer

from [Link] import LabelEncoder

import [Link] as stats

import warnings
[Link]('ignore')

data = pd.read_csv('path/to/your/[Link]')

2. Data Exploration
1. Initial Data Inspection: Examine the dataset's shape and columns.
[Link]()
[Link]()
<.info(): will also give a direct count of number of numeric and categorical
variables>
<variables/attributes are columns, records are rows>

5 point summary:
[Link]()
numeric:
<min, max values>
<50 percentile/median>
<25,75>
<std, mean>
DYSMECH COMPETENCY SERVICES PVT. LTD. 2
D

categorical:
[Link](include='O')
[Link](include=object)
<number of categories present in the variable>
<the top category with highest freq>
<freq of the top category>

3. Identify Missing Values: Check for missing values in each column.

-[Link]().sum()
# will tell you column wise count of missing values.
-[Link]().sum(axis=1)
# will tell you count of missing values in each record.

Missing value treatment:

1. Drop:
[Link](axis=1,how='any'/'all',thresh=num,subset=[col])

2. Impute:
-mean/median for numeric
[Link](tab[col].median/.mean)
-mode for categorical
[Link](tab[col].mode()[0]

4. EDA: Follow EDA Cheat sheet for that

1. Measure of Central Tendency- Mean, Median, Mode
2. Distribution of Data – using Visualization technique
a. Univariate Analysis
b. Bivariate Analysis
c. Multivariate Analysis
DCS CSED

3. Dispersion of Data- min, max, range, variance, standard deviation,

coefficient
of variation
4. Skewness and Kurtosis
5. Covariance and Correlation
5. Identify outliers
using box plot
Treatment for Outliers
q1 = data['column'].quantile(0.25)
q3 = data['column'].quantile(0.75)
iqr = q3 - q1
ul = q3 + 1.5 * iqr
ll = q1 - 1.5 * iqr

1. Drop
data = data[~((data['column'] < ll) | (data['column'] > ul))]
2. Capping
data['column'] = [Link](data['column'] > ul, ul, [Link](data['column']
< ll, ll, data['column']))

6. Data Transformation
Log Transformation:
df['column'] = [Link](df['column'])
Box-Cox Transformation:
pt = PowerTransformer(method='box-cox') df['transformed'] =
pt.fit_transform(df[['column']])
Yeo-Johnson Transformation:
pt = PowerTransformer(method='yeo-johnson') df['transformed'] =
pt.fit_transform(df[['column']])

7. Scaling
Follow EDA Cheat sheet for that

8. Encoding
Follow EDA Cheat sheet for that
DYSMECH COMPETENCY SERVICES PVT. LTD. 4
D

9. Train-Test Split
Follow EDA Cheat sheet for that

10. Feature Scaling Explanation

Follow EDA Cheat sheet for that

11. Apply the Algorithm according to target variable

NOTE: Apply the above steps as relevant to your project. If a step is

not essential, skip it and proceed to the next one.

Eda Indepth
No ratings yet
Eda Indepth
19 pages
IOT-Domain Analyst
No ratings yet
IOT-Domain Analyst
11 pages
Dev Core
No ratings yet
Dev Core
7 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
EDA Techniques in SAS for Data Science
No ratings yet
EDA Techniques in SAS for Data Science
25 pages
Module 3
No ratings yet
Module 3
108 pages
Data Mining Reviewer
No ratings yet
Data Mining Reviewer
4 pages
Exp 8 - LM
No ratings yet
Exp 8 - LM
10 pages
Academic Performance Data Wrangling
No ratings yet
Academic Performance Data Wrangling
9 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Statistics IMP Questions and Answers
No ratings yet
Statistics IMP Questions and Answers
23 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
4 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
ML Lab Manual 2025-2
No ratings yet
ML Lab Manual 2025-2
35 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
04 DS 2023
No ratings yet
04 DS 2023
63 pages
ML Exp No 1
No ratings yet
ML Exp No 1
8 pages
ML ch-1
No ratings yet
ML ch-1
32 pages
FOUND. DATA SCIENCE Practical
No ratings yet
FOUND. DATA SCIENCE Practical
15 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
Exploratory Data Analysis (EDA) and Descriptive Analytic
No ratings yet
Exploratory Data Analysis (EDA) and Descriptive Analytic
47 pages
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
No ratings yet
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
4 pages
STQS2223 CH 4
No ratings yet
STQS2223 CH 4
30 pages
Perform Exploratory Data Analysis
No ratings yet
Perform Exploratory Data Analysis
5 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
DAV Practical 2
No ratings yet
DAV Practical 2
6 pages
Research File 3
No ratings yet
Research File 3
10 pages
Exp 2
No ratings yet
Exp 2
6 pages
EDA Basics: Python for Data Analysis
100% (1)
EDA Basics: Python for Data Analysis
30 pages
Class Activity-2
No ratings yet
Class Activity-2
3 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
Machine Learning: Technical Requirements & Data Processing Guide
No ratings yet
Machine Learning: Technical Requirements & Data Processing Guide
30 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Exploratory Data Analysis (EDA) in Python
No ratings yet
Exploratory Data Analysis (EDA) in Python
6 pages
Dsi237 Group 2
No ratings yet
Dsi237 Group 2
27 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
Presentation - University
No ratings yet
Presentation - University
52 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
Employee Performance Analysis
No ratings yet
Employee Performance Analysis
3 pages
Day 1 Article For Discussion
No ratings yet
Day 1 Article For Discussion
5 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Python EDA: Stats, Visualization, Correlation
No ratings yet
Python EDA: Stats, Visualization, Correlation
7 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
Student Performance Analysis and Prediction 2.3
No ratings yet
Student Performance Analysis and Prediction 2.3
19 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Exp 12
No ratings yet
Exp 12
4 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Excel Data Analysis and Preprocessing Guide
No ratings yet
Excel Data Analysis and Preprocessing Guide
42 pages
28 Oct EDA Notes
No ratings yet
28 Oct EDA Notes
16 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Da Pra Week-8 (Karthik S) - 074713
No ratings yet
Da Pra Week-8 (Karthik S) - 074713
9 pages
Data Science Project Workflow Overview
No ratings yet
Data Science Project Workflow Overview
7 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
23 pages
Reliability Test (Cronbach's Alpha)
No ratings yet
Reliability Test (Cronbach's Alpha)
11 pages
Intro to Descriptive & Inferential Stats
No ratings yet
Intro to Descriptive & Inferential Stats
2 pages
Laboratory Exercise 3
100% (1)
Laboratory Exercise 3
4 pages
Lecture Note FDS Unit IV
No ratings yet
Lecture Note FDS Unit IV
32 pages
BA-Project - BCom 6C
No ratings yet
BA-Project - BCom 6C
2 pages
Wacc Project
No ratings yet
Wacc Project
8 pages
Case Study 2 Motion Picture Industry Monica B Thomas
No ratings yet
Case Study 2 Motion Picture Industry Monica B Thomas
1 page
Intro to Statistics for Beginners
No ratings yet
Intro to Statistics for Beginners
101 pages
Maths and Stats 2021 (G)
No ratings yet
Maths and Stats 2021 (G)
10 pages
Trend Meter
No ratings yet
Trend Meter
2 pages
Intro to Statistics for Students
No ratings yet
Intro to Statistics for Students
31 pages
احصاء
No ratings yet
احصاء
3 pages
Copper Market Trends and Data Analysis
No ratings yet
Copper Market Trends and Data Analysis
9 pages
MBA in AI For Business
No ratings yet
MBA in AI For Business
28 pages
Assignment 3 - BAS303
No ratings yet
Assignment 3 - BAS303
2 pages
Few Basic Financial Econometrics Q&A
100% (1)
Few Basic Financial Econometrics Q&A
9 pages
4 Role of Statistics in Research
100% (1)
4 Role of Statistics in Research
8 pages
Assignment Sta104
No ratings yet
Assignment Sta104
5 pages
Data Analysis Procedure
0% (1)
Data Analysis Procedure
27 pages
Measures of Dispersion
No ratings yet
Measures of Dispersion
29 pages
Data For Activity 1
No ratings yet
Data For Activity 1
5 pages
Business Statistics
No ratings yet
Business Statistics
16 pages
FTA-Module 1-Notes
No ratings yet
FTA-Module 1-Notes
24 pages
Geomatics Error Propagation Overview
No ratings yet
Geomatics Error Propagation Overview
28 pages
Unsolved Chapter 08 - Interval Estimation
No ratings yet
Unsolved Chapter 08 - Interval Estimation
15 pages
Skewness
No ratings yet
Skewness
14 pages
Data Cleaning Techniques
No ratings yet
Data Cleaning Techniques
11 pages
Final Inspection CIMD
No ratings yet
Final Inspection CIMD
3 pages
OPMT 1005 - Week Thirteen - Six Sigma - Part Two
No ratings yet
OPMT 1005 - Week Thirteen - Six Sigma - Part Two
48 pages
Applied Econometrics, Group Assignment: The Gravity Model of International Trade - Due Date For This Assignment Is May 30th, 2012
No ratings yet
Applied Econometrics, Group Assignment: The Gravity Model of International Trade - Due Date For This Assignment Is May 30th, 2012
13 pages