28 Oct EDA Notes

This document discusses various topics related to mathematics for data science including exploratory data analysis, the life cycle of a data science project, and feature engineering. It provides details on exploring datasets through plots and graphs, handling missing values and outliers, and converting categorical features to numerical values. The purpose of exploratory data analysis is explained as gaining insights from a dataset to determine if predictive models are feasible.

Uploaded by

Prachi kasved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

65 views16 pages

28 Oct EDA Notes

Uploaded by

Prachi kasved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 16

HDSC501

Mathematics for Data

Science
-DEEPALI P. KADAM
ASST. PROFESSOR
INFORMATION TECHNOLOGY
DATTA MEGHE COLLEGE OF ENGINEERING, AIROLI
Exploratory Data Analysis
1. Need of exploratory data analysis
2. Cleaning and preparing data
3. Feature engineering
4. Missing values
5. Understand dataset through various plots and
graphs
6. Draw conclusions
7. Deciding appropriate machine learning models.
Life Cycle of Data Science Project
1. Feature Engineering
2. Feature Selection
3. Model Creation
4. Hyper parameter tuning
5. Model Deployment
6. Incremental Learning
Feature Engineering
1. Exploratory Data Analysis
2. Handling the missing values
3. Handling Imbalanced dataset
4. Treating the outliers
5. Scaling down the data-
i. Standardization
ii. Normalization
6. Converting the categorical features into
numerical features
Need of Exploratory Data Analysis
1. Exploratory data analysis (EDA) involves using statistics and
visualizations to analyze and identify trends in data sets.
2. The primary intent of EDA is to determine whether a
predictive model is a feasible analytical tool for business
challenges or not.
3. EDA helps data scientists gain an understanding of the data
set beyond the formal modeling or hypothesis testing task.
4. Exploratory data analysis is essential for any research
analysis, so as to gain insights into a data set.
5. In this article, let’s take a look at the importance, and
purpose, and objective of exploratory data analysis that an
analyst would want to extract from a data set.
Exploratory Data Analysis
1. Analyze how many numerical features are
present using histogram, pdf function, Seaborn,
matplotlib, c bond.
2. Analyze how many categorical/discrete features
are present. Are multiple categories present for
each feature?
3. Missing values (visualize all these graphs)
4. Outliers – BoxPlot (Sem 6)
5. Cleaning
Histogram
• https://corporatefinanceinstitute.com/resourc
es/excel/study/histogram/
• Data binning/bucketing : Grop a no. of more
or less contionuous values into a smaller no.
of bins/buckets.
– Equal Frequency Binning/ Equal Width Binning
• Reduces chances of overfitting. (specially for
less dataset)
Categorial Features/ Discrete Features
– Age
– Sentiment Analysis/ Opinion Mining: (8th Sem)
– Colour
– Types of machine : heavy/light

Convert into numeric

Types of missing data
• Missing data are errors because your data don’t
represent the true values of what you set out to
measure.
• The reason for the missing data is important to
consider, because it helps you determine the
type of missing data and what you need to do
about it.
There are three main types of missing
data:
MCAR
• Missing completely at random
• When data are missing completely at random (MCAR),
the probability of any particular value being missing
from your dataset is unrelated to anything else.
• The missing values are randomly distributed, so they
can come from anywhere in the whole distribution of
your values. These MCAR data are also unrelated to
other unobserved variables.
MAR
• Missing at random
• Data missing at random (MAR) are not actually
missing at random; this term is a bit of a misnomer.
• This type of missing data systematically differs from
the data you’ve collected, but it can be fully
accounted for by other observed variables.
• The likelihood of a data point being missing is
related to another observed variable but not to the
specific value of that data point itself.
MNAR
• Missing not at random
• Data missing not at random (MNAR) are
missing for reasons related to the values
themselves.

• REFER
• https://www.scribbr.com/statistics/missing-
data/
To clean and prepare data while preprocessing the data before
it gives as an input to the Machine Learning algorithm.

• https://www.v7labs.com/blog/data-
preprocessing-guide
12 Data Plot Types for Visualisation
from Concept to Code

• https://www.analyticsvidhya.com/blog/2021/12/12-data-plo
t-types-for-visualization/
• https://towardsdatascience.com/11-dimensionality-
reduction-techniques-you-should-know-in-2021-
dcb9500d388b
The parameters you would take into consideration while deciding which machine learning algorithms to use:

• https://towardsdatascience.com
/considerations-when-choosing-a-machine-lea
rning-model-
aa31f52c27f3

Advanced Data Analytics Assignment
No ratings yet
Advanced Data Analytics Assignment
6 pages
Crash Course Data Science
No ratings yet
Crash Course Data Science
7 pages
ML Exp No 1
No ratings yet
ML Exp No 1
8 pages
Class3-9 DataPreprocessing 22Aug-06Sept2019
No ratings yet
Class3-9 DataPreprocessing 22Aug-06Sept2019
53 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
2 - Machine Learning - 130824
No ratings yet
2 - Machine Learning - 130824
81 pages
Devish All Unit
No ratings yet
Devish All Unit
42 pages
Ai - Foundations of Machine Learning III
No ratings yet
Ai - Foundations of Machine Learning III
98 pages
17 Data Analysis
No ratings yet
17 Data Analysis
64 pages
Preprocessing 935
No ratings yet
Preprocessing 935
68 pages
Exploratory Data Analysis EDA Part of Data PreProcessing
No ratings yet
Exploratory Data Analysis EDA Part of Data PreProcessing
11 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
Data Wrangling and Descriptive Analytics: DR Sandipan Karmakar Department of Management Studies MNIT Jaipur
No ratings yet
Data Wrangling and Descriptive Analytics: DR Sandipan Karmakar Department of Management Studies MNIT Jaipur
57 pages
IMPDAV
No ratings yet
IMPDAV
105 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Week3 - Data Preprocessing, Extraction and Preparation
No ratings yet
Week3 - Data Preprocessing, Extraction and Preparation
34 pages
Unit - 1 Data Preprocessing
No ratings yet
Unit - 1 Data Preprocessing
66 pages
Lec 3 Data Preprocessing and Transformation
No ratings yet
Lec 3 Data Preprocessing and Transformation
73 pages
ML Unit 1 Part 2
No ratings yet
ML Unit 1 Part 2
56 pages
Data Preprocessing
No ratings yet
Data Preprocessing
67 pages
SML Updated UNIT-2
No ratings yet
SML Updated UNIT-2
43 pages
EDA - Zep
No ratings yet
EDA - Zep
33 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
Dev Answer Key
100% (1)
Dev Answer Key
17 pages
EDA and Cleaning
No ratings yet
EDA and Cleaning
24 pages
Unit 3
No ratings yet
Unit 3
41 pages
EDA - Task
No ratings yet
EDA - Task
20 pages
Unit 4 Notes
No ratings yet
Unit 4 Notes
20 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
Unit 4 Supervised Learning
100% (1)
Unit 4 Supervised Learning
75 pages
Data Wrangling
No ratings yet
Data Wrangling
18 pages
Data Preparation
No ratings yet
Data Preparation
17 pages
EDA Question Bank Answers
No ratings yet
EDA Question Bank Answers
24 pages
Unit - Iii - Eda
No ratings yet
Unit - Iii - Eda
25 pages
Module 1 - 2 - EDA
No ratings yet
Module 1 - 2 - EDA
12 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
ML Exp1 - 2201107
No ratings yet
ML Exp1 - 2201107
34 pages
Lecture 22
No ratings yet
Lecture 22
20 pages
Unit 4
No ratings yet
Unit 4
33 pages
Eda Indepth
No ratings yet
Eda Indepth
19 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Data Mining: Concepts and Techniques: September 16, 2020 1
No ratings yet
Data Mining: Concepts and Techniques: September 16, 2020 1
46 pages
Group 7
No ratings yet
Group 7
19 pages
21BCAD5C01 IDA Module 2 Notes
No ratings yet
21BCAD5C01 IDA Module 2 Notes
16 pages
Preprocessing Techniques
No ratings yet
Preprocessing Techniques
63 pages
EDA QB Full Answers
No ratings yet
EDA QB Full Answers
18 pages
DS&ML 4
No ratings yet
DS&ML 4
9 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
33 pages
Lect2 - Data Preprocessing
No ratings yet
Lect2 - Data Preprocessing
10 pages
UNIT 2 DT
No ratings yet
UNIT 2 DT
8 pages
Day 1 Article For Discussion
No ratings yet
Day 1 Article For Discussion
5 pages
Exploratory Data Analysis - Satyajit
No ratings yet
Exploratory Data Analysis - Satyajit
35 pages
Dev Core
No ratings yet
Dev Core
7 pages
Dev Answer Key
No ratings yet
Dev Answer Key
21 pages
Disruptive Technologies DA Lecture 8
No ratings yet
Disruptive Technologies DA Lecture 8
17 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
DA Interview Questions
No ratings yet
DA Interview Questions
7 pages
What Is Exploratory Data Analysis?: Intuition
No ratings yet
What Is Exploratory Data Analysis?: Intuition
8 pages
TIC 2151 - Theory of Computation: Context-Free Grammars (CFG)
No ratings yet
TIC 2151 - Theory of Computation: Context-Free Grammars (CFG)
23 pages
FBI Codes Ciphers and Concealments Example
100% (1)
FBI Codes Ciphers and Concealments Example
6 pages
CH 11 Powerpoint
No ratings yet
CH 11 Powerpoint
62 pages
9-Hashing Schemes
No ratings yet
9-Hashing Schemes
23 pages
Chip Design For Turbo Encoder Module For In-Vehicle System: A Project Report ON
No ratings yet
Chip Design For Turbo Encoder Module For In-Vehicle System: A Project Report ON
7 pages
Lecture 5
100% (1)
Lecture 5
39 pages
Intrusion Detection in Software Defined Network Using Machine Learning
No ratings yet
Intrusion Detection in Software Defined Network Using Machine Learning
11 pages
06 Smoothing PDF
No ratings yet
06 Smoothing PDF
55 pages
Auxiliary Monge-Ampere Equations in Geometric Analysis
No ratings yet
Auxiliary Monge-Ampere Equations in Geometric Analysis
38 pages
Introduction To Machine and Deep Learning For Medical Physicists
No ratings yet
Introduction To Machine and Deep Learning For Medical Physicists
21 pages
Open Elective Notice Jan May 2025
No ratings yet
Open Elective Notice Jan May 2025
2 pages
TASK 2 - Decisions Under Risk - 212066 - 75
No ratings yet
TASK 2 - Decisions Under Risk - 212066 - 75
39 pages
Process Synchronization - CH 6&7
No ratings yet
Process Synchronization - CH 6&7
85 pages
Seventh Semester B. Tech. Degree Examination: (Answer All Questions: 5 X 2 Marks 10 Marks)
No ratings yet
Seventh Semester B. Tech. Degree Examination: (Answer All Questions: 5 X 2 Marks 10 Marks)
2 pages
Real Time Event Detection in Social Media Using Big Data
No ratings yet
Real Time Event Detection in Social Media Using Big Data
64 pages
Unit Iii Efficiency 9
No ratings yet
Unit Iii Efficiency 9
16 pages
Lecture1 Asymptotic Anal
No ratings yet
Lecture1 Asymptotic Anal
74 pages
S1 Set B: Pre-Mock 2
No ratings yet
S1 Set B: Pre-Mock 2
2 pages
Final Stibo
No ratings yet
Final Stibo
25 pages
Implementation of Pattern Matching Algorithm
No ratings yet
Implementation of Pattern Matching Algorithm
4 pages
ML Module - 5 QB Solved-1
No ratings yet
ML Module - 5 QB Solved-1
11 pages
Paper 39
No ratings yet
Paper 39
10 pages
1 s2.0 S1877050922015058 Main
No ratings yet
1 s2.0 S1877050922015058 Main
11 pages
43-th Math Paper 2nd Final
No ratings yet
43-th Math Paper 2nd Final
5 pages
Linear Regression Machine Learning Model
No ratings yet
Linear Regression Machine Learning Model
10 pages
PE TM Mapping Chain Hash Logic
No ratings yet
PE TM Mapping Chain Hash Logic
5 pages
Assignment 02
No ratings yet
Assignment 02
3 pages
A Study On Heston-Nandi GARCH Option Pricing Model: Abstract
No ratings yet
A Study On Heston-Nandi GARCH Option Pricing Model: Abstract
5 pages
Systems and Network Security (NETW-1002) : Dr. Mohamed Abdelwahab Saleh IET-Networks, GUC Spring 2017 Exercise 6
No ratings yet
Systems and Network Security (NETW-1002) : Dr. Mohamed Abdelwahab Saleh IET-Networks, GUC Spring 2017 Exercise 6
2 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
Data Scientist Roadmap
From Everand
Data Scientist Roadmap
Mohammed Ahmed
5/5 (1)

28 Oct EDA Notes

Uploaded by

28 Oct EDA Notes

Uploaded by

HDSC501

Mathematics for Data

Convert into numeric

You might also like