Introduction-to-Exploratory-Data-Analysis-EDA

Exploratory Data Analysis (EDA) is a vital process in the data science lifecycle that involves examining data to uncover patterns, validate assumptions, and improve data quality. The EDA process includes steps such as data gathering, cleaning, transformation, exploration, and interpretation, which help inform modeling decisions. Additionally, EDA utilizes various techniques for handling missing values, outliers, and visualizing data relationships to derive insights for further analysis.

Uploaded by

Kunjumol John

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views

Introduction-to-Exploratory-Data-Analysis-EDA

Uploaded by

Kunjumol John

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Introduction to

Exploratory Data
Analysis (EDA)
Exploratory data analysis (EDA) is a crucial stage in the data
science lifecycle. It involves examining and understanding the data
to gain insights and prepare it for further analysis.

DJ
by Dency John
Importance of EDA in the
Data Science Lifecycle
1 Uncover Hidden 2 Validate Assumptions
Patterns
It allows you to check if your
EDA helps identify trends, initial assumptions about
outliers, and relationships the data are accurate or
within the data that might need to be revised.
not be obvious at first
glance.

3 Improve Data Quality 4 Inform Modelling

Decisions
EDA enables you to detect
and handle issues like The insights gained from
missing values, EDA can guide your choice
inconsistencies, and errors of appropriate data mining
in the data. techniques and models.
Steps in the EDA Process

1 Data Gathering
Begin by acquiring the data from various sources, ensuring it's relevant to your analytical goals.

2 Data Cleaning
Address any inconsistencies, missing values, or outliers in the data to ensure its quality and accuracy.

3 Data Transformation
Transform the data to make it suitable for analysis, such as scaling or encoding categorical variables.

4 Data Exploration
Explore the data by using descriptive statistics, visualizations, and summary tables to uncover patterns and relationships.

5 Data Interpretation
Interpret the insights gained from the exploration to draw conclusions and form hypotheses for further analysis.
Importing Data from Various Sources
Databases Files APIs

Connect to databases like MySQL, Import data from various file Access data from external APIs to
PostgreSQL, or SQLite to retrieve formats such as CSV, Excel, JSON, retrieve data from websites, social
data directly. or XML. media platforms, or weather
services.
Creating Data Frames from Diverse Formats
CSV Excel
Read data from comma-separated values (CSV) files into Import data from Excel spreadsheets into a data frame.
a data frame.

JSON HTML
Load data from JavaScript Object Notation (JSON) files Extract data from HTML tables into a data frame using
into a data frame. web scraping techniques.
Exploring Data Structure
and Dimensions
Data Type Description

Shape Number of rows and columns in

the data frame.

Dimensions Number of rows and columns of

the data frame.

Size Total number of elements in the

data frame.

Index A unique identifier for each row

in the data frame.

Columns Names of the variables or

features in the data frame.
Indexing and Selecting Data
Label-Based Indexing
Select data using row and column labels or names.

Position-Based Indexing
Access data using numerical indices for rows and
columns.

Boolean Indexing
Select rows or columns based on conditions that
evaluate to True or False.
Handling Missing Values and Outliers
Missing Values Outliers

Identify and handle missing values by imputing them Detect and address outliers by replacing them with
with statistical measures or dropping rows/columns. appropriate values, removing them, or applying
transformations.
Visualising Data Patterns and Relationships

Scatter Plots Histograms Box Plots Heatmaps

Explore relationships Visualize the distribution Compare the distribution Explore correlations
between two continuous of a single continuous of a variable across between multiple
variables. variable. different categories. variables.
Deriving Insights and
Informing the Next Steps

Identify Key Trends Formulate Hypotheses

Uncover patterns, trends, and Develop hypotheses based on the
relationships within the data that observed patterns to guide further
are significant for analysis. analysis and modeling.

Select Appropriate Models Optimize Data Preparation

Choose data mining techniques Make informed decisions about
and models that are appropriate data cleaning, transformation, and
for the data and the analytical feature engineering based on EDA
goals. findings.

Eda ML 2
No ratings yet
Eda ML 2
10 pages
Mastering Data Analysis in Excel
No ratings yet
Mastering Data Analysis in Excel
10 pages
Chapter 4 Information Analytics in Perspectives
No ratings yet
Chapter 4 Information Analytics in Perspectives
39 pages
FDS - 3 SOLVED
No ratings yet
FDS - 3 SOLVED
21 pages
EDA IMPORTANT TWO MARKS & 16 MARKS
No ratings yet
EDA IMPORTANT TWO MARKS & 16 MARKS
17 pages
Data-Science-Unlocking-Insights-from-Information
No ratings yet
Data-Science-Unlocking-Insights-from-Information
8 pages
Data Analyst Unlocking Insights Driving Impact
No ratings yet
Data Analyst Unlocking Insights Driving Impact
10 pages
Exploratory Data Analysis Gam
No ratings yet
Exploratory Data Analysis Gam
10 pages
Dev Answer Key
100% (1)
Dev Answer Key
17 pages
Unit 2
No ratings yet
Unit 2
11 pages
Answer of Binman Sir's Suggested Questions
No ratings yet
Answer of Binman Sir's Suggested Questions
13 pages
II CSE_A&B (96)DS-int 1 QP ANS-set1 - Copy
No ratings yet
II CSE_A&B (96)DS-int 1 QP ANS-set1 - Copy
7 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
11 pages
download
No ratings yet
download
4 pages
Exploratory Data Analysis EDA and Feature Engineering 10 Merged
No ratings yet
Exploratory Data Analysis EDA and Feature Engineering 10 Merged
99 pages
Crosstab-Report-Unlocking-Insights (1) - Read-Only
No ratings yet
Crosstab-Report-Unlocking-Insights (1) - Read-Only
9 pages
Data Science and The Future
No ratings yet
Data Science and The Future
10 pages
Introduction to Engineering Data Analysis
No ratings yet
Introduction to Engineering Data Analysis
20 pages
datascience unit-4
No ratings yet
datascience unit-4
6 pages
3 Data Integration Analysis Reconciliation and Mapping
No ratings yet
3 Data Integration Analysis Reconciliation and Mapping
8 pages
What Is Exploratory Data Analysis (EDA)
100% (1)
What Is Exploratory Data Analysis (EDA)
13 pages
Exploratory Data Analysis and Data Preprocessing - Dr. Haleema
No ratings yet
Exploratory Data Analysis and Data Preprocessing - Dr. Haleema
11 pages
PART A
No ratings yet
PART A
2 pages
Data Science Workflow
No ratings yet
Data Science Workflow
7 pages
Exploratory Data Analysis With NumPy and Matplotlib
No ratings yet
Exploratory Data Analysis With NumPy and Matplotlib
8 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
2 pages
ETL Prepare the data
No ratings yet
ETL Prepare the data
15 pages
UNIT - 2 ML
No ratings yet
UNIT - 2 ML
8 pages
03-Data Science Methodology
No ratings yet
03-Data Science Methodology
8 pages
Glossary of Problem & Approach
No ratings yet
Glossary of Problem & Approach
3 pages
1714205264703
No ratings yet
1714205264703
46 pages
Unit 1 - Intro To EDA
No ratings yet
Unit 1 - Intro To EDA
40 pages
Power-Query-Transforming-Data-in-Power-BI-Like-a-Pro
No ratings yet
Power-Query-Transforming-Data-in-Power-BI-Like-a-Pro
31 pages
? Data Cleaning 101❗_
No ratings yet
? Data Cleaning 101❗_
17 pages
DTS 201 LECTURE NOTE
No ratings yet
DTS 201 LECTURE NOTE
24 pages
Data Science Lecture No 02
No ratings yet
Data Science Lecture No 02
21 pages
CCL Removed Merged
No ratings yet
CCL Removed Merged
9 pages
UNIT 5 - Data Analysis Methods
No ratings yet
UNIT 5 - Data Analysis Methods
31 pages
Lecture Notes 1.1 & 1.2
No ratings yet
Lecture Notes 1.1 & 1.2
8 pages
DATA WRANGLING
No ratings yet
DATA WRANGLING
9 pages
Coding and Classification of Data - PPTX - 20241009 - 180023 - 0000
No ratings yet
Coding and Classification of Data - PPTX - 20241009 - 180023 - 0000
9 pages
Data Mining Vs Data Exploration UNIT-II
No ratings yet
Data Mining Vs Data Exploration UNIT-II
11 pages
Data Science Unlocking The Power of Data
No ratings yet
Data Science Unlocking The Power of Data
8 pages
BIA 5000 Introduction To Analytics - Lesson 6
No ratings yet
BIA 5000 Introduction To Analytics - Lesson 6
59 pages
ML_EXP_NO_1
No ratings yet
ML_EXP_NO_1
8 pages
Basics of Data Integration
No ratings yet
Basics of Data Integration
67 pages
Course HandOut Data Analytics Course 2024
No ratings yet
Course HandOut Data Analytics Course 2024
5 pages
Data Science Unlocking The Power of Data
No ratings yet
Data Science Unlocking The Power of Data
8 pages
mylesson 3
No ratings yet
mylesson 3
19 pages
Q2 Ans
No ratings yet
Q2 Ans
5 pages
EXP-12
No ratings yet
EXP-12
4 pages
Prac 7
No ratings yet
Prac 7
5 pages
C21_SMA_EXP4[1]
No ratings yet
C21_SMA_EXP4[1]
12 pages
ML Question Answer
No ratings yet
ML Question Answer
4 pages
BI-LEc 3
No ratings yet
BI-LEc 3
24 pages
Approaches in data science [Slides]
No ratings yet
Approaches in data science [Slides]
13 pages
Data - Visualisation - Charts and Types of Data
No ratings yet
Data - Visualisation - Charts and Types of Data
7 pages
FDS Pyq2
No ratings yet
FDS Pyq2
10 pages
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
From Everand
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
JAMIE POWERS
No ratings yet
Spotify
100% (1)
Spotify
3 pages
Tracing PX Session With A 10046 Event or SQL - Trace (Doc ID 242374.1)
No ratings yet
Tracing PX Session With A 10046 Event or SQL - Trace (Doc ID 242374.1)
2 pages
Flashback Technology
No ratings yet
Flashback Technology
16 pages
Bigdataaaaa
No ratings yet
Bigdataaaaa
180 pages
Datapatch: Database 12c or Later Post Patch SQL Automation (Doc ID 1585822.1)
No ratings yet
Datapatch: Database 12c or Later Post Patch SQL Automation (Doc ID 1585822.1)
4 pages
SAP BW Modelling, Extraction and Reporting
No ratings yet
SAP BW Modelling, Extraction and Reporting
49 pages
Development of A University Financial Data Warehouse and Its Visualization Tool
No ratings yet
Development of A University Financial Data Warehouse and Its Visualization Tool
9 pages
Advantage of Auxiliary Cloud Services
No ratings yet
Advantage of Auxiliary Cloud Services
5 pages
Chapter 1 Quiz
No ratings yet
Chapter 1 Quiz
2 pages
Testing PDF
No ratings yet
Testing PDF
17 pages
DBMS Lab File
No ratings yet
DBMS Lab File
22 pages
Sales Management Report
No ratings yet
Sales Management Report
7 pages
Payroll Report
No ratings yet
Payroll Report
40 pages
Oracle Basic and Advanced SQL
No ratings yet
Oracle Basic and Advanced SQL
211 pages
Presentation DIT ON DATABASE
No ratings yet
Presentation DIT ON DATABASE
6 pages
Dbms-Question-And-Answers (Previous Year)
No ratings yet
Dbms-Question-And-Answers (Previous Year)
35 pages
Class 12 Practical File Informatics Practices
No ratings yet
Class 12 Practical File Informatics Practices
22 pages
JSP MCQs - Final1
No ratings yet
JSP MCQs - Final1
12 pages
Top 25 SQL Interview Questions ?
No ratings yet
Top 25 SQL Interview Questions ?
21 pages
Lecture Notes: Introduction To Data Science and Big Data
No ratings yet
Lecture Notes: Introduction To Data Science and Big Data
5 pages
1 - Disk Storage - Ch13
No ratings yet
1 - Disk Storage - Ch13
31 pages
Class Xi Ip - MS
No ratings yet
Class Xi Ip - MS
5 pages
May/June 2021 COMP2211-WE01: Examination Paper
No ratings yet
May/June 2021 COMP2211-WE01: Examination Paper
5 pages
II PUC - Viva Q & A
No ratings yet
II PUC - Viva Q & A
5 pages
Server Process Redundancy and Race Conditions v1.0
No ratings yet
Server Process Redundancy and Race Conditions v1.0
25 pages
Template For SLR Writing
No ratings yet
Template For SLR Writing
20 pages
Gr-12th first assignment
No ratings yet
Gr-12th first assignment
3 pages
Chapter 4
No ratings yet
Chapter 4
13 pages
SQL Retail Sales Project
No ratings yet
SQL Retail Sales Project
5 pages
BITHBSIT121 Assignment 2
No ratings yet
BITHBSIT121 Assignment 2
3 pages