0% found this document useful (0 votes)

28 views16 pages

Introduction To EDA

The document outlines the fundamentals of Exploratory Data Analysis (EDA) within the context of data science, emphasizing its significance in understanding and visualizing data. It details the main pillars of EDA, including data cleaning, preparation, exploration, and visualization, and compares the use of Python and R in this field. Additionally, it describes the phases of data analysis, from data requirement to communication, highlighting the importance of each step in deriving meaningful insights from datasets.

Uploaded by

jr.vijiofficial

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views16 pages

Introduction To EDA

Uploaded by

jr.vijiofficial

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

St.

Joseph’s College of Engineering

Department of Artiﬁcial Intelligence and Data Science
Academic Year: 2025-2026 [ODD Semester]

Introduction to EDA
Unit I

Exploratory Data Analysis Fundamentals - Understanding data science - The

significance of EDA - - Making sense of data - Comparing EDA with classical and
Bayesian analysis - Software tools available for EDA - Visual aids for EDA – Types
of Charts
EDA Fundamentals
● What is data?
● Data is a collection of discrete objects, events, and facts in the form of numbers, text,pictures, videos, objects, audio,
and other entities
● What is information?
- Processing data provides a great deal of information.
- Processing such data elicits useful information and processing such information provides useful knowledge
● To collect meaningful information - we need EDA

Definition: EDA

● It is the process of investigating datasets, elucidating subjects, and visualizing outcomes.

● EDA is an approach to data analysis that applies a variety of techniques to maximize specific insights into a dataset,
reveal an underlying structure, extract significant variables, detect outliers and anomalies, test assumptions, develop
models, and determine best parameters for future estimations.
● EDA is the process of examining the datasets to discover the patterns, spot anomalies , test hypotheses and check
assumptions using statistical measures.

Various exploratory tools: Python, R

Enterprise Applications: Power BI, SAP Cloud Analytics , Tableau

●
EDA Fundamentals
Main pillars of EDA:
-Data Cleaning
-Data Preparation
-Data exploration
-Data Visualization
[Python: Panda library - important, other library- NumPy, Scikit-learn, SciPy, Stats
Models ( for regression) , Matplotlib - visualization
EDA Fundamentals
Main pillars of EDA:
-Data Cleaning
-Data Preparation
-Data exploration
-Data Visualization
[Python: Panda library - important, other library- NumPy, Scikit-learn, SciPy, Stats
Models ( for regression) , Matplotlib - visualization
EDA Fundamentals
Difference between R and Python

| Aspect |R | Python |

| ------------ ----- | ----------------------------------- --------------------------------------- | ----------------------------------------------------------------------------------- |

| **Primary Use** | Statistical analysis, data visualization | General-purpose programming, data science, machine learning
|

| **Strengths** | - Built-in stats packages<br>- Great for academic and statistical modeling | - Versatile<br>- Strong machine learning libraries (scikit-learn, TensorFlow,
etc.) |

| **Community** | Strong among statisticians and researchers | Very large and cross-disciplinary |

| Visualization | ggplot2, plotly | matplotlib, seaborn, plotly |

| **Ease of Use** | Easier for statistical analysis tasks | Easier for general programming & integration |

| **Flexibility** | Limited outside data analysis | High—used for web dev, automation, AI, etc. |

| Use Case | Research, reports, prototyping | Full-stack applications, production ML systems |

EDA Fundamentals
| Feature | R/Python (Analysis Tools) | Enterprise Applications |

| ------------------ --- | ------------------ -------------- | ------------------------------------------------------- |

| Goal | Explore data, build models | Manage business workflows |

| User | Analysts, data scientists | Enterprise employees, managers |

| Customization | High (code-based) | Limited to platform capabilities |

| Deployment | Local or cloud notebooks/scripts | Cloud/on-premises systems |

| **Data Handling** | Excellent for analysis | Strong for storage, reporting, transactional processing |

| **Real-time Support** | Typically not built-in | Often includes dashboards, alerts, automation |

| Examples | Jupyter Notebook, RStudio | SAP, Salesforce, Oracle EBS |

EDA Fundamentals
|Bridging the Two
Modern enterprises combine both:

● Use Python/R for advanced analytics, ML models

● Integrate with enterprise apps via APIs for automation (e.g., Python script sending predictions to Salesforce)
Understanding Data Science
|Bridging the Two
Modern enterprises combine both:

● Use Python/R for advanced analytics, ML models

● Integrate with enterprise apps via APIs for automation (e.g., Python script sending predictions to Salesforce)
LAB
Software/hardware covered in the book
OS requirements: Python 3.x - Windows, - macOS, -Linux, or any other OS
Python notebooks
There are several options:
Local: Jupyter: https:/ / jupyter. org/
Local: https:/ / www. anaconda. com/ distribution/
Online: https:/ / colab. research. google. com/
Python libraries NumPy, pandas, scikit-learn, Matplotlib, Seaborn, StatsModel
Understanding Data Science
Data science involves cross-disciplinary knowledge from computer science, data, statistics, and mathematics. There are several phases of data analysis, including data
requirements, data collection, data processing, data cleaning, exploratory data analysis, modeling and algorithms, and data product and communication. These phases are
similar to the CRoss-Industry Standard Process for data mining (CRISP) framework in data mining.

1. Data requirement: It is important to comprehend what type of data is required for the organization to be collected, curated, and stored. For example, an application
tracking the sleeping pattern of patients suffering from dementia requires several types of sensors' data storage, such as sleep data, heart rate from the patient,
electro-dermal activities, and user activities pattern. All of these data points are required to correctly diagnose the mental state of the person. Hence, these are
mandatory requirements for the application. In addition to this, it is required to categorize the data, numerical or categorical, and the format of storage and
dissemination

2. Data collection: Data collected from several sources must be stored in the correct format and transferred to the right information technology personnel within a
company. As mentioned previously, data can be collected from several objects on several events using different types of sensors and storage tools.

3. Data processing: Preprocessing involves the process of pre-curating the dataset before actual analysis. Common tasks involve correctly exporting the dataset,
placing them under the right tables, structuring them, and exporting them in the correct format.
Understanding Data Science
4. Data Cleaning: Preprocessed data is still not ready for detailed analysis. It must
be correctly transformed for an incompleteness check, duplicates check, error
check, and missing value check. These tasks are performed in the data cleaning
stage, which involves responsibilities such as matching the correct record,
finding inaccuracies in the dataset, understanding the overall data quality,
removing duplicate items, and filling in the missing values
Understanding Data Science
4. Data Cleaning: Preprocessed data is still not ready for detailed analysis. It must

be correctly transformed for an incompleteness check, duplicates check, error

check, and missing value check. These tasks are performed in the data cleaning

stage, which involves responsibilities such as matching the correct record,

finding inaccuracies in the dataset, understanding the overall data quality,

removing duplicate items, and filling in the missing values

- data cleaning is dependent on the types of data under study. Hence, it is most
- essential for data scientists or EDA experts to comprehend different types of
- datasets. An example of data cleaning would be using outlier detection methods
- for quantitative data cleaning.
Understanding Data Science
5 EDA: Exploratory data analysis, as mentioned before, is the stage where we

actually start to understand the message contained in the data. It should be noted

that several types of data transformation techniques might be required during

the process of exploration

Understanding Data Science
6. Modeling and algorithm: From a data science perspective, generalized models or
mathematical formulas can represent or exhibit relationships among different variables, such as
correlation or causation. These models or equations involve one or more variables that depend
on other variables to cause an event. For example, when buying, say, pens, the total price of
pens(Total) = price for one pen(UnitPrice) * the number of pens bought (Quantity). Hence, our
model would be Total = UnitPrice * Quantity. Here, the total price is dependent on the unit
price.Hence, the total price is referred to as the dependent variable and the unit price is referred
to as an independent variable. In general, a model always describes the relationship between
independent and dependent variables. Inferential statistics deals with quantifying relationships
between particular variables. The Judd model for describing the relationship between data,
model, and error still holds true: Data = Model + Error
Understanding Data Science
7. Data Product: Any computer software that uses data as inputs, produces
outputs, and provides feedback based on the output to control the environment is
referred to as a data product. A data product is generally based on a model
developed during data analysis, for example, a recommendation model that inputs
user purchase history and recommends a related item that the user is highly likely
to buy.
8. Communication: This stage deals with disseminating the results to end
stakeholders to use the result for business intelligence. One of the most notable
steps in this stage is data visualization. Visualization deals with information relay
techniques such as tables, charts, summary diagrams, and bar charts to show the
analyzed result.

Eda Lab Manual
No ratings yet
Eda Lab Manual
69 pages
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
No ratings yet
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
515 pages
Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
Objects (String and Math)
No ratings yet
Objects (String and Math)
16 pages
Data Science - Sem6
100% (3)
Data Science - Sem6
118 pages
Python For Data Analysis
No ratings yet
Python For Data Analysis
49 pages
Maipu Mannual
No ratings yet
Maipu Mannual
12 pages
Booklet Tech Fest 2024
No ratings yet
Booklet Tech Fest 2024
17 pages
DataShed5 Administration Course
No ratings yet
DataShed5 Administration Course
2 pages
Bug Test
No ratings yet
Bug Test
58 pages
Chapter 1 Overview of Computers and Logic
No ratings yet
Chapter 1 Overview of Computers and Logic
46 pages
CPQ Design and Maintenance: Managing Organizational Growth With Long-Term Flexibility
50% (2)
CPQ Design and Maintenance: Managing Organizational Growth With Long-Term Flexibility
28 pages
Summary of Reference
No ratings yet
Summary of Reference
4 pages
Golden Notes CSS Current Affairs 2020
No ratings yet
Golden Notes CSS Current Affairs 2020
122 pages
DAV Notes
No ratings yet
DAV Notes
266 pages
Getting Started With Python Data Analysis - Sample Chapter
0% (1)
Getting Started With Python Data Analysis - Sample Chapter
17 pages
Python For Data Analysts - Quick Summary
No ratings yet
Python For Data Analysts - Quick Summary
6 pages
PythonDASE - 2025 Version1
No ratings yet
PythonDASE - 2025 Version1
44 pages
Oracle 19c - Important Feature For DBA
100% (1)
Oracle 19c - Important Feature For DBA
52 pages
Become An AI Engineer - Baap of All Jobs
No ratings yet
Become An AI Engineer - Baap of All Jobs
29 pages
Data Science Learning Checklist
No ratings yet
Data Science Learning Checklist
1 page
Unit 1
No ratings yet
Unit 1
84 pages
DS Syllabus
No ratings yet
DS Syllabus
29 pages
Stats Unit1
No ratings yet
Stats Unit1
27 pages
6th Sem Cse Data Science Analytics SM o
No ratings yet
6th Sem Cse Data Science Analytics SM o
40 pages
Sample Question Paper Mid-Term Test 1
No ratings yet
Sample Question Paper Mid-Term Test 1
39 pages
1-Pre Requisite For Data Scientist-03!01!2025
No ratings yet
1-Pre Requisite For Data Scientist-03!01!2025
26 pages
Dav Exps - Merged - Merged
No ratings yet
Dav Exps - Merged - Merged
99 pages
Session1 DataCharacteristics
No ratings yet
Session1 DataCharacteristics
41 pages
Exploratory Data Analysis With Python
No ratings yet
Exploratory Data Analysis With Python
24 pages
Datascience 3
No ratings yet
Datascience 3
40 pages
DSP Unit - Ii
No ratings yet
DSP Unit - Ii
14 pages
Data Analytics and Data Science Curiculam Google ADDS
No ratings yet
Data Analytics and Data Science Curiculam Google ADDS
31 pages
TY FDS Workbook
No ratings yet
TY FDS Workbook
56 pages
DAL EXT 1 and 2
No ratings yet
DAL EXT 1 and 2
125 pages
Blaise Pascal Magazine
100% (1)
Blaise Pascal Magazine
2 pages
Capstone Project Rinshana
No ratings yet
Capstone Project Rinshana
17 pages
Da Unit Ii
No ratings yet
Da Unit Ii
25 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
ISCDC For Oracle
No ratings yet
ISCDC For Oracle
104 pages
Data Analysis Using Python2
No ratings yet
Data Analysis Using Python2
27 pages
Data Science and Analytics
No ratings yet
Data Science and Analytics
3 pages
Linear Regression Merged
No ratings yet
Linear Regression Merged
38 pages
Data Visualization
No ratings yet
Data Visualization
25 pages
Introduction To Data Analytics Techniques and Tools
No ratings yet
Introduction To Data Analytics Techniques and Tools
9 pages
Master Thesis Lab Inventory System
No ratings yet
Master Thesis Lab Inventory System
92 pages
Introduction To Neural Networks
No ratings yet
Introduction To Neural Networks
13 pages
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
No ratings yet
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
14 pages
Hostinger Issues and Chat History
No ratings yet
Hostinger Issues and Chat History
69 pages
Ass1 DSBDA Writeup
No ratings yet
Ass1 DSBDA Writeup
8 pages
Introduction-It Skills
No ratings yet
Introduction-It Skills
20 pages
DataAnalytic-03 - Data Analytics Implementation
No ratings yet
DataAnalytic-03 - Data Analytics Implementation
37 pages
10EXP01
No ratings yet
10EXP01
12 pages
Physics Midterm QP and Answer March 2024
No ratings yet
Physics Midterm QP and Answer March 2024
23 pages
Data Science I: Charles C.N. Wang
No ratings yet
Data Science I: Charles C.N. Wang
68 pages
Unit 1
No ratings yet
Unit 1
21 pages
DSBA Curriculum Guide
No ratings yet
DSBA Curriculum Guide
18 pages
Capstone Overview
No ratings yet
Capstone Overview
3 pages
Data Science Course Outline CES LUMS
No ratings yet
Data Science Course Outline CES LUMS
4 pages
EDA
No ratings yet
EDA
11 pages
PYTHON
No ratings yet
PYTHON
11 pages
Data Sciecnce
No ratings yet
Data Sciecnce
16 pages
Programming With Transact-SQL
No ratings yet
Programming With Transact-SQL
44 pages
Physics Semester June 2024 - Answers
No ratings yet
Physics Semester June 2024 - Answers
13 pages
Saurabh mgnm801 Ca2
No ratings yet
Saurabh mgnm801 Ca2
13 pages
Abdul Azam - Final Research Report
No ratings yet
Abdul Azam - Final Research Report
9 pages
Intro To DS Assignmnt 1 (Amna Iqbal) ....
No ratings yet
Intro To DS Assignmnt 1 (Amna Iqbal) ....
4 pages
Exchange Server 2007 Deployment Checklists: Technical White Paper
No ratings yet
Exchange Server 2007 Deployment Checklists: Technical White Paper
44 pages
Teamviewer9 Manual Managementconsole en PDF
No ratings yet
Teamviewer9 Manual Managementconsole en PDF
45 pages
Diploma in Data Science Online Training Content by MR Navin NareshIT Modified
No ratings yet
Diploma in Data Science Online Training Content by MR Navin NareshIT Modified
10 pages
QlikView Business Discovery
No ratings yet
QlikView Business Discovery
28 pages
Data Science Master Class 2023
No ratings yet
Data Science Master Class 2023
8 pages
Fds Csheet and Read The Rule
No ratings yet
Fds Csheet and Read The Rule
4 pages
23PHY115 - II Sem Mid-Term - Even 2024
No ratings yet
23PHY115 - II Sem Mid-Term - Even 2024
2 pages
Data Science Lecture 5 6th Semster
No ratings yet
Data Science Lecture 5 6th Semster
3 pages
FDS Syllabus and CIS
No ratings yet
FDS Syllabus and CIS
10 pages
Unit 2, 3
No ratings yet
Unit 2, 3
9 pages
Obiee 11g Bi Publisher
No ratings yet
Obiee 11g Bi Publisher
85 pages
Books4u: Fast Track Shopping Software System
No ratings yet
Books4u: Fast Track Shopping Software System
18 pages
Data Science With Python
No ratings yet
Data Science With Python
4 pages
Drawing Diagram: Supported Diagrams UML
No ratings yet
Drawing Diagram: Supported Diagrams UML
16 pages
DS Curriculum
No ratings yet
DS Curriculum
4 pages
OWD and Data Loader
No ratings yet
OWD and Data Loader
5 pages
Chapter - 2: Data Science & Python
No ratings yet
Chapter - 2: Data Science & Python
17 pages
CSE3041 Syllabus
No ratings yet
CSE3041 Syllabus
5 pages
Chb4 Customer Relationship Management: Multiple Choice Questions
No ratings yet
Chb4 Customer Relationship Management: Multiple Choice Questions
7 pages
1
No ratings yet
1
7 pages
Digital Assignment-1: Modules
No ratings yet
Digital Assignment-1: Modules
6 pages
GDPR Whitepaper FINAL
No ratings yet
GDPR Whitepaper FINAL
6 pages
MVC Delete Example With WebAPI Sevice and Entity Framework - New
No ratings yet
MVC Delete Example With WebAPI Sevice and Entity Framework - New
3 pages
A Review On Data Science Technologies
No ratings yet
A Review On Data Science Technologies
3 pages
Assignment 2 CSCI235
No ratings yet
Assignment 2 CSCI235
4 pages
Resume Ramakrishna Marella-Old
No ratings yet
Resume Ramakrishna Marella-Old
3 pages
Ekta K Resume 2021
No ratings yet
Ekta K Resume 2021
2 pages
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
From Everand
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
FLOYD BAX
No ratings yet
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
From Everand
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
alasdair gilchrist
5/5 (1)

Introduction To EDA

Uploaded by

Introduction To EDA

Uploaded by

St.

Joseph’s College of Engineering

Exploratory Data Analysis Fundamentals - Understanding data science - The

● It is the process of investigating datasets, elucidating subjects, and visualizing outcomes.

Various exploratory tools: Python, R

Enterprise Applications: Power BI, SAP Cloud Analytics , Tableau

| ------------ ----- | ----------------------------------- --------------------------------------- | ----------------------------------------------------------------------------------- |

| **Visualization** | ggplot2, plotly | matplotlib, seaborn, plotly |

| **Use Case** | Research, reports, prototyping | Full-stack applications, production ML systems |

| ------------------ --- | ------------------ -------------- | ------------------------------------------------------- |

| **Goal** | Explore data, build models | Manage business workflows |

| **User** | Analysts, data scientists | Enterprise employees, managers |

| **Customization** | High (code-based) | Limited to platform capabilities |

| **Deployment** | Local or cloud notebooks/scripts | Cloud/on-premises systems |

| **Examples** | Jupyter Notebook, RStudio | SAP, Salesforce, Oracle EBS |

● Use Python/R for advanced analytics, ML models

● Use Python/R for advanced analytics, ML models

be correctly transformed for an incompleteness check, duplicates check, error

stage, which involves responsibilities such as matching the correct record,

finding inaccuracies in the dataset, understanding the overall data quality,

removing duplicate items, and filling in the missing values

that several types of data transformation techniques might be required during

the process of exploration

You might also like

| Visualization | ggplot2, plotly | matplotlib, seaborn, plotly |

| Use Case | Research, reports, prototyping | Full-stack applications, production ML systems |

| Goal | Explore data, build models | Manage business workflows |

| User | Analysts, data scientists | Enterprise employees, managers |

| Customization | High (code-based) | Limited to platform capabilities |

| Deployment | Local or cloud notebooks/scripts | Cloud/on-premises systems |

| Examples | Jupyter Notebook, RStudio | SAP, Salesforce, Oracle EBS |