Unit 6

The document provides an overview of using Pandas and Seaborn for Exploratory Data Analysis (EDA) in Python, detailing data loading, inspection, cleaning, and visualization techniques. It outlines key functions for analyzing single, bivariate, and multivariate relationships, as well as methods for outlier detection and result visualization. The content emphasizes the importance of these libraries in facilitating effective data analysis and communication of insights.

Uploaded by

Abhay Petkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views3 pages

Unit 6

Uploaded by

Abhay Petkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

# 1.

Pandas Library for EDA (6M)

Pandas is a Python library widely used for data analysis and manipulation. It provides
data structures like Series (1D) and DataFrame (2D) for organizing and analyzing data.

Features of Pandas for EDA:

Data Loading:

pd.read_csv('filename.csv'): Load CSV data into a DataFrame.
pd.read_excel('filename.xlsx'): Load Excel files.
Inspecting Data:

df.head(): View the first few rows.
df.tail(): View the last few rows.
df.info(): Display data types, non-null values, and memory usage.
df.describe(): Generate summary statistics for numeric columns.

# 2. Seaborn for Data Visualization (6M)

Seaborn is a Python data visualization library based on Matplotlib. It provides an
interface for drawing attractive and informative statistical graphics.
Barplot
sns.barplot()
Creates a bar chart to show mean (or other aggregation) of a numerical variable across
categories.
Scatterplot
sns.scatterplot()
Creates a scatterplot to show the relationship between two numerical variables.
Lineplot
sns.lineplot()
Visualizes trends over time or another continuous variable.
Barplot
sns.barplot()
Creates a bar chart to show mean (or other aggregation) of a numerical variable across
categories.

# Bar Chart & Line Plot with Examples (4M)

Bar Chart
A bar chart is a graphical representation that uses rectangular bars to compare
categories of data. The length or height of each bar is proportional to the value it
represents.
Useful for comparing quantities across different groups or categories.
Diagram.
Lineplot:-A line plot connects data points using a continuous line, often to visualize
trends over time or any other continuous variable.
Ideal for showing patterns, trends, or changes in data over intervals.
Diagram.

# EDA Demonstration (6M)

Exploratory Data Analysis (EDA) is the process of analyzing data sets to summarize their
main characteristics, often using statistical graphics and data visualization techniques.
It helps to:
1. Loading the Data
Purpose: Import data from various formats (e.g., CSV, Excel, SQL).
Functions:
pandas.read_csv(filepath): Reads CSV files.
pandas.read_excel(filepath): Reads Excel files.
pandas.DataFrame(): Creates a DataFrame.
Explanation: This step initializes the data analysis process by loading the dataset into
the environment.
2. Inspecting the Data
Purpose: Understand the structure and properties of the dataset.
Functions:
df.head(n): Displays the first n rows of the dataset (default is 5).
df.tail(n): Displays the last n rows of the dataset.
df.info(): Provides an overview of data types, non-null values, and memory usage.
df.describe(): Returns summary statistics for numerical columns.
Explanation: Ensures a preliminary understanding of data size, column types, and missing
values.
3. Data Cleaning
Purpose: Handle missing, duplicate, or incorrect data.
Functions:
df.dropna(): Removes rows with missing values.
df.fillna(value): Fills missing values with a specified value.
df.drop_duplicates(): Removes duplicate rows.
df['column'].astype(type): Converts data types of a column.
Explanation: Ensures the dataset is clean and ready for analysis by fixing
inconsistencies.
4. Univariate Analysis
Purpose: Analyze a single variable.
Functions:
sns.histplot(data, kde=True): Creates a histogram with a kernel density estimation curve.
sns.boxplot(data): Creates a box plot for outlier detection.
df['column'].value_counts(): Counts occurrences of unique values in a column.
Explanation: Provides insights into the distribution and patterns of a single variable.
5. Bivariate Analysis
Purpose: Explore relationships between two variables.
Functions:
sns.scatterplot(x='col1', y='col2', data=df): Plots a scatterplot for numerical
variables.
sns.boxplot(x='col1', y='col2', data=df): Displays a box plot for categorical vs
numerical relationships.
df.corr(): Calculates the correlation between numerical columns.
Explanation: Examines whether variables are correlated or how one variable impacts
another.
6. Multivariate Analysis
Purpose: Study relationships involving more than two variables.
Functions:
sns.heatmap(df.corr(), annot=True): Displays a correlation matrix as a heatmap.
sns.pairplot(data=df, hue='column'): Plots pairwise relationships for all variables.
Explanation: Helps to visualize interactions and dependencies among multiple variables.
7. Outlier Detection
Purpose: Identify extreme data points that might affect analysis.
Functions:
sns.boxplot(data): Highlights outliers in a single numerical variable.
sns.violinplot(data): Combines a box plot with a KDE plot.
zscore(data): Calculates the Z-scores for identifying outliers numerically.
Explanation: Identifies and addresses outliers to avoid skewed results.
8. Visualization of Results
Purpose: Summarize findings through visuals.
Functions:
matplotlib.pyplot.plot(): Creates a variety of plots (line plots, bar charts, etc.).
sns.barplot(x='col1', y='col2', data=df): Plots a bar chart for categorical vs numerical
data.
sns.lineplot(x='col1', y='col2', data=df): Creates a line plot for time-series or
continuous data.
Explanation: Enhances communication of insights through intuitive graphical
representations.

Machine Learning Experiment
No ratings yet
Machine Learning Experiment
69 pages
Database Design Management Lab Manual
100% (1)
Database Design Management Lab Manual
96 pages
Data Exploration and Visualization Laboratory - AD3301 - Lab Manual
No ratings yet
Data Exploration and Visualization Laboratory - AD3301 - Lab Manual
55 pages
Corrosion Notes.
100% (1)
Corrosion Notes.
35 pages
Cheatsheet From Designing Data-Intensive Applications
No ratings yet
Cheatsheet From Designing Data-Intensive Applications
14 pages
Python Comands
No ratings yet
Python Comands
3 pages
Day-5 DS Practical
No ratings yet
Day-5 DS Practical
4 pages
NumPy, Pandas, MatplotLib, Seaborn, ScikitLearn (SkLearn)
No ratings yet
NumPy, Pandas, MatplotLib, Seaborn, ScikitLearn (SkLearn)
14 pages
Salesforce Certified Agentforce - 2
No ratings yet
Salesforce Certified Agentforce - 2
5 pages
1.1 Univariate Analysis: 1.1.1 Categorical Data
No ratings yet
1.1 Univariate Analysis: 1.1.1 Categorical Data
10 pages
Rds Cli PDF
No ratings yet
Rds Cli PDF
212 pages
Pandas 3-2
No ratings yet
Pandas 3-2
27 pages
Dev Lab Manual Org
No ratings yet
Dev Lab Manual Org
28 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
4 pages
Chapter 4 Ado - Net MCQ
75% (4)
Chapter 4 Ado - Net MCQ
5 pages
DBMS Unit 5
No ratings yet
DBMS Unit 5
15 pages
Cs 6302 Dbms 1718 Odd Iat2 With Key
No ratings yet
Cs 6302 Dbms 1718 Odd Iat2 With Key
3 pages
Python Programming R18A0513: B.Tech Iii Year - I Sem (R18) (2021-22)
No ratings yet
Python Programming R18A0513: B.Tech Iii Year - I Sem (R18) (2021-22)
208 pages
Unit 2
No ratings yet
Unit 2
36 pages
Data Visualization Cheatsheet 1702209209
100% (1)
Data Visualization Cheatsheet 1702209209
7 pages
2210 w15 QP 22 PDF
No ratings yet
2210 w15 QP 22 PDF
12 pages
Ebook PE Query Optimization
No ratings yet
Ebook PE Query Optimization
59 pages
Unit-I Notes DBMS
No ratings yet
Unit-I Notes DBMS
34 pages
SPSS Record
No ratings yet
SPSS Record
35 pages
Asa Viva
No ratings yet
Asa Viva
34 pages
Ccs346 Eda Unit 1
No ratings yet
Ccs346 Eda Unit 1
139 pages
Combinepdf
No ratings yet
Combinepdf
101 pages
Exploratory Data Analysis (EDA) in Python
No ratings yet
Exploratory Data Analysis (EDA) in Python
6 pages
Labdev
No ratings yet
Labdev
57 pages
EDA Module 2
No ratings yet
EDA Module 2
34 pages
UNIT 1 Exploratory Data Analysis
100% (1)
UNIT 1 Exploratory Data Analysis
8 pages
Datascience 3
No ratings yet
Datascience 3
40 pages
ML Expt 1 Description
No ratings yet
ML Expt 1 Description
15 pages
1.3.1. Exploratory Data Analysis
No ratings yet
1.3.1. Exploratory Data Analysis
24 pages
PDF Experiments-1 DADV
No ratings yet
PDF Experiments-1 DADV
41 pages
Dav Exps - Merged - Merged
No ratings yet
Dav Exps - Merged - Merged
99 pages
2 - Content - DRL, DCL, TCL, Joins and Subqueries
No ratings yet
2 - Content - DRL, DCL, TCL, Joins and Subqueries
36 pages
Jashele Tillman TSE
No ratings yet
Jashele Tillman TSE
1 page
Guru Resume 1
No ratings yet
Guru Resume 1
2 pages
Linear Regression (BA)
No ratings yet
Linear Regression (BA)
13 pages
Core Spring 3.0 Certification Mock Exam: Container
No ratings yet
Core Spring 3.0 Certification Mock Exam: Container
10 pages
Tables in SAP (Almost All)
No ratings yet
Tables in SAP (Almost All)
16 pages
csv2tcxml:TCXML Data Migration in TC11.2.x
No ratings yet
csv2tcxml:TCXML Data Migration in TC11.2.x
1 page
Data Profiling
No ratings yet
Data Profiling
7 pages
Unit 2 Spatial Statistics
No ratings yet
Unit 2 Spatial Statistics
9 pages
Pandas 1702216043
No ratings yet
Pandas 1702216043
86 pages
DAV Exp.1-8 Output
No ratings yet
DAV Exp.1-8 Output
19 pages
Combinepdf
No ratings yet
Combinepdf
77 pages
Data Visualization Part 2
No ratings yet
Data Visualization Part 2
18 pages
Seaborn
No ratings yet
Seaborn
7 pages
AUTOMATED EDA Libraries
No ratings yet
AUTOMATED EDA Libraries
12 pages
01 JTW115 3 Dec 2022
No ratings yet
01 JTW115 3 Dec 2022
8 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
Edap Lab
No ratings yet
Edap Lab
47 pages
HTML Question Answers
No ratings yet
HTML Question Answers
5 pages
GCH International Mercantileinc System Proposal
No ratings yet
GCH International Mercantileinc System Proposal
4 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Abhijeet Mohan Bedagkar
No ratings yet
Abhijeet Mohan Bedagkar
3 pages
Unit 1 - Intro To EDA
No ratings yet
Unit 1 - Intro To EDA
40 pages
DataVisualization 1
No ratings yet
DataVisualization 1
46 pages
Machine
No ratings yet
Machine
10 pages
Deep Dive Into IBM SPSS Statistics 2 Day Course Syllabus
No ratings yet
Deep Dive Into IBM SPSS Statistics 2 Day Course Syllabus
3 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
TAFJ Promoted Columns
No ratings yet
TAFJ Promoted Columns
3 pages
Dev Record Final
No ratings yet
Dev Record Final
34 pages
IOT-Domain Analyst
No ratings yet
IOT-Domain Analyst
11 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
Pandas Cheat Sheet 2
No ratings yet
Pandas Cheat Sheet 2
12 pages
Document
No ratings yet
Document
21 pages
Practical No. 18: Write A Program To Insert and Retrieve Data From Database Using JDBC
No ratings yet
Practical No. 18: Write A Program To Insert and Retrieve Data From Database Using JDBC
2 pages
Exp 12
No ratings yet
Exp 12
7 pages
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
No ratings yet
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
4 pages
Final Dev Record
No ratings yet
Final Dev Record
49 pages
Data Analyst Course
No ratings yet
Data Analyst Course
8 pages
Data Visualization
No ratings yet
Data Visualization
31 pages
DMV Unit-4-1 PDF
No ratings yet
DMV Unit-4-1 PDF
10 pages
Data Mining - Week - 6
No ratings yet
Data Mining - Week - 6
7 pages
Data Visualization With Matplotlib
No ratings yet
Data Visualization With Matplotlib
20 pages
Frequent Pattern Mining
No ratings yet
Frequent Pattern Mining
2 pages
Machine Learning Doubts
No ratings yet
Machine Learning Doubts
4 pages
(Reading) AfterWork - Data Analysis With Pandas Course
No ratings yet
(Reading) AfterWork - Data Analysis With Pandas Course
4 pages
Ex1 - Plotting and Visualization Using Numpy and Pandas
No ratings yet
Ex1 - Plotting and Visualization Using Numpy and Pandas
14 pages
BDA File
No ratings yet
BDA File
26 pages
2 Mark Key DS
No ratings yet
2 Mark Key DS
3 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
KrushiKalp Receipt Pay PzvlPzsttVe5fK
No ratings yet
KrushiKalp Receipt Pay PzvlPzsttVe5fK
2 pages
KrushiKalp Receipt Pay Pzb161fnJx8xFr
No ratings yet
KrushiKalp Receipt Pay Pzb161fnJx8xFr
2 pages
Practice Questions For Practical
100% (1)
Practice Questions For Practical
11 pages
Hatke Vada New Menu Card Tea Add Eng
No ratings yet
Hatke Vada New Menu Card Tea Add Eng
2 pages
Exp 12
No ratings yet
Exp 12
4 pages
Data Visualisation
No ratings yet
Data Visualisation
5 pages
Dealer Contract Record
No ratings yet
Dealer Contract Record
2 pages
Data Analisis 2
No ratings yet
Data Analisis 2
13 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Receipt File Name
No ratings yet
Receipt File Name
2 pages
Answer
No ratings yet
Answer
1 page
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet

Unit 6

Uploaded by

Unit 6

Uploaded by

# 1.

Pandas Library for EDA (6M)

# 2. Seaborn for Data Visualization (6M)

# Bar Chart & Line Plot with Examples (4M)

# EDA Demonstration (6M)

You might also like