0% found this document useful (0 votes)

14 views64 pages

Step 16 Chapter4

Uploaded by

Ajay Nain

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views64 pages

Step 16 Chapter4

Uploaded by

Ajay Nain

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 64

Considerations for

categorical data
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N

George Boorman
Curriculum Manager, DataCamp
Why perform EDA?
Detecting patterns and relationships

Generating questions, or hypotheses

Preparing data for machine learning

1 Image credit: https://unsplash.com/@simonesecci

EXPLORATORY DATA ANALYSIS IN PYTHON

Representative data
Sample represents the population

For example:

Education versus income in USA

Can't use data from France

1 Image credits: https://unsplash.com/@cristina_glebova; https://unsplash.com/@nimbus_vulpis

EXPLORATORY DATA ANALYSIS IN PYTHON

Categorical classes
Classes = labels

Survey people's attitudes towards marriage

Marital status
Single

Married

Divorced

EXPLORATORY DATA ANALYSIS IN PYTHON

Class imbalance

EXPLORATORY DATA ANALYSIS IN PYTHON

Class frequency
print(planes["Destination"].value_counts())

Cochin 4391
Banglore 2773
Delhi 1219
New Delhi 888
Hyderabad 673
Kolkata 369
Name: Destination, dtype: int64

EXPLORATORY DATA ANALYSIS IN PYTHON

Relative class frequency
40% of internal Indian flights have a destination of Delhi

planes["Destination"].value_counts(normalize=True)

Cochin 0.425773
Banglore 0.268884
Delhi 0.118200
New Delhi 0.086105
Hyderabad 0.065257
Kolkata 0.035780
Name: Destination, dtype: float64

Is our sample representative of the population (Indian internal flights)?

EXPLORATORY DATA ANALYSIS IN PYTHON

Cross-tabulation

pd.crosstab(

EXPLORATORY DATA ANALYSIS IN PYTHON

Select index

pd.crosstab(planes["Source"],

EXPLORATORY DATA ANALYSIS IN PYTHON

Select columns

pd.crosstab(planes["Source"], planes["Destination"])

EXPLORATORY DATA ANALYSIS IN PYTHON

Cross-tabulation
Destination Banglore Cochin Delhi Hyderabad Kolkata New Delhi
Source
Banglore 0 0 1199 0 0 868
Chennai 0 0 0 0 364 0
Delhi 0 4318 0 0 0 0
Kolkata 2720 0 0 0 0 0
Mumbai 0 0 0 662 0 0

EXPLORATORY DATA ANALYSIS IN PYTHON

Extending cross-tabulation
Source Destination Median Price (IDR)

Banglore Delhi 4232.21

Banglore New Delhi 12114.56
Chennai Kolkata 3859.76
Delhi Cochin 9987.63
Kolkata Banglore 9654.21
Mumbai Hyderabad 3431.97

EXPLORATORY DATA ANALYSIS IN PYTHON

Aggregated values with pd.crosstab()
pd.crosstab(planes["Source"], planes["Destination"],
values=planes["Price"], aggfunc="median")

Destination Banglore Cochin Delhi Hyderabad Kolkata New Delhi

Source
Banglore NaN NaN 4823.0 NaN NaN 10976.5
Chennai NaN NaN NaN NaN 3850.0 NaN
Delhi NaN 10262.0 NaN NaN NaN NaN
Kolkata 9345.0 NaN NaN NaN NaN NaN
Mumbai NaN NaN NaN 3342.0 NaN NaN

EXPLORATORY DATA ANALYSIS IN PYTHON

Comparing sample to population
Source Destination Median Price (IDR) Median Price (dataset)

Banglore Delhi 4232.21 4823.0

Banglore New Delhi 12114.56 10976.50
Chennai Kolkata 3859.76 3850.0
Delhi Cochin 9987.63 10260.0
Kolkata Banglore 9654.21 9345.0
Mumbai Hyderabad 3431.97 3342.0

EXPLORATORY DATA ANALYSIS IN PYTHON

Let's practice!
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N
Generating new
features
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N

George Boorman
Curriculum Manager, DataCamp
Correlation
sns.heatmap(planes.corr(), annot=True)
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Viewing data types
print(planes.dtypes)

Airline object
Date_of_Journey datetime64[ns]
Source object
Destination object
Route object
Dep_Time datetime64[ns]
Arrival_Time datetime64[ns]
Duration float64
Total_Stops object
Additional_Info object
Price float64
dtype: object

EXPLORATORY DATA ANALYSIS IN PYTHON

Total stops
print(planes["Total_Stops"].value_counts())

1 stop 4107
non-stop 2584
2 stops 1127
3 stops 29
4 stops 1
Name: Total_Stops, dtype: int64

EXPLORATORY DATA ANALYSIS IN PYTHON

Cleaning total stops
planes["Total_Stops"] = planes["Total_Stops"].str.replace(" stops", "")
planes["Total_Stops"] = planes["Total_Stops"].str.replace(" stop", "")
planes["Total_Stops"] = planes["Total_Stops"].str.replace("non-stop", "0")
planes["Total_Stops"] = planes["Total_Stops"].astype(int)

EXPLORATORY DATA ANALYSIS IN PYTHON

Correlation
sns.heatmap(planes.corr(), annot=True)
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Dates
print(planes.dtypes)

Airline object
Date_of_Journey datetime64[ns]
Source object
Destination object
Route object
Dep_Time datetime64[ns]
Arrival_Time datetime64[ns]
Duration float64
Total_Stops int64
Additional_Info object
Price float64
dtype: object

EXPLORATORY DATA ANALYSIS IN PYTHON

Extracting month and weekday
planes["month"] = planes["Date_of_Journey"].dt.month
planes["weekday"] = planes["Date_of_Journey"].dt.weekday
print(planes[["month", "weekday", "Date_of_Journey"]].head())

month weekday Date_of_Journey

0 9 4 2019-09-06
1 12 3 2019-12-05
2 1 3 2019-01-03
3 6 0 2019-06-24
4 12 1 2019-12-03

EXPLORATORY DATA ANALYSIS IN PYTHON

Departure and arrival times
planes["Dep_Hour"] = planes["Dep_Time"].dt.hour
planes["Arrival_Hour"] = planes["Arrival_Time"].dt.hour

EXPLORATORY DATA ANALYSIS IN PYTHON

Correlation

EXPLORATORY DATA ANALYSIS IN PYTHON

Creating categories
print(planes["Price"].describe()) Range Ticket Type
<= 5228 Economy
count 7848.000000 > 5228 <= 8355 Premium Economy
mean 9035.413609 > 8335 <= 12373 Business Class
std 4429.822081
> 12373 First Class
min 1759.000000
25% 5228.000000
50% 8355.000000
75% 12373.000000
max 54826.000000
Name: Price, dtype: float64

EXPLORATORY DATA ANALYSIS IN PYTHON

Descriptive statistics
twenty_fifth = planes["Price"].quantile(0.25)
median = planes["Price"].median()
seventy_fifth = planes["Price"].quantile(0.75)
maximum = planes["Price"].max()

EXPLORATORY DATA ANALYSIS IN PYTHON

Labels and bins
labels = ["Economy", "Premium Economy", "Business Class", "First Class"]
bins = [0, twenty_fifth, median, seventy_fifth, maximum]

EXPLORATORY DATA ANALYSIS IN PYTHON

pd.cut()

planes["Price_Category"] = pd.cut(

EXPLORATORY DATA ANALYSIS IN PYTHON

pd.cut()

planes["Price_Category"] = pd.cut(planes["Price"],

EXPLORATORY DATA ANALYSIS IN PYTHON

pd.cut()

planes["Price_Category"] = pd.cut(planes["Price"],
labels=labels,

EXPLORATORY DATA ANALYSIS IN PYTHON

pd.cut()

planes["Price_Category"] = pd.cut(planes["Price"],
labels=labels,
bins=bins)

EXPLORATORY DATA ANALYSIS IN PYTHON

Price categories
print(planes[["Price","Price_Category"]].head())

Price Price_Category
0 13882.0 First Class
1 6218.0 Premium Economy
2 13302.0 First Class
3 3873.0 Economy
4 11087.0 Business Class

EXPLORATORY DATA ANALYSIS IN PYTHON

Price category by airline
sns.countplot(data=planes, x="Airline", hue="Price_Category")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Price category by airline

EXPLORATORY DATA ANALYSIS IN PYTHON

Let's practice!
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N
Generating
hypotheses
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N

George Boorman
Curriculum Manager, DataCamp
What do we know?

EXPLORATORY DATA ANALYSIS IN PYTHON

What do we know?
sns.heatmap(planes.corr(), annot=True)
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Spurious correlation
sns.scatterplot(data=planes, x="Duration", y="Price", hue="Total_Stops")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

How do we know?

EXPLORATORY DATA ANALYSIS IN PYTHON

What is true?
Would data from a different time give the
same results?

Detecting relationships, differences, and

patterns:
We use Hypothesis Testing

Hypothesis testing requires, prior to data

collection:
Generating a hypothesis or question

A decision on what statistical test to use

1 Image credit: https://unsplash.com/@markuswinkler

EXPLORATORY DATA ANALYSIS IN PYTHON

Data snooping

EXPLORATORY DATA ANALYSIS IN PYTHON

Generating hypotheses
sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Generating hypotheses
sns.barplot(data=planes, x="Destination", y="Price")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Next steps
Design our experiment
Involves steps such as:
Choosing a sample

Calculating how many data points we need

Deciding what statistical test to run

EXPLORATORY DATA ANALYSIS IN PYTHON

Let's practice!
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N
Congratulations
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N

George Boorman
Curriculum Manager, DataCamp
Inspection and validation
books["year"] = books["year"].astype(int)
books.dtypes

name object
author object
rating float64
year int64
genre object
dtype: object

EXPLORATORY DATA ANALYSIS IN PYTHON

Aggregation
books.groupby("genre").agg(
mean_rating=("rating", "mean"),
std_rating=("rating", "std"),
median_year=("year", "median")
)

| genre | mean_rating | std_rating | median_year |

|-------------|-------------|------------|-------------|
| Childrens | 4.780000 | 0.122370 | 2015.0 |
| Fiction | 4.570229 | 0.281123 | 2013.0 |
| Non Fiction | 4.598324 | 0.179411 | 2013.0 |

EXPLORATORY DATA ANALYSIS IN PYTHON

Address missing data
print(salaries.isna().sum())

Working_Year 12
Designation 27
Experience 33
Employment_Status 31
Employee_Location 28
Company_Size 40
Remote_Working_Ratio 24
Salary_USD 60
dtype: int64

EXPLORATORY DATA ANALYSIS IN PYTHON

Address missing data
Drop missing values

Impute mean, median, mode

Impute by sub-group

salaries_dict = salaries.groupby("Experience")["Salary_USD"].median().to_dict()
salaries["Salary_USD"] = salaries["Salary_USD"].fillna(salaries["Experience"].map(salaries_dict))

EXPLORATORY DATA ANALYSIS IN PYTHON

Analyze categorical data
salaries["Job_Category"] = np.select(conditions,
job_categories,
default="Other")

EXPLORATORY DATA ANALYSIS IN PYTHON

Apply lambda functions

salaries["std_dev"] = salaries.groupby("Experience")["Salary_USD"].transform(lambda x: x.std())

EXPLORATORY DATA ANALYSIS IN PYTHON

Handle outliers
sns.boxplot(data=salaries,
y="Salary_USD")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Patterns over time
sns.lineplot(data=divorce, x="marriage_month", y="marriage_duration")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Correlation
sns.heatmap(divorce.corr(), annot=True)
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Distributions
sns.kdeplot(data=divorce, x="marriage_duration", hue="education_man", cut=0)
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Cross-tabulation
pd.crosstab(planes["Source"], planes["Destination"],
values=planes["Price"], aggfunc="median")

Destination Banglore Cochin Delhi Hyderabad Kolkata New Delhi

Source
Banglore NaN NaN 4823.0 NaN NaN 10976.5
Chennai NaN NaN NaN NaN 3850.0 NaN
Delhi NaN 10262.0 NaN NaN NaN NaN
Kolkata 9345.0 NaN NaN NaN NaN NaN
Mumbai NaN NaN NaN 3342.0 NaN NaN

EXPLORATORY DATA ANALYSIS IN PYTHON

pd.cut()

planes["Price_Category"] = pd.cut(planes["Price"],
labels=labels,
bins=bins)

EXPLORATORY DATA ANALYSIS IN PYTHON

Data snooping

EXPLORATORY DATA ANALYSIS IN PYTHON

Generating hypotheses
sns.barplot(data=planes, x="Airline", y="Duration")
plt.show()

EXPLORATORY DATA ANALYSIS IN PYTHON

Next steps

Sampling in Python

Hypothesis Testing in Python

Supervised Learning with scikit-learn

EXPLORATORY DATA ANALYSIS IN PYTHON

Congratulations!
E X P L O R AT O R Y D ATA A N A LY S I S I N P Y T H O N

Manual Deh 2250ub
0% (1)
Manual Deh 2250ub
112 pages
CIO/IT Head of North
No ratings yet
CIO/IT Head of North
21 pages
Cell Barring (RAN15.0 02)
No ratings yet
Cell Barring (RAN15.0 02)
51 pages
Customs Procedures Code (CPC)
No ratings yet
Customs Procedures Code (CPC)
17 pages
Triggering Circuit
No ratings yet
Triggering Circuit
26 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
Huawei MV Oss-Global Case Stories1 PDF
No ratings yet
Huawei MV Oss-Global Case Stories1 PDF
40 pages
Smart Agriculture System
100% (1)
Smart Agriculture System
9 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Content Standard:: /configuring-Of-Computer-Systems-And-Networks - PDF Module in ICT CHS 10 Teacher Guide
100% (2)
Content Standard:: /configuring-Of-Computer-Systems-And-Networks - PDF Module in ICT CHS 10 Teacher Guide
2 pages
MongoDB and NoSQL Injection and Prevention
No ratings yet
MongoDB and NoSQL Injection and Prevention
5 pages
British Airways Internship Report
No ratings yet
British Airways Internship Report
26 pages
Optimizing Flight Booking Decisions Through Machine Learning Price Predictions
No ratings yet
Optimizing Flight Booking Decisions Through Machine Learning Price Predictions
50 pages
Fault Code 131: Accelerator Pedal or Lever Position Sensor 1 Circuit - Voltage Above Normal or Shorted To High Source
No ratings yet
Fault Code 131: Accelerator Pedal or Lever Position Sensor 1 Circuit - Voltage Above Normal or Shorted To High Source
3 pages
Even Students
No ratings yet
Even Students
36 pages
Flight Price Prediction Project Report in PDF
No ratings yet
Flight Price Prediction Project Report in PDF
34 pages
Flight Price Prediction
No ratings yet
Flight Price Prediction
34 pages
Pyt Manual 1
No ratings yet
Pyt Manual 1
85 pages
Lecture 8: AES: The Advanced Encryption Standard Lecture Notes On "Computer and Network Security"
No ratings yet
Lecture 8: AES: The Advanced Encryption Standard Lecture Notes On "Computer and Network Security"
92 pages
Data Analysis
No ratings yet
Data Analysis
42 pages
Uber Drive Practice DP PDF
No ratings yet
Uber Drive Practice DP PDF
10 pages
Mongodb Lab: Reason For Delay)
No ratings yet
Mongodb Lab: Reason For Delay)
41 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
66 pages
Edap Lab
No ratings yet
Edap Lab
47 pages
Analyzing Taxi Trends
No ratings yet
Analyzing Taxi Trends
43 pages
Car Price Prediction
No ratings yet
Car Price Prediction
42 pages
Flight - Price - Machine Learning
No ratings yet
Flight - Price - Machine Learning
23 pages
Filtering AND Comparison Operators in SQL
No ratings yet
Filtering AND Comparison Operators in SQL
42 pages
Designing and Implementing Weather Effects in Opengl: Stephen Tucker
No ratings yet
Designing and Implementing Weather Effects in Opengl: Stephen Tucker
64 pages
Ip - Report - Kuti Page
No ratings yet
Ip - Report - Kuti Page
37 pages
Step 7 Chapter1
No ratings yet
Step 7 Chapter1
30 pages
ML A 6 Project
No ratings yet
ML A 6 Project
18 pages
Flight Fare Prediction Using ML Algorithms
No ratings yet
Flight Fare Prediction Using ML Algorithms
40 pages
Merged
No ratings yet
Merged
47 pages
Titanic
No ratings yet
Titanic
22 pages
Dse4 Stug082
No ratings yet
Dse4 Stug082
43 pages
DS Journal
No ratings yet
DS Journal
46 pages
Benefits of Being Hilton
100% (3)
Benefits of Being Hilton
3 pages
Chapter 3
No ratings yet
Chapter 3
47 pages
Kunal Assignment 3
No ratings yet
Kunal Assignment 3
19 pages
Travel Agency Customer Analysis PPT
No ratings yet
Travel Agency Customer Analysis PPT
18 pages
BPP Business School - Applied Modelling and Visualisation
No ratings yet
BPP Business School - Applied Modelling and Visualisation
19 pages
978 81 19100 39 2 - Text
No ratings yet
978 81 19100 39 2 - Text
15 pages
Flight Price Eda
No ratings yet
Flight Price Eda
33 pages
Exploring Relationships: Allen Downey
No ratings yet
Exploring Relationships: Allen Downey
38 pages
Airlanes Booking Analys
No ratings yet
Airlanes Booking Analys
26 pages
Flight-Price-Prediction - Flight - Price - Ipynb at Master Mandal-21 - Flight-Price-Prediction
No ratings yet
Flight-Price-Prediction - Flight - Price - Ipynb at Master Mandal-21 - Flight-Price-Prediction
28 pages
Code Nhóm 1 FGDFG
No ratings yet
Code Nhóm 1 FGDFG
14 pages
Road Damage Detection and Classification
No ratings yet
Road Damage Detection and Classification
11 pages
Supervised Regression
No ratings yet
Supervised Regression
24 pages
Descriptive Analytics - Ipynb - Colab
No ratings yet
Descriptive Analytics - Ipynb - Colab
9 pages
Comprehensive EDA Python Guide
No ratings yet
Comprehensive EDA Python Guide
13 pages
Airline Passenger Booking Analyze
No ratings yet
Airline Passenger Booking Analyze
26 pages
SN Travel Jupyter Notebook PDF
No ratings yet
SN Travel Jupyter Notebook PDF
28 pages
Netflix On AWS
No ratings yet
Netflix On AWS
6 pages
Presentation On Flight Price Prediction
No ratings yet
Presentation On Flight Price Prediction
30 pages
Pandas - Data Manipulation and Analysis Library - Educative
No ratings yet
Pandas - Data Manipulation and Analysis Library - Educative
7 pages
Adobe Scan 14 Sept 2024
No ratings yet
Adobe Scan 14 Sept 2024
9 pages
0.1 Exercise 26: Flights Dataset - Time Series Visualization and Analysis
No ratings yet
0.1 Exercise 26: Flights Dataset - Time Series Visualization and Analysis
8 pages
Airfare ML - Predicting Flight Fares
No ratings yet
Airfare ML - Predicting Flight Fares
21 pages
EDA Python Guide
No ratings yet
EDA Python Guide
11 pages
Quick Guide To Data Cleaning With Examples - Sunscrapers
No ratings yet
Quick Guide To Data Cleaning With Examples - Sunscrapers
11 pages
BDA File
No ratings yet
BDA File
26 pages
Random Forest Model
No ratings yet
Random Forest Model
16 pages
ML 1 16
No ratings yet
ML 1 16
13 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Smart Linx PDF
No ratings yet
Smart Linx PDF
47 pages
Citra Log - Txt.old
No ratings yet
Citra Log - Txt.old
6 pages
AI Lab5
No ratings yet
AI Lab5
5 pages
Auto Bell
No ratings yet
Auto Bell
7 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
Week 3 Laboratory Activity
No ratings yet
Week 3 Laboratory Activity
7 pages
Ormulate The Data Science Problem
No ratings yet
Ormulate The Data Science Problem
5 pages
Bni Iol-712-000-K023 - en - Bni00041
No ratings yet
Bni Iol-712-000-K023 - en - Bni00041
12 pages
Extinguishant Control Panel (SHC70002, SHC70003) Operation and Maintenance Manual
No ratings yet
Extinguishant Control Panel (SHC70002, SHC70003) Operation and Maintenance Manual
38 pages
Kementerian Keuangan Republik Indonesia: Direktorat Jenderal Bea Dan Cukai Sekretariat Direktorat Jenderal Bea Dan Cukai
No ratings yet
Kementerian Keuangan Republik Indonesia: Direktorat Jenderal Bea Dan Cukai Sekretariat Direktorat Jenderal Bea Dan Cukai
3 pages
Python Cheatsheet
No ratings yet
Python Cheatsheet
3 pages
Lab1.ipynb - Colaboratory
No ratings yet
Lab1.ipynb - Colaboratory
9 pages
P1) Code Uber
No ratings yet
P1) Code Uber
6 pages
Kaggle Machine Learning
No ratings yet
Kaggle Machine Learning
6 pages
Python Codes
No ratings yet
Python Codes
17 pages
DA Question Bank
No ratings yet
DA Question Bank
4 pages
PracticeExercise - Question SQL
No ratings yet
PracticeExercise - Question SQL
2 pages
Flight Price Prediction Report
No ratings yet
Flight Price Prediction Report
18 pages
Government Launches Aadhaar Seeding Application 14042017
No ratings yet
Government Launches Aadhaar Seeding Application 14042017
2 pages
C Handbook
No ratings yet
C Handbook
22 pages
HTML Media
No ratings yet
HTML Media
6 pages
Edp 1 PDF
No ratings yet
Edp 1 PDF
10 pages
Flight Price Prediction Project Presentation
No ratings yet
Flight Price Prediction Project Presentation
15 pages
CCNA Lab 1
No ratings yet
CCNA Lab 1
19 pages
Duval
No ratings yet
Duval
9 pages
CETECOM Antenna Testing Pocket Guide
No ratings yet
CETECOM Antenna Testing Pocket Guide
2 pages
Bus Bus Bus
No ratings yet
Bus Bus Bus
4 pages
Examples On Sampling and Aliasing Phenomena: Example 1
No ratings yet
Examples On Sampling and Aliasing Phenomena: Example 1
5 pages
Excel Techniques
From Everand
Excel Techniques
Online Trainees
2/5 (1)