0% found this document useful (0 votes)

49 views13 pages

Python EDA Guide for Data Analysts

Cheat Sheet

Uploaded by

Muhammad Faizan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

49 views13 pages

Python EDA Guide for Data Analysts

Cheat Sheet

Uploaded by

Muhammad Faizan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Comprehensive Guide for Exploratory Data Analysis in Python

1. Introduction to EDA

Exploratory Data Analysis (EDA) is a crucial step in data analysis that helps understand the data,

uncover patterns, spot anomalies, test hypotheses, and check assumptions with the help of

summary statistics and graphical representations.

Comprehensive Guide for Exploratory Data Analysis in Python

2. Loading Libraries and Dataset

import pandas as pd

import numpy as np

import [Link] as plt

import seaborn as sns

from scipy import stats

from [Link] import MinMaxScaler, StandardScaler

# Example: Loading a CSV file

df = pd.read_csv('your_dataset.csv')
Comprehensive Guide for Exploratory Data Analysis in Python

3. Data Overview

# Display the first few rows of the dataset

print([Link]())

# Display summary statistics

print([Link]())

# Display information about the dataset

print([Link]())
Comprehensive Guide for Exploratory Data Analysis in Python

4. Data Cleaning

# Handling Missing Values

print([Link]().sum())

[Link]([Link](), inplace=True)

# Alternatively, you can fill missing values with median or mode

# df['column_name'].fillna(df['column_name'].median(), inplace=True)

# df['column_name'].fillna(df['column_name'].mode()[0], inplace=True)

# Dropping rows with missing values

# [Link](inplace=True)

# Handling Duplicates

print([Link]().sum())

df.drop_duplicates(inplace=True)
Comprehensive Guide for Exploratory Data Analysis in Python

5. Data Preprocessing

# Encoding Categorical Variables

df = pd.get_dummies(df, columns=['categorical_column'])

# Label Encoding for ordinal data

from [Link] import LabelEncoder

le = LabelEncoder()

df['ordinal_column'] = le.fit_transform(df['ordinal_column'])

# Feature Engineering

df['new_feature'] = df['existing_feature1'] * df['existing_feature2']

Comprehensive Guide for Exploratory Data Analysis in Python

6. Outlier Detection and Treatment

# Using Z-score to identify outliers

z_scores = [Link](df['column_name'])

abs_z_scores = [Link](z_scores)

filtered_entries = (abs_z_scores < 3)

df = df[filtered_entries]

# Using IQR (Interquartile Range) to identify outliers

Q1 = df['column_name'].quantile(0.25)

Q3 = df['column_name'].quantile(0.75)

IQR = Q3 - Q1

filtered_entries = ((df['column_name'] >= (Q1 - 1.5 * IQR)) & (df['column_name'] <= (Q3 + 1.5 *

IQR)))

df = df[filtered_entries]
Comprehensive Guide for Exploratory Data Analysis in Python

7. Scaling and Normalization

# Min-Max Scaling

scaler = MinMaxScaler()

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

# Standardization

scaler = StandardScaler()

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

Comprehensive Guide for Exploratory Data Analysis in Python

8. Data Visualization

# Univariate Analysis

# Histogram

[Link](figsize=(10, 6))

[Link](df['column_name'], kde=True)

[Link]('Histogram of column_name')

[Link]()

# Boxplot

[Link](figsize=(10, 6))

[Link](x=df['column_name'])

[Link]('Boxplot of column_name')

[Link]()

# Bivariate Analysis

# Scatter plot

[Link](figsize=(10, 6))

[Link](x='column1', y='column2', data=df)

[Link]('Scatter plot between column1 and column2')

[Link]()

# Heatmap for correlation

Comprehensive Guide for Exploratory Data Analysis in Python

[Link](figsize=(12, 8))

[Link]([Link](), annot=True, cmap='coolwarm')

[Link]('Correlation Heatmap')

[Link]()

# Multivariate Analysis

# Pairplot

[Link](df)

[Link]()

# Violin plot

[Link](figsize=(10, 6))

[Link](x='categorical_column', y='numeric_column', data=df)

[Link]('Violin plot')

[Link]()
Comprehensive Guide for Exploratory Data Analysis in Python

9. Summarizing Findings

print("Key Findings:")

print("1. Description of key patterns or anomalies.")

print("2. Potential relationships between features.")

print("3. Insights on missing values and outliers.")

Comprehensive Guide for Exploratory Data Analysis in Python

10. Adjusting for Different Problems and Constraints

# Imbalanced Data

# Check class distribution

print(df['target'].value_counts())

# Oversampling using SMOTE

from imblearn.over_sampling import SMOTE

smote = SMOTE()

X_res, y_res = smote.fit_resample(X, y)

# Large Datasets

# Using Dask for larger-than-memory computations

import [Link] as dd

df = dd.read_csv('large_dataset.csv')

# Time Series Data

# Converting a column to datetime

df['date_column'] = pd.to_datetime(df['date_column'])

# Setting the date column as index

df.set_index('date_column', inplace=True)
Comprehensive Guide for Exploratory Data Analysis in Python

# Resampling

df_resampled = [Link]('M').mean()

# Text Data

# Using CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()

X = cv.fit_transform(df['text_column'])

# Using TF-IDF Vectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

X = tfidf.fit_transform(df['text_column'])

Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
EDA Python Guide
No ratings yet
EDA Python Guide
11 pages
IOT-Domain Analyst
No ratings yet
IOT-Domain Analyst
11 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
4 pages
Data Analysis With Python
100% (2)
Data Analysis With Python
29 pages
Data Analysis
No ratings yet
Data Analysis
42 pages
Mastering Exploratory Data Analysis With Python - A Comprehensive Guide To Unveiling Hidden Insights
No ratings yet
Mastering Exploratory Data Analysis With Python - A Comprehensive Guide To Unveiling Hidden Insights
73 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Techniques in SAS for Data Science
No ratings yet
EDA Techniques in SAS for Data Science
25 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
Python Data Cleaning Cheat Sheet
100% (4)
Python Data Cleaning Cheat Sheet
8 pages
Python For Data Analysis
100% (2)
Python For Data Analysis
84 pages
EDA with Python: Techniques & Tools
No ratings yet
EDA with Python: Techniques & Tools
47 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Eda Indepth
No ratings yet
Eda Indepth
19 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Presentation - University
No ratings yet
Presentation - University
52 pages
EDA DeepDive Guide
No ratings yet
EDA DeepDive Guide
3 pages
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
No ratings yet
Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science
4 pages
What Is Exploratory Data Analysis?: Intuition
No ratings yet
What Is Exploratory Data Analysis?: Intuition
8 pages
Perform Exploratory Data Analysis
No ratings yet
Perform Exploratory Data Analysis
5 pages
Data Analysis For Beginners Book - 2
100% (1)
Data Analysis For Beginners Book - 2
27 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
FOUND. DATA SCIENCE Practical
No ratings yet
FOUND. DATA SCIENCE Practical
15 pages
Beginners Guide To Python For Data Analysis
No ratings yet
Beginners Guide To Python For Data Analysis
2 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
Data Science
No ratings yet
Data Science
6 pages
STQS2223 CH 4
No ratings yet
STQS2223 CH 4
30 pages
AUTOMATED EDA Libraries
No ratings yet
AUTOMATED EDA Libraries
12 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
15 pages
EDA Techniques and Visualizations
No ratings yet
EDA Techniques and Visualizations
15 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Dev Core
No ratings yet
Dev Core
7 pages
Da Pra Week-8 (Karthik S) - 074713
No ratings yet
Da Pra Week-8 (Karthik S) - 074713
9 pages
EDA Step by Step
No ratings yet
EDA Step by Step
2 pages
Exp 12
No ratings yet
Exp 12
4 pages
Exploratory Data Analysis (EDA) in Python
No ratings yet
Exploratory Data Analysis (EDA) in Python
6 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
Data Analytics Course for Beginners
No ratings yet
Data Analytics Course for Beginners
34 pages
Mastering Exploratory Data Analysis (EDA) - Everything You Need To Know - by Sze Zhong LIM - Data and Beyond - Medium
No ratings yet
Mastering Exploratory Data Analysis (EDA) - Everything You Need To Know - by Sze Zhong LIM - Data and Beyond - Medium
63 pages
IMPDAV
No ratings yet
IMPDAV
105 pages
Understanding Exploratory Data Analysis
No ratings yet
Understanding Exploratory Data Analysis
17 pages
Exploratory Data Analysis Using Python
No ratings yet
Exploratory Data Analysis Using Python
7 pages
Lesson 2 - Data Preprocessing
100% (1)
Lesson 2 - Data Preprocessing
72 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages
South Africa's 4IR Strategy
No ratings yet
South Africa's 4IR Strategy
17 pages
Understanding Topographical Maps
No ratings yet
Understanding Topographical Maps
11 pages
SOCS 185 The Influence of Agents of Socialization - Nurturing Motherly Traits Through Play
No ratings yet
SOCS 185 The Influence of Agents of Socialization - Nurturing Motherly Traits Through Play
3 pages
Purple Revolution & Other Color Revolutions
No ratings yet
Purple Revolution & Other Color Revolutions
134 pages
How Large Language Models Work. From Zero To ChatGPT - by Andreas Stöffelbauer - Medium - Data Science at Microsoft
No ratings yet
How Large Language Models Work. From Zero To ChatGPT - by Andreas Stöffelbauer - Medium - Data Science at Microsoft
41 pages
in Voice No 2011808679
No ratings yet
in Voice No 2011808679
2 pages
ULR: CC226721000004771F: Plot No.B-202, MIDC, Butibori, Nagpur
No ratings yet
ULR: CC226721000004771F: Plot No.B-202, MIDC, Butibori, Nagpur
2 pages
Oracle PL/SQL Course Overview
No ratings yet
Oracle PL/SQL Course Overview
5 pages
Date Time Branch Course Code & Name: Instruction For Students
No ratings yet
Date Time Branch Course Code & Name: Instruction For Students
2 pages
Intelligence
No ratings yet
Intelligence
12 pages
AIAA 2008 7734 4921 CubeSat - Space - 081
No ratings yet
AIAA 2008 7734 4921 CubeSat - Space - 081
12 pages
Preventive Mantenance of HT BOARD
No ratings yet
Preventive Mantenance of HT BOARD
6 pages
Account Statement From 1 Feb 2024 To 29 Feb 2024: TXN Date Value Date Description Ref No./Cheque No. Debit Credit Balance
No ratings yet
Account Statement From 1 Feb 2024 To 29 Feb 2024: TXN Date Value Date Description Ref No./Cheque No. Debit Credit Balance
5 pages
Fiitjee: Physics, Chemistry & Mathematics
No ratings yet
Fiitjee: Physics, Chemistry & Mathematics
23 pages
Project Report Format - Draft - BMS
No ratings yet
Project Report Format - Draft - BMS
21 pages
Calitatea Apei
No ratings yet
Calitatea Apei
64 pages
Siemens BubblerTheory 101
No ratings yet
Siemens BubblerTheory 101
3 pages
Week 3 Strategic Planning
No ratings yet
Week 3 Strategic Planning
36 pages
Business Plan: of GROUP 1 From A2-11ABM-07
No ratings yet
Business Plan: of GROUP 1 From A2-11ABM-07
15 pages
Understanding CC Codes for Remote Devices
No ratings yet
Understanding CC Codes for Remote Devices
2 pages
Abdull Presentation
No ratings yet
Abdull Presentation
9 pages
Hsslive - HSE II ANSWER KEY SERIES TEST 1
No ratings yet
Hsslive - HSE II ANSWER KEY SERIES TEST 1
8 pages
Year 9 History: Anzac Legend Assessment
No ratings yet
Year 9 History: Anzac Legend Assessment
10 pages
Tanker Ship/Shore Safety Checklist
No ratings yet
Tanker Ship/Shore Safety Checklist
6 pages
Liycy-Oz-Jz Delta PDF
No ratings yet
Liycy-Oz-Jz Delta PDF
3 pages
Ipc - 49-22-37 - Rev 2 - 05 - Jan - 1996
100% (1)
Ipc - 49-22-37 - Rev 2 - 05 - Jan - 1996
388 pages
Cewe Transducer Overview and Manual
0% (1)
Cewe Transducer Overview and Manual
56 pages
Finding A Silver Lining - Thanksgiving
No ratings yet
Finding A Silver Lining - Thanksgiving
4 pages
CS401 Quiz 1 Solved by VU Answer
No ratings yet
CS401 Quiz 1 Solved by VU Answer
24 pages
Manual RKE15000A-V (En) Orion
67% (6)
Manual RKE15000A-V (En) Orion
96 pages

Python EDA Guide for Data Analysts

Uploaded by

Python EDA Guide for Data Analysts

Uploaded by

Comprehensive Guide for Exploratory Data Analysis in Python

Comprehensive Guide for Exploratory Data Analysis in Python

summary statistics and graphical representations.

2. Loading Libraries and Dataset

import [Link] as plt

import seaborn as sns

from scipy import stats

from [Link] import MinMaxScaler, StandardScaler

# Example: Loading a CSV file

# Display the first few rows of the dataset

# Display summary statistics

# Display information about the dataset

# Handling Missing Values

# Alternatively, you can fill missing values with median or mode

# Dropping rows with missing values

# Encoding Categorical Variables

# Label Encoding for ordinal data

from [Link] import LabelEncoder

df['new_feature'] = df['existing_feature1'] * df['existing_feature2']

6. Outlier Detection and Treatment

# Using Z-score to identify outliers

filtered_entries = (abs_z_scores < 3)

# Using IQR (Interquartile Range) to identify outliers

7. Scaling and Normalization

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

[Link](x='column1', y='column2', data=df)

[Link]('Scatter plot between column1 and column2')

# Heatmap for correlation

[Link]([Link](), annot=True, cmap='coolwarm')

[Link](x='categorical_column', y='numeric_column', data=df)

print("1. Description of key patterns or anomalies.")

print("2. Potential relationships between features.")

print("3. Insights on missing values and outliers.")

10. Adjusting for Different Problems and Constraints

# Check class distribution

# Oversampling using SMOTE

from imblearn.over_sampling import SMOTE

X_res, y_res = smote.fit_resample(X, y)

# Using Dask for larger-than-memory computations

# Time Series Data

# Converting a column to datetime

# Setting the date column as index

from sklearn.feature_extraction.text import CountVectorizer

# Using TF-IDF Vectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

You might also like