Data Engineer Interview 1740985064

This document is a cheatsheet for Exploratory Data Analysis (EDA) using Pandas, covering data loading, overview, missing values, duplicates, summary statistics, value counts, correlation, grouping, data visualization, cleaning, transformation, datetime analysis, filtering, handling outliers, and pivot tables. It provides concise code snippets for each EDA task, making it a quick reference for data analysts. Additionally, it includes links for career guidance and certification courses.

Uploaded by

Saba Hussien

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views14 pages

Data Engineer Interview 1740985064

Uploaded by

Saba Hussien

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

Pandas EDA

(Exploratory
Data Analysis)
Cheatsheet
📂 Data Loading
pd.read_csv(path): Reads a CSV file
pd.read_excel(path, sheet_name="Sheet1"):
Reads an Excel file
pd.read_sql(query, Connection_Object): Reads
SQL table
pd.read_json(path): Reads a JSON file
pd.read_html(url): Reads tables from an HTML
page
pd.read_parquet(path): Reads a Parquet file
df.to_csv("output.csv", index=False): Saves
DataFrame to a CSV file
df.to_excel("output.xlsx", index=False): Saves
DataFrame to an Excel file
df.to_json("output.json"): Saves DataFrame to
a JSON file
df.to_parquet("output.parquet"): Saves
DataFrame to a Parquet file
🔎 Data Overview
df.head(n): Displays first n rows (default
5)
df.tail(n): Displays last n rows (default 5)
df.shape: Returns (rows, columns)
df.info(): Displays column data types &
memory usage
df.columns: Lists all column names
df.index: Displays index range
df.dtypes: Shows data types of each
column
df.describe(): Summary statistics for
numerical columns
df.describe(include="all"): Summary
statistics for all columns
🔍 Checking Missing Values
df.isnull().sum(): Counts missing values in each
column
df.isna().sum(): Same as isnull()
df[df.isnull().any(axis=1)]: Displays rows with
missing values
df.dropna(): Removes rows with missing values
df.fillna(value): Replaces missing values with a
specified value
df.fillna(df.median()): Fills missing values with
median
df.interpolate(): Performs linear interpolation to
fill NaN

📊 Checking Duplicates
df.duplicated(): Returns a Boolean Series for
duplicate rows
df[df.duplicated()]: Displays duplicate rows
df.drop_duplicates(): Removes duplicate rows
📊 Summary Statistics
df.mean(): Mean of numerical columns
df.median(): Median of numerical
columns
df.mode(): Mode of numerical columns
df.std(): Standard deviation of numerical
columns
df.var(): Variance of numerical columns
df.min(): Minimum value of each column
df.max(): Maximum value of each
column
df.count(): Count of non-null values per
column
df.nunique(): Number of unique values
per column
📊 Value Counts & Distributions
df["column"].value_counts(): Counts
occurrences of each unique value
df["column"].value_counts(normalize=Tr
ue): Normalized value counts
(percentage)
df["column"].unique(): Lists unique values
df["column"].nunique(): Number of
unique values

📊 Correlation & Covariance

df.corr(): Correlation matrix (Pearson by
default)
df.corr(method="kendall"): Kendall
correlation
df.corr(method="spearman"): Spearman
correlation
df.cov(): Covariance matrix
📊 Grouping & Aggregation
df.groupby("column")["value"].mean():
Groups by column and gets mean
df.groupby("column")["value"].agg(["sum",
"count", "mean"]): Aggregates multiple stats
df.pivot_table(values="sales",
index="category", aggfunc="sum"): Pivot
table
📈 Data Visualization (Quick Plots)
df.hist(figsize=(10, 5)): Histogram for numerical
columns
df.boxplot(figsize=(10, 5)): Box plot for outlier
detection
df["column"].plot(kind="hist"): Histogram for a
single column
df["column"].plot(kind="box"): Box plot for a
single column
df.plot(kind="scatter", x="col1", y="col2"):
Scatter plot
🧹 Data Cleaning & Transformation
df["column"].str.lower(): Converts text to
lowercase
df["column"].str.upper(): Converts text to
uppercase
df["column"].str.strip(): Removes
leading/trailing spaces
df["column"].str.replace("old", "new"):
Replaces text
df["column"].astype("int"): Converts
column to integer type
df["column"] =
pd.to_datetime(df["column"]): Converts
column to datetime
🕰️ DateTime Analysis
df["date_column"].dt.year: Extracts year
df["date_column"].dt.month: Extracts month
df["date_column"].dt.day: Extracts day
df["date_column"].dt.weekday: Extracts
weekday
🔍 Data Filtering & Selection
df.loc[condition]: Filters data based on a
condition
df.query('condition'): Filters data using a query
string
df.iloc[start:end]: Selects rows by position
(inclusive start, exclusive end)
df[df["column"] > value]: Filters rows where
column values are greater than a specified
value
df[df["column"].isin([value1, value2]): Filters
rows where the column matches any of the
specified values
🔍 Handling Outliers
Using Z-Score
from scipy import stats
z_scores = stats.zscore(df["column"]):
Computes Z-scores for a column
df = df[(z_scores < 3) & (z_scores > -3)]: Filters
out outliers with Z-scores above 3 or below -3
📊 Pivot Tables & Cross Tabulation
pd.pivot_table(df, values='value',
index='row_group', columns='column_group',
aggfunc='sum'): Creates pivot table with
aggregation
pd.crosstab(df['column1'], df['column2'],
margins=True): Creates a cross-tabulation of
two columns (with margins)
df.pivot_table(values="value",
index="category", aggfunc=["sum", "mean",
"std"]): Multiple aggregation functions in a
pivot table
FOR CAREER GUIDANCE,
CHECK OUT OUR PAGE
www.nityacloudtech.com

Follow Us on Linkedin:
Aditya Chandak
Free SQL Interview Preparation:
https://topmate.io/nitya_cloudtech/1403841

Data Analyst Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Data Engineer Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Artificial Intelligence Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Register for Free AI Workshop:

https://nityacloudtech.com/pages/placement_training/AI_MLMasterClass

(Azpdf - Net) A Study To Assess The Effectiveness of Coping Strategies On Stress and Coping Among The Caregivers o
No ratings yet
(Azpdf - Net) A Study To Assess The Effectiveness of Coping Strategies On Stress and Coping Among The Caregivers o
152 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Afh14-133 Intelligence Analysis Sep 2017
No ratings yet
Afh14-133 Intelligence Analysis Sep 2017
104 pages
Michael Edward Hohn (Auth.) - Geostatistics and Petroleum Geology-Springer Netherlands (1999) PDF
No ratings yet
Michael Edward Hohn (Auth.) - Geostatistics and Petroleum Geology-Springer Netherlands (1999) PDF
243 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Asfasdas
No ratings yet
Asfasdas
36 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Lesson 1 - Data Visualisation
No ratings yet
Lesson 1 - Data Visualisation
35 pages
Justenoughpython Pandas 220915 175329
No ratings yet
Justenoughpython Pandas 220915 175329
64 pages
Pandas+With+Python+ +DATAhill+Solutions
No ratings yet
Pandas+With+Python+ +DATAhill+Solutions
24 pages
Pandas 1702216043
No ratings yet
Pandas 1702216043
86 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
20 pages
INE Command and Control C2 CC Course File
No ratings yet
INE Command and Control C2 CC Course File
73 pages
2,3. Introduction Pandas & Matplotlib
No ratings yet
2,3. Introduction Pandas & Matplotlib
32 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas
No ratings yet
Pandas
94 pages
Kinetic Honda Print Version 2
No ratings yet
Kinetic Honda Print Version 2
119 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
1 page
Data Structures in C / C ++: Exercises and Solved Problems
From Everand
Data Structures in C / C ++: Exercises and Solved Problems
Fulbia Torres
No ratings yet
Intro To Pandas For Data Analytics
No ratings yet
Intro To Pandas For Data Analytics
20 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Pandas PDF
No ratings yet
Pandas PDF
25 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Cheat Sheet - Exploratory Data Analysis
No ratings yet
EDA Cheat Sheet - Exploratory Data Analysis
2 pages
Sample Project Report
100% (1)
Sample Project Report
26 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Research On Buying Behaviour of Students of Nashik While Selecting Mba Coaching Institute
33% (3)
Research On Buying Behaviour of Students of Nashik While Selecting Mba Coaching Institute
15 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Hint Sheet
No ratings yet
Hint Sheet
13 pages
Pandas DataFrame Notes
100% (1)
Pandas DataFrame Notes
10 pages
Cheat Sheet
No ratings yet
Cheat Sheet
10 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Pandas Cheat Sheet........
No ratings yet
Pandas Cheat Sheet........
11 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
10 pages
Regression: An Introduction To Econometrics
No ratings yet
Regression: An Introduction To Econometrics
19 pages
ELT Using Pandas
No ratings yet
ELT Using Pandas
5 pages
RATIO ANALYSIS OF Menraj Chaudhary
No ratings yet
RATIO ANALYSIS OF Menraj Chaudhary
25 pages
Research Report 2022
No ratings yet
Research Report 2022
48 pages
Pandas
No ratings yet
Pandas
12 pages
Pandas 1705297450
No ratings yet
Pandas 1705297450
21 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Pandas Commands
No ratings yet
Pandas Commands
3 pages
INE Exploit Development Buffer Overflows Course File
No ratings yet
INE Exploit Development Buffer Overflows Course File
56 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
GSRTC Presentation BY RAHESH - BKMIBA-HLBBA
No ratings yet
GSRTC Presentation BY RAHESH - BKMIBA-HLBBA
49 pages
What Is Pandas
No ratings yet
What Is Pandas
9 pages
ppt-2 Introduction To Smart Solution and Global Trends
No ratings yet
ppt-2 Introduction To Smart Solution and Global Trends
45 pages
Pandas Cheat Sheet
100% (2)
Pandas Cheat Sheet
6 pages
ML Lab1 Python Panda
No ratings yet
ML Lab1 Python Panda
9 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
COMPX310-19A Machine Learning: An Introduction Using Python, Scikit-Learn, Keras, and Tensorflow
No ratings yet
COMPX310-19A Machine Learning: An Introduction Using Python, Scikit-Learn, Keras, and Tensorflow
44 pages
jQuery 1.4 Reference Guide
From Everand
jQuery 1.4 Reference Guide
Jonathan Chaffer
3.5/5 (2)
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Presented By: Jayson S. Hernandez: Guidance Counselor I San Miguel National High School
No ratings yet
Presented By: Jayson S. Hernandez: Guidance Counselor I San Miguel National High School
36 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
BCOM 209 Business Statistics
No ratings yet
BCOM 209 Business Statistics
12 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
Cyberops Associate Certification Guide
No ratings yet
Cyberops Associate Certification Guide
13 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
12 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
100% (1)
Cheat Sheet: The Pandas Dataframe Object: Preliminaries Get Your Data Into A Dataframe
10 pages
Thesis Data Analysis - Sample
100% (1)
Thesis Data Analysis - Sample
3 pages
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
No ratings yet
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
12 pages
Pandas DataFrameObject
No ratings yet
Pandas DataFrameObject
4 pages
Pandas Cheat Sheet - Python For Data Science
No ratings yet
Pandas Cheat Sheet - Python For Data Science
5 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
Dissertation Proposal Sample Qualitative Robert Maldonado
No ratings yet
Dissertation Proposal Sample Qualitative Robert Maldonado
9 pages
BA Final Report
No ratings yet
BA Final Report
28 pages
Studies On Economic Efficiency of Coffee Production in Ilu Abbabor Zone, Oromia Region, Ethiopia
No ratings yet
Studies On Economic Efficiency of Coffee Production in Ilu Abbabor Zone, Oromia Region, Ethiopia
14 pages
Chapter-2 Review of Literature 110-143
No ratings yet
Chapter-2 Review of Literature 110-143
34 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Dự báo và phát triển kinh doanh
No ratings yet
Dự báo và phát triển kinh doanh
43 pages
Week 1 Lecture 1 New
No ratings yet
Week 1 Lecture 1 New
27 pages
Introduction To A319 Environmental Data Analysis
No ratings yet
Introduction To A319 Environmental Data Analysis
18 pages
Snort Report
No ratings yet
Snort Report
3 pages
Jehad
No ratings yet
Jehad
5 pages
Week 12 - Independent Sample T-Test
No ratings yet
Week 12 - Independent Sample T-Test
27 pages
Định Luật Chuyển Động Của Newton Bài Thuyết Trình Khoa Học Theo Phong Cách Vẽ Tay Màu Be Than
No ratings yet
Định Luật Chuyển Động Của Newton Bài Thuyết Trình Khoa Học Theo Phong Cách Vẽ Tay Màu Be Than
14 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Metopen Ekonomi Pembangunan
No ratings yet
Metopen Ekonomi Pembangunan
14 pages
FinQuiz - Curriculum Note, @InsightSquad Study Session 3, Reading 8
No ratings yet
FinQuiz - Curriculum Note, @InsightSquad Study Session 3, Reading 8
11 pages
Titan Scan Report
No ratings yet
Titan Scan Report
3 pages
Comptia Linuxxk0005 10 1 1 Configuring A Network Adapter
No ratings yet
Comptia Linuxxk0005 10 1 1 Configuring A Network Adapter
2 pages
Vocabulary
No ratings yet
Vocabulary
4 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Practical Research 2: Quarter 2 - Module 8
50% (4)
Practical Research 2: Quarter 2 - Module 8
38 pages
Windows
No ratings yet
Windows
1 page
Risk Analysis For TITAN SHIELDS&Risk Management Plan.
No ratings yet
Risk Analysis For TITAN SHIELDS&Risk Management Plan.
1 page
IHRP Incident Detection
No ratings yet
IHRP Incident Detection
1 page
Green
No ratings yet
Green
1 page
DMUU Assignment2 - GroupC
No ratings yet
DMUU Assignment2 - GroupC
4 pages
An-Najah National University Computer Security, Computer Security and Ethics Second Semester 2015/2016
No ratings yet
An-Najah National University Computer Security, Computer Security and Ethics Second Semester 2015/2016
1 page
Three Way Anova With R
No ratings yet
Three Way Anova With R
1 page