0% found this document useful (0 votes)

10 views18 pages

Data Wrangling

Uploaded by

Ashish Ghoshal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views18 pages

Data Wrangling

Uploaded by

Ashish Ghoshal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 18

Data Wrangling

■ Identify and handle missing values

■ - Identify missing values
■ - Deal with missing values
■ - Correct data format
■ Data standardization
■ Data Normalization (centring/scaling)
■ Binning
■ Indicator variable
Data Wrangling

■ Data Wrangling is the process of converting data from

the initial format to a format that may be better for
analysis.
■ The goal of data wrangling is to assure quality and
useful data. Data analysts typically spend the majority of
their time in the process of data wrangling compared to
the actual analysis of the data.
Steps for working with missing data:

■identify missing data

■deal with missing data
■correct data format
Steps for working with missing data:

■ 1. Identify and handle missing values

Convert "?" to NaN
Use the function: .replace(A, B, inplace = True)

■ Evaluating for Missing Data

There are two methods to detect missing data:
■ .isnull()
■ .notnull()
■ The output is a boolean value indicating whether the passed in
argument value are in fact missing data.
Deal with missing data
■ How to deal with missing data?

■ 1. drop data
■ a. drop the whole row
■ b. drop the whole column
■ 2. replace data
■ a. replace it by mean
■ b. replace it by frequency
■ c. replace it based on other functions
Correct data format

■ Making sure that all data is in the correct format (int, float,
text or other).
■ In Pandas, we use
■ **.dtype()** to check the data type
■ **.astype()** to change the data type
Data Standardization

■ Data is usually collected from different agencies with different

formats. (Data Standardization is also a term for a particular
type of data normalization, where we subtract the mean and
divide by the standard deviation)
■ What is Standardization?
■ Standardization is the process of transforming data into a
common format which allows the researcher to make the
meaningful comparison.
Data Normalization

■ Why normalization?
■ Normalization is the process of transforming values of several
variables into a similar range. Typical normalizations include
scaling the variable so the variable average is 0, scaling the
variable so the variable variance is 1, or scaling variable so the
variable values range from 0 to 1
Binning

■ Why binning?
■ Binning is a process of transforming continuous numerical
variables into discrete categorical 'bins', for grouped analysis.
■ Normally, a histogram is used to visualize the distribution of
bins created
Indicator variable (or dummy variable)

■ What is an indicator variable?

■ An indicator variable (or dummy variable) is a numerical
variable used to label categories. They are called 'dummies'
because the numbers themselves don't have inherent
meaning.
■ Why we use indicator variables?
■ So we can use categorical variables for regression analysis
Exploratory Data Analysis (EDA)

■ For data analysis, Exploratory Data Analysis (EDA) must be your

first step. Exploratory Data Analysis helps us to −
■ To give insight into a data set.
■ Understand the underlying structure.
■ Extract important parameters and relationships that hold
between them.
■ Test underlying assumptions.
Classification of EDA
■ Exploratory data analysis is generally cross-classified in two ways. First,
each method is either non-graphical or graphical. And second, each
method is either univariate or multivariate (usually just bivariate).
■ Non-graphical methods generally involve calculation of summary
statistics, while graphical methods obviously summarize the data in a
diagrammatic or pictorial way.
■ Univariate methods look at one variable (data column) at a time, while
multivariate methods look at two or more variables at a time to explore
relationships. Usually our multivariate EDA will be bivariate (looking at
exactly two variables), but occasionally it will involve three or more
variables. It is almost always a good idea to perform univariate EDA on
each of the components of a multivariate EDA before performing the
multivariate EDA.
Data Frames attributes
Python objects have attributes and methods.

df.attribute description
dtypes list the types of the columns
columns list the column names
axes list the row labels and column names
ndim number of dimensions

size number of elements

shape return a tuple representing the dimensionality
values numpy representation of the data
Data Frames methods

df.method() description
head( [n] ), tail( [n] ) first/last n rows

describe() generate descriptive statistics (for numeric columns

only)
max(), min() return max/min values for all numeric columns

mean(), median() return mean/median values for all numeric columns

std() standard deviation

sample([n]) returns a random sample of the data frame

dropna() drop all the records with missing values

Basic Descriptive Statistics
df.method() description
describe Basic statistics (count, mean, std, min, quantiles, max)

min, max Minimum and maximum values

mean, median, mode Arithmetic average, median and mode

var, std Variance and standard deviation

sem Standard error of mean

skew Sample skewness

kurt kurtosis
Grouping

■ The "groupby" method groups data by different categories.

The data is grouped based on one or several variables and
analysis is performed on the individual groups.
Analysis
■ Univariate Analysis:If we analyze data over a single variable/column from
a dataset, it is known as Univariate Analysis. Categorical Unordered
Univariate Analysis and Categorical Unordered Univariate Analysis
■ Bivariate Analysis:If we analyze data by taking two variables/columns
into consideration from a dataset, it is known as Bivariate Analysis.
■ Multivariate Analysis:If we analyze data by taking more than two
variables/columns into consideration from a dataset, it is known as
Multivariate Analysis.

Time Series Analysis: Christian Kleiber
No ratings yet
Time Series Analysis: Christian Kleiber
14 pages
Solution For Kriging Calculation
100% (2)
Solution For Kriging Calculation
6 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
Exploratory Data Analysis - Satyajit
No ratings yet
Exploratory Data Analysis - Satyajit
35 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
UNIT 1 Exploratory Data Analysis
100% (1)
UNIT 1 Exploratory Data Analysis
8 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Ch-1 Introduction To Data Analysis
No ratings yet
Ch-1 Introduction To Data Analysis
23 pages
Unit - 1 Data Preprocessing
No ratings yet
Unit - 1 Data Preprocessing
66 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
3-Data Pre-Processing
No ratings yet
3-Data Pre-Processing
18 pages
DM LAQs (CT 1)
No ratings yet
DM LAQs (CT 1)
40 pages
Preprocessing Techniques
No ratings yet
Preprocessing Techniques
63 pages
Initial Data Analysis
No ratings yet
Initial Data Analysis
38 pages
ML Unit 1 Part 2
No ratings yet
ML Unit 1 Part 2
56 pages
L18&19 Data Exploration
No ratings yet
L18&19 Data Exploration
50 pages
Python Basics - Hamza Zahoor
No ratings yet
Python Basics - Hamza Zahoor
6 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Lecture 4 New Data Pre Processing
No ratings yet
Lecture 4 New Data Pre Processing
41 pages
Unit 2
No ratings yet
Unit 2
76 pages
11-Data Pre-Processing, Exploratory Data Analysis.-23-03-2023
No ratings yet
11-Data Pre-Processing, Exploratory Data Analysis.-23-03-2023
37 pages
Summary - Data Quality
No ratings yet
Summary - Data Quality
7 pages
Summary Data Quality Course
No ratings yet
Summary Data Quality Course
7 pages
Unit 1
No ratings yet
Unit 1
21 pages
DSBDL Asg 2 Write Up
No ratings yet
DSBDL Asg 2 Write Up
4 pages
Data Preparation Notebook
No ratings yet
Data Preparation Notebook
14 pages
Dev Answer Key
100% (1)
Dev Answer Key
17 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
Unit - Iii - Eda
No ratings yet
Unit - Iii - Eda
25 pages
EDA - Task
No ratings yet
EDA - Task
20 pages
Module 3 Data Preparation
No ratings yet
Module 3 Data Preparation
33 pages
Day 1 Article For Discussion
No ratings yet
Day 1 Article For Discussion
5 pages
Lect2 - Data Preprocessing
No ratings yet
Lect2 - Data Preprocessing
10 pages
Data Preparation
No ratings yet
Data Preparation
17 pages
IT - Specialist:: Data Analytics
No ratings yet
IT - Specialist:: Data Analytics
46 pages
Chap 1 Data Preprocessing
No ratings yet
Chap 1 Data Preprocessing
17 pages
CH 02 Data Handling Technique
No ratings yet
CH 02 Data Handling Technique
105 pages
Unit2 - Data Cleaning and Multivariate Techniques - 26 - 01 - 2025
No ratings yet
Unit2 - Data Cleaning and Multivariate Techniques - 26 - 01 - 2025
42 pages
Data Science Slides
No ratings yet
Data Science Slides
57 pages
Data Wrangling
No ratings yet
Data Wrangling
30 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
25 pages
Data Analysis
No ratings yet
Data Analysis
42 pages
Exploratory Data Analysis-1 (EDA-1)
No ratings yet
Exploratory Data Analysis-1 (EDA-1)
38 pages
CH2 Data Cleaning
No ratings yet
CH2 Data Cleaning
41 pages
Exploratory Data Analysis (EDA) in Python
No ratings yet
Exploratory Data Analysis (EDA) in Python
6 pages
CC&BD Unit 4
No ratings yet
CC&BD Unit 4
12 pages
Data Science Presentation
100% (3)
Data Science Presentation
113 pages
Lecture Week 6-Data Scraping and Data Wrangling
No ratings yet
Lecture Week 6-Data Scraping and Data Wrangling
16 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
EDA
100% (1)
EDA
9 pages
Lab Assignment 1 Title: Data Wrangling I: Problem Statement
No ratings yet
Lab Assignment 1 Title: Data Wrangling I: Problem Statement
12 pages
Machine Learning Unit 2
No ratings yet
Machine Learning Unit 2
71 pages
Data Wrangling and Visualization
No ratings yet
Data Wrangling and Visualization
48 pages
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
No ratings yet
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
79 pages
EDA - Exploratory Data Analysis
No ratings yet
EDA - Exploratory Data Analysis
16 pages
Data Cleaning
No ratings yet
Data Cleaning
39 pages
Unit 2exploratory Analysis
No ratings yet
Unit 2exploratory Analysis
37 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Co-Clustering: Models, Algorithms and Applications
From Everand
Co-Clustering: Models, Algorithms and Applications
Gérard Govaert
No ratings yet
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet
BUET M.Sc. Admission Test Question (CSE) May - 2019
83% (6)
BUET M.Sc. Admission Test Question (CSE) May - 2019
2 pages
Computer Networking
No ratings yet
Computer Networking
14 pages
JN - 2013 - Li - Model and Simulation For Collaborative VRPSPD
No ratings yet
JN - 2013 - Li - Model and Simulation For Collaborative VRPSPD
8 pages
Digital Communication I Lecture # 3 Pulse Code Modulation (PCM) PCM, Noise in Pulse Code Modulation.
No ratings yet
Digital Communication I Lecture # 3 Pulse Code Modulation (PCM) PCM, Noise in Pulse Code Modulation.
23 pages
Deep Learning Applications in Agriculture: A Short Review: January 2020
No ratings yet
Deep Learning Applications in Agriculture: A Short Review: January 2020
13 pages
Index DSA
No ratings yet
Index DSA
2 pages
AI Powered IDS
No ratings yet
AI Powered IDS
6 pages
Chapter 6 Review Questions MCF3M Winter '22
No ratings yet
Chapter 6 Review Questions MCF3M Winter '22
4 pages
Unit - V
No ratings yet
Unit - V
10 pages
Experiment-3 31
No ratings yet
Experiment-3 31
9 pages
Mealy and Moore Machine and Their Conversions
No ratings yet
Mealy and Moore Machine and Their Conversions
3 pages
Logic Formulation
No ratings yet
Logic Formulation
31 pages
DAMT Formulas
No ratings yet
DAMT Formulas
1 page
Signals and Systems Analysis-Adv
No ratings yet
Signals and Systems Analysis-Adv
58 pages
Project Report Hate
100% (1)
Project Report Hate
24 pages
Maths (041) Xii PB 1 QP Set C
No ratings yet
Maths (041) Xii PB 1 QP Set C
7 pages
Lab 2
No ratings yet
Lab 2
2 pages
On Adaptive Filter
No ratings yet
On Adaptive Filter
25 pages
Reliability & Fault Tree Analysis
No ratings yet
Reliability & Fault Tree Analysis
25 pages
Branch and Bound
No ratings yet
Branch and Bound
13 pages
Solutions To Selected Problems in Numerical Optimization 2nbsped - Compress
No ratings yet
Solutions To Selected Problems in Numerical Optimization 2nbsped - Compress
75 pages
Bachelor Thesis Eth Math
100% (3)
Bachelor Thesis Eth Math
4 pages
Pps Mid-1
No ratings yet
Pps Mid-1
1 page
Childs Guide To Optimal Control-Economics
No ratings yet
Childs Guide To Optimal Control-Economics
10 pages
Training Effective Deep Reinforcement Learning Agents For Real-Time
No ratings yet
Training Effective Deep Reinforcement Learning Agents For Real-Time
14 pages
Ch.2 Coordinate Geometry & Ch.4 Parametric Differentiation
No ratings yet
Ch.2 Coordinate Geometry & Ch.4 Parametric Differentiation
38 pages
2.004 Dynamics and Control Ii: Mit Opencourseware
No ratings yet
2.004 Dynamics and Control Ii: Mit Opencourseware
9 pages
EMS-LECTURE 5: State Estimation
No ratings yet
EMS-LECTURE 5: State Estimation
3 pages

Data Wrangling

Uploaded by

Data Wrangling

Uploaded by

Data Wrangling

■ Identify and handle missing values

■ Data Wrangling is the process of converting data from

■identify missing data

■ 1. Identify and handle missing values

■ Evaluating for Missing Data

■ Data is usually collected from different agencies with different

■ What is an indicator variable?

■ For data analysis, Exploratory Data Analysis (EDA) must be your

size number of elements

describe() generate descriptive statistics (for numeric columns

mean(), median() return mean/median values for all numeric columns

std() standard deviation

sample([n]) returns a random sample of the data frame

dropna() drop all the records with missing values

min, max Minimum and maximum values

mean, median, mode Arithmetic average, median and mode

var, std Variance and standard deviation

sem Standard error of mean

skew Sample skewness

■ The "groupby" method groups data by different categories.

You might also like