0% found this document useful (0 votes)

2 views9 pages

Data Wrangling Notebook Summary

This document outlines various data wrangling techniques using Python, including library imports, sample data generation, and functions for data manipulation. It covers methods for cleaning data, handling missing values, encoding categorical variables, and summarizing data through descriptive statistics and group operations. The notebook provides practical code examples for each technique, demonstrating how to apply them to a sample dataset.

Uploaded by

imsubscribeyou

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views9 pages

Data Wrangling Notebook Summary

Uploaded by

imsubscribeyou

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

Data Wrangling Notebook Summary

1. Introduction
# Data Wrangling

This notebook presents different data wrangling techniques used commonly

2. Library Imports
# import required libraries
import random
import datetime
import numpy as np
import pandas as pd
from random import randrange
from sklearn import preprocessing

from IPython.display import display

pd.options.mode.chained_assignment = None

3. Utilities
## Utilities

def _random_date(start,date_count):
"""This function generates a random date based on params
Args:
start (date object): the base date
date_count (int): number of dates to be generated
Returns:
list of random dates

"""
current = start
while date_count > 0:
curr = current + datetime.timedelta(days=randrange(42))
yield curr
date_count-=1

def generate_sample_data(row_count=100):
"""This function generates a random transaction dataset
Args:
row_count (int): number of rows for the dataframe
Returns:
a pandas dataframe

"""

# sentinels
startDate = datetime.datetime(2016, 1, 1,13)
serial_number_sentinel = 1000
user_id_sentinel = 5001
product_id_sentinel = 101
price_sentinel = 2000

# base list of attributes

data_dict = {
'Serial No': np.arange(row_count)+serial_number_sentinel,
'Date': np.random.permutation(pd.to_datetime([x.strftime("%d-%m-%Y")
for x in _random_date(startDate,
row_count)]).date
),
'User ID': np.random.permutation(np.random.randint(0,
row_count,
size=int(row_count/10)) + user_id_sentinel).tolist()*10,
'Product ID': np.random.permutation(np.random.randint(0,
row_count,
size=int(row_count/10))+ product_id_sentinel).tolist()*10 ,
'Quantity Purchased': np.random.permutation(np.random.randint(1,
42,
size=row_count)),
'Price': np.round(np.abs(np.random.randn(row_count)+1)*price_sentinel,
decimals=2),
'User Type':np.random.permutation([chr(random.randrange(97, 97 + 3 + 1))
for i in range(row_count)])
}

# introduce missing values

for index in range(int(np.sqrt(row_count))):
data_dict['Price'][np.argmax(data_dict['Price'] == random.choice(data_dict['Price']))] =
np.nan
data_dict['User Type'][np.argmax(data_dict['User Type'] ==
random.choice(data_dict['User Type']))] = np.nan
data_dict['Date'][np.argmax(data_dict['Date'] == random.choice(data_dict['Date']))] =
np.nan
data_dict['Product ID'][np.argmax(data_dict['Product ID'] ==
random.choice(data_dict['Product ID']))] = 0
data_dict['Serial No'][np.argmax(data_dict['Serial No'] ==
random.choice(data_dict['Serial No']))] = -1
data_dict['User ID'][np.argmax(data_dict['User ID'] == random.choice(data_dict['User
ID']))] = -101

# create data frame

df = pd.DataFrame(data_dict)

return df

def describe_dataframe(df=pd.DataFrame()):
"""This function generates descriptive stats of a dataframe
Args:
df (dataframe): the dataframe to be analyzed
Returns:
None

"""
print("\n\n")
print("*"*30)
print("About the Data")
print("*"*30)

print("Number of rows::",df.shape[0])
print("Number of columns::",df.shape[1])
print("\n")

print("Column Names::",df.columns.values.tolist())
print("\n")

print("Column Data Types::\n",df.dtypes)

print("\n")

print("Columns with Missing Values::",df.columns[df.isnull().any()].tolist())

print("\n")

print("Number of rows with Missing Values::",len(pd.isnull(df).any(1).nonzero()

[0].tolist()))
print("\n")

print("Sample Indices with missing data::",pd.isnull(df).any(1).nonzero()[0].tolist()[0:5])

print("\n")

print("General Stats::")
print(df.info())
print("\n")

print("Summary Stats::")
print(df.describe())
print("\n")

print("Dataframe Sample Rows::")

display(df.head(5))

def cleanup_column_names(df,rename_dict={},do_inplace=True):
"""This function renames columns of a pandas dataframe
It converts column names to snake case if rename_dict is not passed.
Args:
rename_dict (dict): keys represent old column names and values point to
newer ones
do_inplace (bool): flag to update existing dataframe or return a new one
Returns:
pandas dataframe if do_inplace is set to False, None otherwise

"""
if not rename_dict:
return df.rename(columns={col: col.lower().replace(' ','_')
for col in df.columns.values.tolist()},
inplace=do_inplace)
else:
return df.rename(columns=rename_dict,inplace=do_inplace)

def expand_user_type(u_type):
"""This function maps user types to user classes
Args:
u_type (str): user type value
Returns:
(str) user_class value

"""
if u_type in ['a','b']:
return 'new'
elif u_type == 'c':
return 'existing'
elif u_type == 'd':
return 'loyal_existing'
else:
return 'error'

4. Sample Dataset Generation

## Generate a Sample Dataset

df = generate_sample_data(row_count=1000)

5. Additional Explanations
### Describe the Dataset

### Rename Columns

### Sort Rows on defined attributes

### Rearrange Columns in a Dataframe

### Filtering Columns

Using Column Index

Using Column Name

Using Column Datatype

### Filtering Rows

Select specific rows

Exclude Specific Row indices

Conditional Filtering

Offset from top of the dataframe

Offset from bottom of the dataframe

### TypeCasting/Data Type Conversion

### Apply/Map Usage

Map : Create a derived attribute using map

Apply: Using apply to get attribute ranges

Applymap: Extract week from date

### Missing Values

Drop Rows with missing dates

Fill Missing Price values with mean price

Fill Missing user_type values with value from previous row (forward fill)

Fill Missing user_type values with value from next row (backward fill)

### Duplicates

Drop Duplicate serial_no rows

Remove rows which have less than 3 attributes with non-missing data

### Encode Categoricals

One Hot Encoding using get_dummies()

Label Mapping

### Random Sampling data from DataFrame

### Normalizing Numeric Values

Normalize price values using Min-Max Scaler

Normalize quantity purchased values using Robust Scaler

### Data Summarization

Condition based aggregation

Condtion based counts

### Group By

Group By certain attributes

Group By with different aggregate functions

Group by specific aggregate functions for each attribute

Group by with multiple agg for each attribute

### Pivot Tables

### Stack a Dataframe

6. Data Wrangling Code

describe_dataframe(df)

print("Dataframe columns:\n{}".format(df.columns.tolist()))

cleanup_column_names(df)

print("Dataframe columns:\n{}".format(df.columns.tolist()))

display(df.sort_values(['serial_no', 'price'],
ascending=[True, False]).head())

display(df[['serial_no','date','user_id','user_type',
'product_id','quantity_purchased','price']].head())

# print 10 values from column at index 3

print(df.iloc[:,3].values[0:10])

# print 10 values of quantity purchased

print(df.quantity_purchased.values[0:10])

# print 10 values of columns with data type float

print(df.select_dtypes(include=['float64']).values[:10,0])

display(df.iloc[[10,501,20]])

display(df.drop([0,24,51], axis=0).head())

display(df[df.quantity_purchased>25].head())

display(df[100:].head())

display(df[-10:].head())

df['date'] = pd.to_datetime(df.date)
# compare dtypes of the original df with this one
print(df.dtypes)

df['user_class'] = df['user_type'].map(expand_user_type)
display(df.tail())

display(df.select_dtypes(include=[np.number]).apply(lambda x:
x.max()-
x.min()))

df['purchase_week'] = df[['date']].applymap(lambda dt:dt.week

if not
pd.isnull(dt.week)
else 0)

display(df.head())

df_dropped = df.dropna(subset=['date'])
display(df_dropped.head())

df_dropped['price'].fillna(value=np.round(df.price.mean(),decimals=2),
inplace=True)

df_dropped['user_type'].fillna(method='ffill',inplace=True)

df_dropped['user_type'].fillna(method='bfill',inplace=True)

# sample duplicates
display(df_dropped[df_dropped.duplicated(subset=['serial_no'])].head())
print("Shape of df={}".format(df_dropped.shape))

df_dropped.drop_duplicates(subset=['serial_no'],inplace=True)

# updated dataframe
display(df_dropped.head())
print("Shape of df={}".format(df_dropped.shape))

display(df.dropna(thresh=3).head())
print("Shape of df={}".format(df.dropna(thresh=3).shape))

display(pd.get_dummies(df,columns=['user_type']).head())

type_map={'a':0,'b':1,'c':2,'d':3,np.NAN:-1}
df['encoded_user_type'] = df.user_type.map(type_map)
display((df.tail()))

display(df.sample(frac=0.2, replace=True, random_state=42).head())

df_normalized = df.dropna().copy()
min_max_scaler = preprocessing.MinMaxScaler()
np_scaled =
min_max_scaler.fit_transform(df_normalized['price'].values.reshape(-
1,1))
df_normalized['price'] = np_scaled.reshape(-1,1)

display(df_normalized.head())

df_normalized = df.dropna().copy()
robust_scaler = preprocessing.RobustScaler()
rs_scaled =
robust_scaler.fit_transform(df_normalized['quantity_purchased'].values.r
eshape(-1,1))
df_normalized['quantity_purchased'] = rs_scaled.reshape(-1,1)

display(df_normalized.head())
print("Mean price of items purchased by user_type=a ::
{}".format(df['price'][df['user_type']=='a'].mean()))

print(df['purchase_week'].value_counts())

print(df.groupby(['user_class'])['quantity_purchased'].sum())

display(df.groupby(['user_class'])['quantity_purchased'].agg([np.sum,
np.mean,

np.count_nonzero]))

display(df.groupby(['user_class','user_type']).agg({'price':np.mean,

'quantity_purchased':np.max}))

display(df.groupby(['user_class','user_type']).agg({'price':{

'total_price':np.sum,

'mean_price':np.mean,

'variance_price':np.std,

'count':np.count_nonzero},

'quantity_purchased':np.sum}))

display(df.pivot_table(index='date', columns='user_type',
values='price',aggfunc=np.mean))

print(df.stack())

Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Python Cheat Sheet 2.0
100% (1)
Python Cheat Sheet 2.0
10 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Data Preprocessing
No ratings yet
Data Preprocessing
84 pages
Different Types of Curve Fitting
No ratings yet
Different Types of Curve Fitting
13 pages
Journal
No ratings yet
Journal
48 pages
DMDW Fielding Set
No ratings yet
DMDW Fielding Set
11 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
1ula GTB2 PLC17 Emhay Brian
No ratings yet
1ula GTB2 PLC17 Emhay Brian
11 pages
Python Notes by Prof T
No ratings yet
Python Notes by Prof T
10 pages
Sage Encyclopedia of Social Research Methods. Conceptualization, Operationalization and Measurement (2004)
No ratings yet
Sage Encyclopedia of Social Research Methods. Conceptualization, Operationalization and Measurement (2004)
10 pages
Manuscript For Defense
No ratings yet
Manuscript For Defense
98 pages
University Institute of Engineering Department of Computer Science & Engineering
No ratings yet
University Institute of Engineering Department of Computer Science & Engineering
18 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Python CSBS Bhavya Lab Manual
No ratings yet
Python CSBS Bhavya Lab Manual
14 pages
AL Notes
No ratings yet
AL Notes
61 pages
Practical Research
No ratings yet
Practical Research
20 pages
Foundation of Data Science Lab Manual Full
No ratings yet
Foundation of Data Science Lab Manual Full
8 pages
Even Students
No ratings yet
Even Students
36 pages
Data Mining Lab Manaul
No ratings yet
Data Mining Lab Manaul
32 pages
Practical Statistics For Geographers and Earth Scientists 1st Edition Nigel Walford Download PDF
100% (3)
Practical Statistics For Geographers and Earth Scientists 1st Edition Nigel Walford Download PDF
45 pages
Ilovepdf Merged (2) Merged
No ratings yet
Ilovepdf Merged (2) Merged
65 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
PR2 Curriculum Guide
No ratings yet
PR2 Curriculum Guide
7 pages
SI Final Term Report (Salik 21678)
No ratings yet
SI Final Term Report (Salik 21678)
31 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Eda Lab Assignment2
No ratings yet
Eda Lab Assignment2
10 pages
EDA Plots Code
No ratings yet
EDA Plots Code
13 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
100% (4)
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
11 pages
Oddstudents
No ratings yet
Oddstudents
35 pages
DSC Lab Programs
No ratings yet
DSC Lab Programs
24 pages
An Efficient Incremental Clustering Algorithm
No ratings yet
An Efficient Incremental Clustering Algorithm
3 pages
Outlining and Graphic Organizer
No ratings yet
Outlining and Graphic Organizer
30 pages
Review of Literature On Employee Training and Development PDF
No ratings yet
Review of Literature On Employee Training and Development PDF
6 pages
UNIT 3.intelligent Systems
No ratings yet
UNIT 3.intelligent Systems
47 pages
Computing The Variance of A Discrete Probability Distribution Autosaved
No ratings yet
Computing The Variance of A Discrete Probability Distribution Autosaved
31 pages
Anova and Manova
No ratings yet
Anova and Manova
30 pages
PTU MBA Syllabus
No ratings yet
PTU MBA Syllabus
85 pages
LESSON 1 Random-Variables
No ratings yet
LESSON 1 Random-Variables
29 pages
ISM Calculator (V. 3.0, August 2020) For Calculating 95% UCL With ISM Data
No ratings yet
ISM Calculator (V. 3.0, August 2020) For Calculating 95% UCL With ISM Data
25 pages
Pandas, Numpy, Matplotlib
No ratings yet
Pandas, Numpy, Matplotlib
11 pages
Unit-13 (1) - Normal Distribution
No ratings yet
Unit-13 (1) - Normal Distribution
20 pages
Baiq Maziza Adawiach Mandala 1710105081
No ratings yet
Baiq Maziza Adawiach Mandala 1710105081
17 pages
New Tools For Functional Genomic Analysis
No ratings yet
New Tools For Functional Genomic Analysis
11 pages
Record Book Programs 2024-2025
No ratings yet
Record Book Programs 2024-2025
11 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Week 1 Quiz 1
No ratings yet
Week 1 Quiz 1
2 pages
An Introduction To The Bootstrap: Teaching Statistics May 2001
No ratings yet
An Introduction To The Bootstrap: Teaching Statistics May 2001
7 pages
9709 Distributions PPQs
No ratings yet
9709 Distributions PPQs
18 pages
Supermarket Sales Analysis Project
No ratings yet
Supermarket Sales Analysis Project
8 pages
ISI Report Aug11
No ratings yet
ISI Report Aug11
8 pages
A Detailed Analysis On NSL-KDD Dataset
No ratings yet
A Detailed Analysis On NSL-KDD Dataset
6 pages
Assignment 7
No ratings yet
Assignment 7
1 page
EX-02-Data Manipulation Pandas Matplot
No ratings yet
EX-02-Data Manipulation Pandas Matplot
9 pages
Problem 2 Reflection
No ratings yet
Problem 2 Reflection
3 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Behaviors of Seniors and Impact of Spatial Form in Small-Scale Public Spaces in Chinese Old City Zones
No ratings yet
Behaviors of Seniors and Impact of Spatial Form in Small-Scale Public Spaces in Chinese Old City Zones
9 pages
Practical File 12th
No ratings yet
Practical File 12th
19 pages
Data Analysis Tools
No ratings yet
Data Analysis Tools
26 pages
Average Porosity
No ratings yet
Average Porosity
3 pages
Unit 5 - Week 4: Assignment 4
No ratings yet
Unit 5 - Week 4: Assignment 4
4 pages
DWM Practical
No ratings yet
DWM Practical
12 pages
Guides
No ratings yet
Guides
23 pages
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
Exp 8 - LM
No ratings yet
Exp 8 - LM
10 pages
Unit3 - 3) Pandas - Ipynb - Colab
No ratings yet
Unit3 - 3) Pandas - Ipynb - Colab
11 pages
ML 1-11
No ratings yet
ML 1-11
27 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
3rd Week Report
No ratings yet
3rd Week Report
7 pages
ANOVA Poplar-Trees
No ratings yet
ANOVA Poplar-Trees
3 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
Python Cheat Sheets
97% (33)
Python Cheat Sheets
11 pages
Pandas
No ratings yet
Pandas
27 pages
DW Lab File
No ratings yet
DW Lab File
18 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Exp 3
No ratings yet
Exp 3
10 pages
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
No ratings yet
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
9 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet

Data Wrangling Notebook Summary

Uploaded by

Data Wrangling Notebook Summary

Uploaded by

Data Wrangling Notebook Summary

This notebook presents different data wrangling techniques used commonly

from IPython.display import display

# base list of attributes

# introduce missing values

# create data frame

print("Column Data Types::\n",df.dtypes)

print("Columns with Missing Values::",df.columns[df.isnull().any()].tolist())

print("Number of rows with Missing Values::",len(pd.isnull(df).any(1).nonzero()

print("Sample Indices with missing data::",pd.isnull(df).any(1).nonzero()[0].tolist()[0:5])

print("Dataframe Sample Rows::")

4. Sample Dataset Generation

### Rename Columns

### Sort Rows on defined attributes

### Rearrange Columns in a Dataframe

### Filtering Columns

Using Column Index

Using Column Name

Using Column Datatype

### Filtering Rows

Select specific rows

Exclude Specific Row indices

Offset from top of the dataframe

Offset from bottom of the dataframe

### TypeCasting/Data Type Conversion

### Apply/Map Usage

Apply: Using apply to get attribute ranges

Applymap: Extract week from date

### Missing Values

Drop Rows with missing dates

Fill Missing Price values with mean price

Drop Duplicate serial_no rows

### Encode Categoricals

One Hot Encoding using get_dummies()

### Random Sampling data from DataFrame

### Normalizing Numeric Values

Normalize price values using **Min-Max Scaler**

Normalize quantity purchased values using **Robust Scaler**

### Data Summarization

Condition based aggregation

Condtion based counts

Group By certain attributes

Group By with different aggregate functions

Group by specific aggregate functions for each attribute

Group by with multiple agg for each attribute

### Stack a Dataframe

6. Data Wrangling Code

# print 10 values from column at index 3

# print 10 values of quantity purchased

# print 10 values of columns with data type float

df['purchase_week'] = df[['date']].applymap(lambda dt:dt.week

display(df.sample(frac=0.2, replace=True, random_state=42).head())

You might also like

Normalize price values using Min-Max Scaler

Normalize quantity purchased values using Robust Scaler