0% found this document useful (0 votes)

8 views48 pages

SCA - Module 3

This document discusses various techniques for data preparation, preprocessing, and transformation. It covers topics like data cleaning to handle missing values, noise and outliers. It also discusses data integration, reduction through sampling and feature selection, and transformation through scaling and standardization.

Uploaded by

mahnoor

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views48 pages

SCA - Module 3

Uploaded by

mahnoor

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 48

Data preparation, preprocessing

and transformation
Week 3
SC analytics

▪ Issues with Data

▪ Data Cleaning, dealing with missing values, noise and outliers
▪ Data Integration, removing inconsistencies, and deduplication
▪ Data Reduction - Sampling and Feature Selection
▪ Data Transformation - Scaling and Standardization, Numeric
Transformation

2
Data preprocessing

▪ Data preprocessing is a very important step

▪ It helps improve quality of data
▪ Makes the data ready and more suitable for analytics
▪ Should be followed and guided by a thorough EDA
▪ EDA helps identify quality issues in data that are dealt with in this
step
3
Issues with the data

4
Steps in preprocessing
▪ Steps and processes are performed when necessary

5
Data cleaning

▪ Also called data scrubbing, data munging, data wrangling

▪ Dealing with Missing values
▪ Noise Smoothing
▪ Correcting Inconsistencies
▪ Identifying Outliers

6
Data cleaning: Missing values

7
Data cleaning: Missing values
Knowing why and how data is missing could help in data imputation
Missing Completely at Random (MCAR)
▪ Missingness independent of any observed or unobserved variables
Missing at Random (MAR)
▪ Missingness independent of missing values or unobserved variables
▪ Missingness depend on observed variables with complete info
Missing Not at Random (MNAR)
▪ Missingness depends on the missing values or unobserved variable

8
No systematic differences exist
Data cleaning: Missing values; MCAR between participants with missing data
and those with complete data

9
The data are missing is systematically
related to the observed data but not the
Data cleaning: Missing values; MAR unobserved data

10
The data are missing is systematically related to
the unobserved data.
Data cleaning: Missing values; MNAR

11
Data Cleaning: Dealing with missing values

12
Advanced techniques for imputing missing values
▪ Expectation Maximization Imputation
Data Cleaning: Data imputation ▪ Regression based Imputation

▪ Manually fill in, works for small data and few missing values
▪ Use a global constant, e.g. Unknown, or ∞
▪ Substitute a measure of central tendency, e.g. mode, mean or median
▪ Missed Quiz: student mean, class mean, class mean in this or all quizzes, the student
mean in remaining quizzes
▪ Cricket DLS system
▪ Use class-wise mean or median
▪ for missing players score in a match, use player’s average, average of Pak batsmen,
average of Pak batsmen against India, average of middle order Pak batsmen again
India in Summer in Sharjah
▪ Use average of top k similar objects >> based on non-missing attributes
▪ can be weighted by similarity average of all other data objects

13
Data Cleaning: Noise

14
Data Cleaning: Noise
Dealing with noise
▪ Smoothing by Binning
▪ Essentially replace each value by the average of values in the bin
▪ Could be mean, median, midrange etc. of values in the bin
▪ Could use equal width or equal depth (sized) bins
▪ Smoothing by local neighborhoods
▪ k-nearest neighbors, blurring, boundaries
▪ Smoothing is also used for data reduction and discretization
▪ Smoothing Time Series
▪ Moving Average
▪ Divide by variance of each period/cycle

15
Data Cleaning: Correction of inconsistencies

16
Data Cleaning: Identifying Outliers
Outliers are either
▪ Objects that have characteristics substantially different from most other data
>> the object is an outlier
▪ Value of a variable that is substantially different than the variable’s typical values
>> the feature value is an outlier
▪ Unlike noise, outliers can be legitimate data or values
▪ Outliers could be points of interest
▪ Consider students record in LMS, what values of age could be
▪ noise
▪ inconsistency
▪ outlier
17
Data Integration

18
Data Integration
Entity Identification Problem: Objects do not have same IDs in all
sources
▪ e.g. Sentiment analysis on cricket match tweets to assess player contribution
Network Reconciliation Project
▪ Schema Integration
▪ Object Matching
▪ Make sure that player ID in cricinfo dataset is the same as player code in PCB data
(source of domestic games)
▪ Check metadata, names of attributes, range, data types and formats

19
Data Integration
Object Duplication: instance/object may be duplicated
▪ Occasionally two or more object can have all feature values identical, yet
they could be different instances
▪ e.g. two students with the same grades in all courses Integration

20
Data Integration

21
Data Integration

Data Value Conflict Detection and Resolution

▪ Sometimes there are two conflicting values in different sources
▪ e.g. name is spelled differently in educational and NADRA’s record
▪ This might require expert knowledge

22
Data reduction
▪ Apart from duplicates removal etc. ▪ Helps reduce computational
▪ Some-time we do not need all the complexity
data ▪Make data visualization more
▪ We reduce the data in either direction effective

▪ Reduce instances ▪Get a representative sample of data

▪ Reduce dimensions

23
Data Reduction: Sampling
Sampling that results in each person
having the same chance of being
selected

A random sample is a subset of

individuals chosen from a
larger set and a subset of
individuals are chosen
randomly, all with the same
probability

24
Data Reduction: Sampling

25
Data Reduction: Sampling
Imbalanced Classes: Classes or groups have huge difference in frequencies
and the target class is rare
▪ Medical diagnosis: 95% healthy, 5% diseased
▪ eCommerce: 99% do not buy, 1% buy
▪ Security: > 99.99% of people are not terrorists
▪ Similar situation with multiple classes
▪ Predictions can be 97% correct, but useless
▪ Requires special sampling methods

26
Data Reduction: Feature selection
▪ More importantly, one does dimensionality reduction
▪ Curse of Dimensionality (problems associated with high dimensions and
difficulties in dealing with higher dimensional vectors)
▪ We might discuss these techniques for dimensionality reduction (if time
permits)
▪ Locality Sensitive Hashing
▪ Johnson-Lindenstrauss Transform
▪ PCA and SVD diagnosis

27
Data Reduction: Feature selection and extraction

28
Data Transformation

29
Data Transformation

30
Standardization and Scaling

▪ The goal is to make an entire set of values have a particular property

▪ e.g. variables to have the same range, same unit
▪ to shift the data to a manageable range e.g. shifting to positive
▪ Variety of possibilities for different applications

31
Standardization and Scaling

Scaling data so it falls in a smaller, comparable or manageable range

▪ Data could be in different units e.g. kilometers and miles
▪ Units might not be known
▪ Small units means larger values and larger ranges
▪ All attributes will get the same weight
▪ Huge implications in distance values (see clustering & recommenders)

32
MIN-MAX Scaling

33
MIN-MAX Scaling

34
z-Score Normalization

35
Other families of Normalization

36
Reasons for Transformation

37
Reasons for Transformation

38
Reasons for Transformation

39
Reasons for Transformation

40
Common Transformation

41
Logarithms

42
Logarithms

43
Cube Root

44
Square Root

45
Reciprocal and Negative Reciprocal

46
Left Skewed Data: Squares and higher powers

47
Transformation to make linear relationship

Project LDA
100% (1)
Project LDA
32 pages
Data Science - Module 1.3
No ratings yet
Data Science - Module 1.3
34 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
T Test Formula
100% (1)
T Test Formula
2 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Research - Title Defense
No ratings yet
Research - Title Defense
17 pages
Chapter 1
100% (1)
Chapter 1
75 pages
Chapter 3 Data Preparation
100% (1)
Chapter 3 Data Preparation
34 pages
ED 801 Module 4 Answers
100% (1)
ED 801 Module 4 Answers
23 pages
Lecture 17 Control Charts
100% (1)
Lecture 17 Control Charts
26 pages
Select Study Sites Appropriately: Research Locale
No ratings yet
Select Study Sites Appropriately: Research Locale
48 pages
Final Examination in Statistics and Probability
100% (15)
Final Examination in Statistics and Probability
2 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Maths SMILE - Manas Boolani
100% (1)
Maths SMILE - Manas Boolani
4 pages
Topic 1 - Estimating Market Risk Measures Answer
No ratings yet
Topic 1 - Estimating Market Risk Measures Answer
22 pages
Preprocessing Techniques
No ratings yet
Preprocessing Techniques
63 pages
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
No ratings yet
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
85 pages
Chi Square Distribution
No ratings yet
Chi Square Distribution
4 pages
3 DSEngineering
No ratings yet
3 DSEngineering
64 pages
BIS 541 Ch03 20-21 S
No ratings yet
BIS 541 Ch03 20-21 S
86 pages
COS10022 - Lecture 03 - Data Preparation PDF
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
61 pages
Unit - II
No ratings yet
Unit - II
56 pages
DM Chapter 3
No ratings yet
DM Chapter 3
60 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
Preprocessing
No ratings yet
Preprocessing
62 pages
Week 2
No ratings yet
Week 2
96 pages
Data Mining and Business Intelligence
No ratings yet
Data Mining and Business Intelligence
52 pages
Normalization
No ratings yet
Normalization
35 pages
DAI101 4 Data Preparation
No ratings yet
DAI101 4 Data Preparation
45 pages
Unit 3.2
No ratings yet
Unit 3.2
45 pages
MATH103 M2 Data Presentation
No ratings yet
MATH103 M2 Data Presentation
43 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Unit I
No ratings yet
Unit I
57 pages
Data Mining
No ratings yet
Data Mining
40 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
01 Skeweness, Freq Dist
No ratings yet
01 Skeweness, Freq Dist
47 pages
Lec 15 Layout Strategy
No ratings yet
Lec 15 Layout Strategy
54 pages
Portfolio Models-Introduction: I I I J I I J Ij I II I II I I
No ratings yet
Portfolio Models-Introduction: I I I J I I J Ij I II I II I I
23 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
3.3 Percentiles and Box-and-Whisker Plots
No ratings yet
3.3 Percentiles and Box-and-Whisker Plots
16 pages
Lec 11 12 Capacity Planning
No ratings yet
Lec 11 12 Capacity Planning
44 pages
Unit - 1 Data Preprocessing
No ratings yet
Unit - 1 Data Preprocessing
66 pages
03 Preprocessing
No ratings yet
03 Preprocessing
59 pages
Preprocessing-Cleaning & Reduction
No ratings yet
Preprocessing-Cleaning & Reduction
42 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Disruptive Technologies DA Lecture 8
No ratings yet
Disruptive Technologies DA Lecture 8
17 pages
Data Mining P5
No ratings yet
Data Mining P5
32 pages
Lec 3 4 Forecasting
No ratings yet
Lec 3 4 Forecasting
50 pages
Lecture6a DataPreprocessing
No ratings yet
Lecture6a DataPreprocessing
52 pages
SCA - Module 7
No ratings yet
SCA - Module 7
47 pages
HIT391-week 3-New
No ratings yet
HIT391-week 3-New
43 pages
Data Preprocessing (Sagar)
No ratings yet
Data Preprocessing (Sagar)
31 pages
Chi Square
No ratings yet
Chi Square
39 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
SCA - Module 5
No ratings yet
SCA - Module 5
37 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
Lecture#2 Data Mining MS (DEIM) Spring 2025
No ratings yet
Lecture#2 Data Mining MS (DEIM) Spring 2025
61 pages
Lec 13 Location Strategies
No ratings yet
Lec 13 Location Strategies
25 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
2017 - Semester Test 2 - Memo - BES 220
No ratings yet
2017 - Semester Test 2 - Memo - BES 220
19 pages
ISE233 Lecture 3
No ratings yet
ISE233 Lecture 3
21 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
Insy662 - f23 - Week 1
No ratings yet
Insy662 - f23 - Week 1
21 pages
Data Science Unit I (LN and QB)
No ratings yet
Data Science Unit I (LN and QB)
44 pages
Week 3
No ratings yet
Week 3
23 pages
DSV-S8 Data Cleaning
No ratings yet
DSV-S8 Data Cleaning
34 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
Chapter 2 The Model Matrix and Random Effects - Bayesian Hierarchical Models in Ecology
No ratings yet
Chapter 2 The Model Matrix and Random Effects - Bayesian Hierarchical Models in Ecology
18 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Study+Material+Unit 4+Data+Preprocessing+
No ratings yet
Study+Material+Unit 4+Data+Preprocessing+
8 pages
Data Preprocessingedfgh
No ratings yet
Data Preprocessingedfgh
21 pages
Econ G2 Final
No ratings yet
Econ G2 Final
10 pages
Pakistan Textile Industry Facing New Challenges
No ratings yet
Pakistan Textile Industry Facing New Challenges
10 pages
Inventory Management SLA
No ratings yet
Inventory Management SLA
15 pages
Chap 3
No ratings yet
Chap 3
26 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
No ratings yet
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
16 pages
Specification Variable in Econometrics
No ratings yet
Specification Variable in Econometrics
15 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
Lecture 3 - Data Preprocessing
No ratings yet
Lecture 3 - Data Preprocessing
50 pages
Organisational Structures and Vocational Training Provision
No ratings yet
Organisational Structures and Vocational Training Provision
8 pages
Statistics Problems: Measures of Central Tendency
No ratings yet
Statistics Problems: Measures of Central Tendency
13 pages
Assignment 1
No ratings yet
Assignment 1
3 pages
STA3043S Test 1 2019 - Solutions
No ratings yet
STA3043S Test 1 2019 - Solutions
6 pages
Laboratory Probability and Statistics 20 21 Errata Corrected
No ratings yet
Laboratory Probability and Statistics 20 21 Errata Corrected
10 pages
HM6007 T2.2024 Group Assignment - MidTerm-V1
No ratings yet
HM6007 T2.2024 Group Assignment - MidTerm-V1
6 pages
Reg No. 2032
No ratings yet
Reg No. 2032
2 pages
Ribs
No ratings yet
Ribs
12 pages
TJC H2 Maths P2
No ratings yet
TJC H2 Maths P2
7 pages
Bioinformatics: Missing Value Estimation Methods For DNA Microarrays
No ratings yet
Bioinformatics: Missing Value Estimation Methods For DNA Microarrays
6 pages
Bazaar Universe Guide
No ratings yet
Bazaar Universe Guide
7 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
AIR Campus-Drive-Letter 2017
No ratings yet
AIR Campus-Drive-Letter 2017
1 page
Name: Reg No: 2016202 Section: B: Maheen Ashraf
No ratings yet
Name: Reg No: 2016202 Section: B: Maheen Ashraf
1 page
Multistage Sampling: BMJ (Online) July 2015
No ratings yet
Multistage Sampling: BMJ (Online) July 2015
3 pages
c9a09ASSIGNMENT 2
No ratings yet
c9a09ASSIGNMENT 2
2 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet

SCA - Module 3

Uploaded by

SCA - Module 3

Uploaded by

Data preparation, preprocessing

▪ Issues with Data

▪ Data preprocessing is a very important step

▪ Also called data scrubbing, data munging, data wrangling

Data Value Conflict Detection and Resolution

▪ Reduce instances ▪Get a representative sample of data

A random sample is a subset of

▪ The goal is to make an entire set of values have a particular property

Scaling data so it falls in a smaller, comparable or manageable range

You might also like