0% found this document useful (0 votes)

37 views9 pages

Data Preprocessing: G.A.Putri Saptawati

Data preprocessing techniques are used to improve the quality of data mining results. These techniques include data cleaning to handle missing values and noise, data integration to combine data from multiple sources, data transformation to consolidate data into appropriate forms for mining, and data reduction to reduce the volume of data while maintaining integrity. The goal of these preprocessing steps is to address issues like incomplete, noisy, and inconsistent data that could influence data mining processes and pattern detection.

Uploaded by

Dito Kartiko

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views9 pages

Data Preprocessing: G.A.Putri Saptawati

Uploaded by

Dito Kartiko

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

Data Preprocessing

G.A.Putri Saptawati

The need of data preprocessing

Problems

with huge real-world database

Incomplete data : missing value

Noisy
Inconsistent

Influence data mining process, especially pattern

mined

Techniques
Data

cleaning
Data integration
Data transformation
Data reduction
Improve the quality of the pattern mined
and/or the time required for the actual mining
3

Data Cleaning Missing values

Tuples have no recorded value for several
attributes
Ignore the tuple
Fill in the missing value

Using global constant

Using measured values : attribute mean, most
probable value

Data Cleaning Noisy

Random error or variance in a measured
variable
Binning
smooth a sorted data value by consulting
its neighborhood
local smoothing

Clustering

Detect the outliers by grouping similar

values
Regression
smooth data by fitting data to a function,
such as regression
linear regression, multiple linier regression
6

Data Integration

Combine data from multiple sources into coherent

data store
Schema integration: entity identification problem
Redundancy: detected by correlation analysis
Detection & resolution of data value conflict:
semantic heterogenity & different representation

Data Transformation
Data

are transformed or consolidated into

forms appropriate for mining
Involve:

Smoothing
Aggregation
Generalisation
Normalisation

Data Reduction
Reduce

representation of data set that is

much smaller in volume, while maintains the
integrity of the original data.
Strategies:

Data cube aggregation

Dimension reduction
Data compression

03preprocessing Part1
No ratings yet
03preprocessing Part1
21 pages
Chap 8 Data Preprocessing - Short
No ratings yet
Chap 8 Data Preprocessing - Short
7 pages
Data Preprocessing
No ratings yet
Data Preprocessing
5 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
UNIT 2 Data Warehousing
No ratings yet
UNIT 2 Data Warehousing
45 pages
Data Handling and Visualization 3rd Unit
No ratings yet
Data Handling and Visualization 3rd Unit
4 pages
DWM
No ratings yet
DWM
14 pages
Data Mining UNIT II
No ratings yet
Data Mining UNIT II
19 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
14 pages
Module2 DataPreprocessing
No ratings yet
Module2 DataPreprocessing
27 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
A Comprehensive Approach Towards Data Preprocessing Techniques & Association Rules
No ratings yet
A Comprehensive Approach Towards Data Preprocessing Techniques & Association Rules
9 pages
Data Processing
No ratings yet
Data Processing
14 pages
Notes - Unit01 - Data Science and Big Data Analytics
No ratings yet
Notes - Unit01 - Data Science and Big Data Analytics
7 pages
Unit 3
100% (1)
Unit 3
22 pages
IOT-Domain Analyst
No ratings yet
IOT-Domain Analyst
23 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
Data Mining
No ratings yet
Data Mining
22 pages
UNIT 3 Data Preprocessing
No ratings yet
UNIT 3 Data Preprocessing
22 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Data Preprocessing
No ratings yet
Data Preprocessing
48 pages
Major Data Preprocessing Tasks
No ratings yet
Major Data Preprocessing Tasks
11 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
38 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
633777800398832500ata Minig Presentation
No ratings yet
633777800398832500ata Minig Presentation
20 pages
Unit 3 DW
No ratings yet
Unit 3 DW
19 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Data Preprocessing for Analysts
No ratings yet
Data Preprocessing for Analysts
3 pages
Lecture 2 DM
No ratings yet
Lecture 2 DM
11 pages
DMDW Chapter 3
No ratings yet
DMDW Chapter 3
13 pages
Data Cleaning Preprocessing
No ratings yet
Data Cleaning Preprocessing
28 pages
OJCST Vol13 N2-3 P 78-81
No ratings yet
OJCST Vol13 N2-3 P 78-81
4 pages
Correlation
No ratings yet
Correlation
14 pages
Unit 2
No ratings yet
Unit 2
16 pages
Data Mining
No ratings yet
Data Mining
9 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
UNIT-2 Data Pre-Processing
No ratings yet
UNIT-2 Data Pre-Processing
57 pages
Data Cleaning
No ratings yet
Data Cleaning
6 pages
Chapter-3 Data Processing
No ratings yet
Chapter-3 Data Processing
54 pages
Lect 4
No ratings yet
Lect 4
30 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
11 pages
DM Unit 1
No ratings yet
DM Unit 1
18 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Data Preprocessing
No ratings yet
Data Preprocessing
13 pages
Lossless Scaling in Data Preprocessing
No ratings yet
Lossless Scaling in Data Preprocessing
13 pages
Chapter 3& 4
No ratings yet
Chapter 3& 4
60 pages
Types of Attributes in Data Analysis
No ratings yet
Types of Attributes in Data Analysis
5 pages
STA513-11 Analisis Regresi Berganda
No ratings yet
STA513-11 Analisis Regresi Berganda
47 pages
Human Resource Management Payroll System
No ratings yet
Human Resource Management Payroll System
40 pages
2023 AA DAS Quick Start Guide
No ratings yet
2023 AA DAS Quick Start Guide
8 pages
Lecture 10 Correlation
No ratings yet
Lecture 10 Correlation
32 pages
JD - Data Scientist
No ratings yet
JD - Data Scientist
4 pages
Language Features in Research Articles
No ratings yet
Language Features in Research Articles
10 pages
Advanced Data Analytics and Visualization Course Material
No ratings yet
Advanced Data Analytics and Visualization Course Material
45 pages
ANOVA Lecture Notes: Analysis of Variance
No ratings yet
ANOVA Lecture Notes: Analysis of Variance
34 pages
Unit 3 Notes
No ratings yet
Unit 3 Notes
5 pages
01 - 05 - Feature Selection For Traffic Analysis - en
No ratings yet
01 - 05 - Feature Selection For Traffic Analysis - en
4 pages
PROBLEM SENSING FOR TEACHERS AND MTs
No ratings yet
PROBLEM SENSING FOR TEACHERS AND MTs
91 pages
Variable Cost Behavior Analysis
No ratings yet
Variable Cost Behavior Analysis
23 pages
Dissertation Primary and Secondary Sources
100% (2)
Dissertation Primary and Secondary Sources
7 pages
Customer Analysis Template
No ratings yet
Customer Analysis Template
8 pages
SPSS Guide for Barnard Biology Students
No ratings yet
SPSS Guide for Barnard Biology Students
82 pages
Matrix Data Analysis Chart Overview
100% (1)
Matrix Data Analysis Chart Overview
6 pages
Bank Loan Case Study
No ratings yet
Bank Loan Case Study
26 pages
Data Mining for Business Insights
100% (1)
Data Mining for Business Insights
39 pages
Ashishpatel NEW CV
No ratings yet
Ashishpatel NEW CV
7 pages
2.1 ML (Implementation of Simple Linear Regression in Python)
No ratings yet
2.1 ML (Implementation of Simple Linear Regression in Python)
8 pages
Data Mining - DM 1-5 Question Bank
No ratings yet
Data Mining - DM 1-5 Question Bank
10 pages
Assignment 3 - Solution
No ratings yet
Assignment 3 - Solution
5 pages
Data Mining Notes 7th Sem
No ratings yet
Data Mining Notes 7th Sem
4 pages
Business Stats 2024 Q Paper June
No ratings yet
Business Stats 2024 Q Paper June
16 pages
Challenges Encountered and Mathematics Performance of Grade 11 Learners
No ratings yet
Challenges Encountered and Mathematics Performance of Grade 11 Learners
10 pages
EE708 Module 3A
No ratings yet
EE708 Module 3A
28 pages
AMR Concept Notes (Sessions 11-12)
No ratings yet
AMR Concept Notes (Sessions 11-12)
5 pages
The Role of Supply Chain Flexibility PDF
No ratings yet
The Role of Supply Chain Flexibility PDF
63 pages
Pudari Rahul Finance Resume
No ratings yet
Pudari Rahul Finance Resume
2 pages

Data Preprocessing: G.A.Putri Saptawati

Uploaded by

Data Preprocessing: G.A.Putri Saptawati

Uploaded by

Data Preprocessing

The need of data preprocessing

with huge real-world database

Incomplete data : missing value

Influence data mining process, especially pattern

Data Cleaning Missing values

Using global constant

Data Cleaning Noisy

Detect the outliers by grouping similar

Combine data from multiple sources into coherent

are transformed or consolidated into

representation of data set that is

Data cube aggregation

You might also like