Week 2

The document discusses the 8 key steps in the data preparation process: data collection, cleaning, transformation, integration, reduction, splitting, formatting, and documentation. Common tasks in each step like handling missing values, feature engineering, merging datasets, and converting data types are described.

Uploaded by

MANISH P

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views3 pages

Week 2

Uploaded by

MANISH P

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

WEEK 2 BUSINESS DATA MINING

The data preparation process, also known as data preprocessing or data cleaning, is a
crucial step in data analysis and machine learning. It involves transforming raw data into
a clean, structured format suitable for analysis or modeling. Here are the detailed steps in
the data preparation process:

1. Data Collection:
- The first step in data preparation is collecting the raw data from various sources, such
as databases, files, APIs, or sensors. Ensure that the data collected is relevant to the
research or analysis objectives.

2. Data Cleaning:
- Data cleaning involves identifying and correcting errors, inconsistencies, and missing
values in the dataset. Common tasks in data cleaning include:
- Removing duplicates: Identifying and removing duplicate records or observations
from the dataset.
- Handling missing values: Dealing with missing values by imputing them using
techniques such as mean, median, mode imputation, or using predictive models to
estimate missing values.
- Correcting errors: Identifying and correcting errors in the data, such as typos,
outliers, or inconsistencies in formatting.
- Standardizing data: Standardizing data formats, units, and representations to ensure
consistency across the dataset.

3. Data Transformation:
- Data transformation involves converting the raw data into a format suitable for
analysis or modeling. Common tasks in data transformation include:
- Data encoding: Encoding categorical variables into numerical representations using
techniques such as one-hot encoding, label encoding, or ordinal encoding.
- Feature scaling: Scaling numerical features to a similar range to prevent certain
features from dominating others during analysis or modeling.
- Normalization: Normalizing data to ensure that it follows a specific distribution,
such as a normal distribution, by scaling data to have a mean of zero and a standard
deviation of one.
- Feature engineering: Creating new features or variables from existing ones to capture
additional information or improve model performance.

4. Data Integration:
- Data integration involves combining data from multiple sources or datasets into a
single, unified dataset. Common tasks in data integration include:
- Merging datasets: Combining datasets based on common identifiers or keys to create
a unified dataset.
- Joining tables: Joining tables or databases to consolidate related information into a
single dataset.
- Concatenating data: Appending rows or columns from multiple datasets to create a
larger dataset.

5. Data Reduction:
- Data reduction involves reducing the size or dimensionality of the dataset while
preserving its important characteristics. Common techniques in data reduction include:
- Dimensionality reduction: Reducing the number of features or variables in the
dataset using techniques such as principal component analysis (PCA) or feature selection
algorithms.
- Sampling: Sampling a subset of the data to reduce computational complexity or
address imbalance issues in the dataset.
- Aggregation: Aggregating data at a higher level of granularity to reduce the size of
the dataset while preserving key insights.

6. Data Splitting:
- Data splitting involves dividing the dataset into separate training, validation, and test
sets for model training, evaluation, and testing. Common splitting ratios include 70/30 or
80/20 for training and testing, respectively.
- Stratified sampling may be used to ensure that the distribution of target variables is
similar across the training and test sets, especially for classification tasks with
imbalanced classes.

7. Data Formatting:
- Data formatting involves formatting the dataset into a standardized format for analysis
or modeling. Common tasks in data formatting include:
- Reshaping data: Reshaping the dataset from wide to long format or vice versa to
facilitate analysis or modeling.
- Date/time conversion: Converting date/time variables into a standardized format to
enable temporal analysis.
- Data type conversion: Converting data types (e.g., from character to numeric) to
ensure compatibility with analysis or modeling algorithms.

8. Documentation and Metadata Creation:

- Documenting the data preparation process is essential for reproducibility and
transparency. Create metadata documentation that describes the dataset, its variables, data
cleaning and transformation steps, and any assumptions or decisions made during the
process.
By following these steps in the data preparation process, analysts and data scientists can
ensure that the dataset is clean, structured, and ready for analysis or modeling, leading to
more accurate and reliable insights and predictions.

Comptia Data+ Da0-001
No ratings yet
Comptia Data+ Da0-001
10 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
EBook - Data Science 4
No ratings yet
EBook - Data Science 4
14 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Taplin, O. (2007) Pots - Plays PDF
100% (2)
Taplin, O. (2007) Pots - Plays PDF
322 pages
FDM Notes
No ratings yet
FDM Notes
48 pages
Data Source Data Collection Method Tools
No ratings yet
Data Source Data Collection Method Tools
35 pages
Chương
No ratings yet
Chương
12 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
Praise and Worship Songbook
100% (2)
Praise and Worship Songbook
188 pages
Tabla de Los Tiempos Verbales Con There
89% (9)
Tabla de Los Tiempos Verbales Con There
2 pages
BI Unit 4
No ratings yet
BI Unit 4
21 pages
Chap 3
No ratings yet
Chap 3
26 pages
Screenshot 2025-04-09 at 10.35.12 AM
No ratings yet
Screenshot 2025-04-09 at 10.35.12 AM
31 pages
Unit 3
No ratings yet
Unit 3
22 pages
Big Data Day II
No ratings yet
Big Data Day II
38 pages
Unit 3 DW&DM Notes Mr. Rohit Pratap Singh
No ratings yet
Unit 3 DW&DM Notes Mr. Rohit Pratap Singh
22 pages
DM Unit2
No ratings yet
DM Unit2
9 pages
How Should Data Preparation Be Done For An Analytics Project
No ratings yet
How Should Data Preparation Be Done For An Analytics Project
30 pages
Data Science Tools Final
No ratings yet
Data Science Tools Final
11 pages
Unit 2 ML
No ratings yet
Unit 2 ML
14 pages
Experiment No. 5: Objective
No ratings yet
Experiment No. 5: Objective
5 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Question 4 Module
No ratings yet
Question 4 Module
26 pages
Unit 2 DWDM
No ratings yet
Unit 2 DWDM
14 pages
Week 3 - LAQ
No ratings yet
Week 3 - LAQ
2 pages
Data Mining Basics
No ratings yet
Data Mining Basics
52 pages
Data Mining UNIT II
No ratings yet
Data Mining UNIT II
19 pages
DAI101 4 Data Preparation
No ratings yet
DAI101 4 Data Preparation
45 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
Lec 01
No ratings yet
Lec 01
5 pages
DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
Key Ingredients of PM
No ratings yet
Key Ingredients of PM
16 pages
Data Mining Basics
No ratings yet
Data Mining Basics
38 pages
Introduction To Data Science Methodology
No ratings yet
Introduction To Data Science Methodology
45 pages
Week 3
No ratings yet
Week 3
23 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Data Visualization
No ratings yet
Data Visualization
5 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
Scratch Test
100% (1)
Scratch Test
3 pages
Assignment 4 MB511
No ratings yet
Assignment 4 MB511
6 pages
Week 3
No ratings yet
Week 3
2 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
Bana Reviewer
No ratings yet
Bana Reviewer
4 pages
Lesson 7 Data Description and Diagnostics
No ratings yet
Lesson 7 Data Description and Diagnostics
14 pages
Unit 3
No ratings yet
Unit 3
18 pages
Step by Step Data Wrangling
No ratings yet
Step by Step Data Wrangling
4 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Rakshana SN - LAQ Week 2 DA
No ratings yet
Rakshana SN - LAQ Week 2 DA
3 pages
Unit - 2
No ratings yet
Unit - 2
17 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
FDSMSE Imp
No ratings yet
FDSMSE Imp
6 pages
Rakshana SN - LAQ Week 3 DA
No ratings yet
Rakshana SN - LAQ Week 3 DA
3 pages
Data Handling and Visualization 3rd Unit
No ratings yet
Data Handling and Visualization 3rd Unit
4 pages
Unit-2 Data Warehouse Notes
No ratings yet
Unit-2 Data Warehouse Notes
11 pages
BI Unit 4 Final
No ratings yet
BI Unit 4 Final
2 pages
Unit 2
No ratings yet
Unit 2
11 pages
Data Mining Overview
No ratings yet
Data Mining Overview
4 pages
Prototype Theory and Meaning PDF
No ratings yet
Prototype Theory and Meaning PDF
405 pages
Eunice de Souza
No ratings yet
Eunice de Souza
3 pages
1100DW Manual Guide V2.0
No ratings yet
1100DW Manual Guide V2.0
24 pages
Spark Handbook, Module 5
No ratings yet
Spark Handbook, Module 5
26 pages
21-07-24 - SR - Iit - Star Co-Sc (Model-A) - Jee Adv - 2021 (P-I) - Wat-55 - QP
No ratings yet
21-07-24 - SR - Iit - Star Co-Sc (Model-A) - Jee Adv - 2021 (P-I) - Wat-55 - QP
20 pages
Schopenhauer, Arthur Singh, R. Raj Death, Contemplation and Schopenhauer PDF
100% (1)
Schopenhauer, Arthur Singh, R. Raj Death, Contemplation and Schopenhauer PDF
141 pages
Synthesis Essay Outline
100% (2)
Synthesis Essay Outline
2 pages
PurpComm Unit 1 Lesson 3
No ratings yet
PurpComm Unit 1 Lesson 3
34 pages
The Colossal Book of Mathematics Classic Puzzles Paradoxes and Problems First Printing Martin Gardner Download
No ratings yet
The Colossal Book of Mathematics Classic Puzzles Paradoxes and Problems First Printing Martin Gardner Download
88 pages
Aspnet Latest
No ratings yet
Aspnet Latest
737 pages
8086 Hardware Specification
100% (1)
8086 Hardware Specification
84 pages
Year 8 Common Programme 2025
No ratings yet
Year 8 Common Programme 2025
9 pages
NIV Appointment System YUSUF
No ratings yet
NIV Appointment System YUSUF
2 pages
H.265 1HDD 20ch NVR: TC-R3120 Spec: I/B/K/V3.0
No ratings yet
H.265 1HDD 20ch NVR: TC-R3120 Spec: I/B/K/V3.0
3 pages
PDF 20220904 234628 0000
No ratings yet
PDF 20220904 234628 0000
16 pages
We Will Magnify We Will Magnify
No ratings yet
We Will Magnify We Will Magnify
46 pages
Letter To God
No ratings yet
Letter To God
2 pages
Tercer Condicional
No ratings yet
Tercer Condicional
3 pages
Field Study 2 Reviewer
No ratings yet
Field Study 2 Reviewer
2 pages
Log 2
No ratings yet
Log 2
2 pages
Test 1101
No ratings yet
Test 1101
6 pages
Article Writing
No ratings yet
Article Writing
8 pages
Dxdiag Lumion
No ratings yet
Dxdiag Lumion
38 pages
Lost/Found in Translation: Qurratulain Hyder As Self-Translator
No ratings yet
Lost/Found in Translation: Qurratulain Hyder As Self-Translator
16 pages
Faisal Khan: Objective
No ratings yet
Faisal Khan: Objective
3 pages
Rubrik Penilaian Pembentangan
No ratings yet
Rubrik Penilaian Pembentangan
3 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
From Everand
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
WINTON CLEM
No ratings yet
Database Management System
From Everand
Database Management System
Manish Soni
No ratings yet

Week 2

Uploaded by

Week 2

Uploaded by

WEEK 2 BUSINESS DATA MINING

8. Documentation and Metadata Creation:

You might also like