Data Preprocessing

Uploaded by

Minha Islam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

64 views4 pages

Data Preprocessing

Uploaded by

Minha Islam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Assignment 1

Submitted by : Minha
Roll No: 21-CS-02
Submitted to: Ma’am Aziza

1
What is data preprocessing?
Data preprocessing is a process of preparing the raw data and making it suitable for a machine learning
model. It is the first and crucial step while creating a machine learning model.
When creating a machine learning project, it is not always a case that we come across the clean and
formatted data. And while doing any operation with data, it is mandatory to clean it and put in a
formatted way. So for this, we use data preprocessing task.
Why we need data preprocessing?

A real-world data generally contains noises, missing values, and maybe in an unusable format which
cannot be directly used for machine learning models. Data preprocessing is required tasks for cleaning
the data and making it suitable for a machine learning model which also increases the accuracy and
efficiency of a machine learning model.

It involves below steps:

o Getting the dataset

o Importing libraries
o Importing datasets
o Finding Missing Data
o Encoding Categorical Data
o Splitting dataset into training and test set
o Feature scaling

Best practices:

The best practices for data preprocessing in machine learning include:

Data Cleaning
Data cleaning, or data cleansing, is the process of detecting and correcting errors and inconsistencies in
a dataset to enhance its quality and reliability. This involves tasks such as removing duplicate records,
handling missing values through methods like imputation, correcting inconsistent data formats or
representations, standardizing data, removing outliers, transforming data into a suitable format for
analysis, and validating the accuracy of the data. It also includes correcting typos, misspellings, or
inconsistent naming conventions to ensure uniformity. Data cleaning is a vital step in the data
preparation process, ensuring the accuracy and quality of the data for meaningful analysis and
decision-making.

Categorize the Data

It is important to categorize the data as machine learning algorithms can only handle numerical values.
Categorizing the data will prevent problems at the later stages.

Data Reduction
Data reduction is the process of reducing the volume of data by eliminating irrelevant or redundant
information while preserving the integrity and meaningfulness of the data. The primary objective is to
obtain a smaller representation of the dataset that retains the essential characteristics of the original
data. Techniques for data reduction include dimensionality reduction, such as Principal Component
2
Analysis (PCA) and t-Distributed Stochastic Neighbor Embedding (t-SNE), data sampling methods
like random sampling and stratified sampling, data aggregation methods like averaging or summing
values, feature selection techniques, and data compression methods like wavelet transformation and
Singular Value Decomposition (SVD). Data reduction is essential in managing and analyzing large
datasets efficiently, making it more manageable and computationally less expensive.

Integrating
Integrate the data set and prepare the raw material for processing in the machine learning algorithm.

Data Preprocessing Example:

An example to explain data preprocessing is explained using the table below. Appropriate data
preprocessing techniques in machine learning will be applied to solve the problem.

Here in the table above, we can see that there are three variables, namely Name, Age and Gender. We
can see that #2 and #3 have been assigned the wrong gender.

We can use data cleaning here to remove the inappropriate data rows, as we know that this data is
already corrupt.

After data mining, the data table will look like:

Else, we can do manual data transformation, which will make the table look like this:

3
Once the issue is fixed, the next step is to perform data reduction by descending the age.

Now, the issue is fixed, and the data set is complete and ready to be used for machine learning models
and algorithms.

Data Cleaning Preprocessing
No ratings yet
Data Cleaning Preprocessing
28 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
03preprocessing Part1
No ratings yet
03preprocessing Part1
21 pages
Ch8 Data and Its Processing
No ratings yet
Ch8 Data and Its Processing
32 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
11 pages
1725892639module 3 The Machine Learning Process
No ratings yet
1725892639module 3 The Machine Learning Process
17 pages
Machine Learning Data Prep Guide
No ratings yet
Machine Learning Data Prep Guide
9 pages
Data Preprocessing Steps Explained
No ratings yet
Data Preprocessing Steps Explained
6 pages
Lecture 2 DM
No ratings yet
Lecture 2 DM
11 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
Data Handling and Visualization 3rd Unit
No ratings yet
Data Handling and Visualization 3rd Unit
4 pages
CMR BDA Data Pre Processing
No ratings yet
CMR BDA Data Pre Processing
10 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
38 pages
Data Pre-processing Guide
No ratings yet
Data Pre-processing Guide
8 pages
7 Data Preprocessing Steps in Machine Learning
No ratings yet
7 Data Preprocessing Steps in Machine Learning
5 pages
Data Preparation for Machine Learning
No ratings yet
Data Preparation for Machine Learning
34 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
18 pages
Topic-2 ML Concepts
No ratings yet
Topic-2 ML Concepts
9 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
Unit 2 DA
No ratings yet
Unit 2 DA
3 pages
Lecture No 2 Data Preparation
No ratings yet
Lecture No 2 Data Preparation
23 pages
Data Processing
No ratings yet
Data Processing
14 pages
Data Preprocessing: Clean, Transform, Integrate
No ratings yet
Data Preprocessing: Clean, Transform, Integrate
6 pages
Machine Learning Chapter 2
No ratings yet
Machine Learning Chapter 2
37 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
14 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
DS Module2 L3 L13
No ratings yet
DS Module2 L3 L13
43 pages
Data Preprocessing
No ratings yet
Data Preprocessing
5 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
3 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
Data Preprocessing
No ratings yet
Data Preprocessing
2 pages
Bi Unit 4
No ratings yet
Bi Unit 4
19 pages
Data Cleaning Techniques in Data Science
No ratings yet
Data Cleaning Techniques in Data Science
44 pages
Data Preparation For Machine Learning Mo
No ratings yet
Data Preparation For Machine Learning Mo
5 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
32 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Data Preprocessing Simple
No ratings yet
Data Preprocessing Simple
3 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
DWM
No ratings yet
DWM
14 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
Pre Processing
No ratings yet
Pre Processing
43 pages
Improve Model Accuracy With Data Pre-Processing
No ratings yet
Improve Model Accuracy With Data Pre-Processing
11 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
Presentation-2 Data Pre-Processing in Machine Learning
No ratings yet
Presentation-2 Data Pre-Processing in Machine Learning
11 pages
DMDW Chapter 3
No ratings yet
DMDW Chapter 3
13 pages
Chap 8 Data Preprocessing - Short
No ratings yet
Chap 8 Data Preprocessing - Short
7 pages
Ch03 DS-Unit-2 ABM Final
No ratings yet
Ch03 DS-Unit-2 ABM Final
143 pages
DS-Unit-2 ABM Final
No ratings yet
DS-Unit-2 ABM Final
134 pages
Unit - II
No ratings yet
Unit - II
56 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
4 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Python Data Preprocessing Guide
No ratings yet
Python Data Preprocessing Guide
11 pages
OJCST Vol13 N2-3 P 78-81
No ratings yet
OJCST Vol13 N2-3 P 78-81
4 pages
Multiple Diseases Prediction System Using ML
No ratings yet
Multiple Diseases Prediction System Using ML
12 pages
Induction Day 2 Slides - Sept 2024
No ratings yet
Induction Day 2 Slides - Sept 2024
21 pages
Engineering Graphics and Design March 2018
No ratings yet
Engineering Graphics and Design March 2018
69 pages
Quarter 1 English Week1 Day 3
No ratings yet
Quarter 1 English Week1 Day 3
4 pages
Chapter 4 Reflection
No ratings yet
Chapter 4 Reflection
4 pages
Language Learning Interview Study
100% (1)
Language Learning Interview Study
4 pages
Table of Specifications: Department of Education Division of Rizal District of Baras
No ratings yet
Table of Specifications: Department of Education Division of Rizal District of Baras
7 pages
Unanswered Activity Questions in Teaching
No ratings yet
Unanswered Activity Questions in Teaching
4 pages
Inductive Guided Inquiry
100% (3)
Inductive Guided Inquiry
12 pages
Research Methods in Education and The Social Sciences - View As Single Page
No ratings yet
Research Methods in Education and The Social Sciences - View As Single Page
7 pages
Lesson Plan
No ratings yet
Lesson Plan
5 pages
Bachelor of Architecture Program TUM
No ratings yet
Bachelor of Architecture Program TUM
2 pages
Complete Bundle Daviss Drug Guide For Nurses 19th Edition Vallerand HQ File
No ratings yet
Complete Bundle Daviss Drug Guide For Nurses 19th Edition Vallerand HQ File
401 pages
Scaffolding Handout
No ratings yet
Scaffolding Handout
1 page
Aspiring Data Scientist's Journey
No ratings yet
Aspiring Data Scientist's Journey
5 pages
Zambian Tech Education Boost
No ratings yet
Zambian Tech Education Boost
10 pages
Detailed Lesson Plan in Technical Drawing 7: Assemblywoman Felicita G. Bernardino Memorial Trade School
100% (2)
Detailed Lesson Plan in Technical Drawing 7: Assemblywoman Felicita G. Bernardino Memorial Trade School
4 pages
Grade 9 Arts Q3 M3 W5 8
No ratings yet
Grade 9 Arts Q3 M3 W5 8
9 pages
E-Version Ncbts
No ratings yet
E-Version Ncbts
66 pages
Rosemarie Ang-Ug Answers For Ge1
No ratings yet
Rosemarie Ang-Ug Answers For Ge1
2 pages
PEO Assessment for Accreditation in Korea
No ratings yet
PEO Assessment for Accreditation in Korea
14 pages
Multimedia Approach
100% (6)
Multimedia Approach
8 pages
Psychology Slow & Fast Learner
No ratings yet
Psychology Slow & Fast Learner
5 pages
Vacation Grammar and Vocabulary Lesson
No ratings yet
Vacation Grammar and Vocabulary Lesson
1 page
Classroom Assessment (Marzano, 2006)
No ratings yet
Classroom Assessment (Marzano, 2006)
5 pages
Algebra 1: Solving Equations
No ratings yet
Algebra 1: Solving Equations
5 pages
Classroom Music Lesson Plan
No ratings yet
Classroom Music Lesson Plan
2 pages
Central Role of Language in Education
100% (1)
Central Role of Language in Education
8 pages
2024 Grade 1 KLB Tusome Revised Edition English Language Scheme of Work Term 1 03 24 Jan 12 30 40
No ratings yet
2024 Grade 1 KLB Tusome Revised Edition English Language Scheme of Work Term 1 03 24 Jan 12 30 40
24 pages
Metacognitive Awareness Inventory Worksheet
No ratings yet
Metacognitive Awareness Inventory Worksheet
5 pages

Data Preprocessing

Uploaded by

Data Preprocessing

Uploaded by

Assignment 1

It involves below steps:

o Getting the dataset

The best practices for data preprocessing in machine learning include:

Categorize the Data

Data Preprocessing Example:

After data mining, the data table will look like:

You might also like