DIFFERENCES

The document outlines key differences between supervised and unsupervised learning, classification and regression, as well as normalization and standardization in machine learning. It also details techniques for data cleaning, including handling missing data, removing duplicates, managing outliers, and encoding categorical variables. The document emphasizes the importance of preparing data for effective analysis and modeling.

Uploaded by

beverlineomondi827

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views3 pages

DIFFERENCES

Uploaded by

beverlineomondi827

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

DIFFERENCES

a) Supervised Learning vs. Unsupervised Learning

Supervised Learning uses labeled data where the algorithm learns from input-
output pairs to make predictions. Example: Predicting house prices based on
historical data.
Unsupervised Learning works with unlabeled data, identifying hidden patterns
without predefined outputs. Example: Grouping customers based on purchasing
behavior.
b) classification and regression .

Classification is a type of supervised machine learning task where the goal is to

predict a discrete label/category. It classifies input data into one or more classes.
E.g. Image recognition
While
Regression is a type of machine learning task where the goal is to predict a
continuous output value, typically numerical. E.g. house price prediction
c) Normalization and standardization
Normalization changes values to fit within a specific range (e.g., 0–1).
After normalization, all feature values will be within the specified range (e.g., [0,
1]).
while
Standardization changes values to have a mean of 0 and standard deviation of 1.
After standardization, the mean of each feature will be 0, and the standard
deviation will be 1.
Techniques for data cleaning
1. Handling Missing Data
Remove Missing Values: If missing values are few, rows or columns with missing
values can be dropped.
Imputation: Fill missing values using techniques like:
Mean, median, or mode imputation.
Forward or backward fill (for time-series data).
Predictive imputation using machine learning models.
2. Removing Duplicates
Detecting and removing duplicate rows that may cause redundancy in analysis.
3. Handling Outliers
Use box plots or statistical methods like Z-score or IQR (Interquartile Range) to
detect outliers.
Possible actions:
Remove the outliers.
Transform or cap values (e.g., winsorization).
4. Data Type Conversion
Ensuring numerical values are stored as numbers and categorical values as
categories.
5. Standardizing Data Formats
Converting date formats (e.g., "01/02/2023" vs. "2023-02-01").
Ensuring consistent capitalization for text data (e.g., "New York" vs. "new york").
6. Handling Inconsistent Data
Correcting typos and inconsistencies (e.g., "Male" vs. "M" vs. "male").
Merging similar categories (e.g., "USA" and "United States").
7. Encoding Categorical Variables
Converting categorical variables into numerical form using:
One-Hot Encoding (e.g., converting "Red", "Blue", "Green" into binary features).
Label Encoding (assigning numeric labels like 0,1,2).
8. Removing Irrelevant Features
Dropping unnecessary columns (e.g., user IDs that don't contribute to prediction).
9. Handling Imbalanced Data
Using oversampling (e.g., SMOTE) or under sampling to balance class
distributions in classification problems.

Assignment 2 Group 1 Report
No ratings yet
Assignment 2 Group 1 Report
13 pages
Sent-Machine Learning For Data Science
100% (1)
Sent-Machine Learning For Data Science
463 pages
Overview of Data Mining Process
No ratings yet
Overview of Data Mining Process
43 pages
6 Data Preprocessing
No ratings yet
6 Data Preprocessing
37 pages
2 - Preprocessing
No ratings yet
2 - Preprocessing
74 pages
Big Data Lesson 2 Lucrezia Noli
No ratings yet
Big Data Lesson 2 Lucrezia Noli
21 pages
Statistics For Data Science - 1
100% (2)
Statistics For Data Science - 1
38 pages
CS1B April22 EXAM Clean Proof
No ratings yet
CS1B April22 EXAM Clean Proof
5 pages
Case Study - Churn Mdel Prediction
No ratings yet
Case Study - Churn Mdel Prediction
77 pages
Business Analytics Process and Data Exploration
No ratings yet
Business Analytics Process and Data Exploration
38 pages
Statistical Process Control & Cost of Quality
100% (2)
Statistical Process Control & Cost of Quality
114 pages
Steps of Implementation of A GLM
No ratings yet
Steps of Implementation of A GLM
8 pages
Data Prep and Cleaning For Machine Learning
No ratings yet
Data Prep and Cleaning For Machine Learning
22 pages
Image Quality Assessment and Statistical Evaluation: February 4, 2005
No ratings yet
Image Quality Assessment and Statistical Evaluation: February 4, 2005
25 pages
A Short Guide For Feature Engineering and Feature Selection
No ratings yet
A Short Guide For Feature Engineering and Feature Selection
32 pages
R Data Analysis
No ratings yet
R Data Analysis
10 pages
Sampling Distribution
No ratings yet
Sampling Distribution
32 pages
Machine Learning
No ratings yet
Machine Learning
6 pages
Chapter 14 Advanced Panel Data Methods: T T Derrorterm Complicate X y
No ratings yet
Chapter 14 Advanced Panel Data Methods: T T Derrorterm Complicate X y
13 pages
Logistic SPSS
100% (1)
Logistic SPSS
29 pages
WBS-2-Operations Analytics-W1S5-Practice-Problems-Solutions
No ratings yet
WBS-2-Operations Analytics-W1S5-Practice-Problems-Solutions
6 pages
Jawaban Soal MTK
No ratings yet
Jawaban Soal MTK
22 pages
Poisson Mixture Models
No ratings yet
Poisson Mixture Models
21 pages
Pearson Correlation Coefficient
No ratings yet
Pearson Correlation Coefficient
12 pages
Hita Akuntansi Dan Keuangan Universitas Hindu Indonesia Edisi Juli 2020
No ratings yet
Hita Akuntansi Dan Keuangan Universitas Hindu Indonesia Edisi Juli 2020
25 pages
Methods of Determining Reliability
No ratings yet
Methods of Determining Reliability
22 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
20.3 Project Management: Revisiting The Reliable Construction Co. Case Study
No ratings yet
20.3 Project Management: Revisiting The Reliable Construction Co. Case Study
8 pages
4-14 - 21 - Fathia Azzahra Madjid - Latbab3
No ratings yet
4-14 - 21 - Fathia Azzahra Madjid - Latbab3
6 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Nassim Taleb 5% P-Values
No ratings yet
Nassim Taleb 5% P-Values
4 pages
QM 3 Multiple Regression 1
No ratings yet
QM 3 Multiple Regression 1
48 pages
Homework 13 - Solution
No ratings yet
Homework 13 - Solution
3 pages
BANA 560 - Lecture - 2 - Data - Mining - Overview - Data - Exploration
No ratings yet
BANA 560 - Lecture - 2 - Data - Mining - Overview - Data - Exploration
38 pages
Astronomical Statistics: Tutorial Questions 1: John Peacock
No ratings yet
Astronomical Statistics: Tutorial Questions 1: John Peacock
2 pages
Empirical Support For A Model of Well-Being, Meaning in Life, Importance of Religion, and Transcendent Experiences
No ratings yet
Empirical Support For A Model of Well-Being, Meaning in Life, Importance of Religion, and Transcendent Experiences
20 pages
Beta Calcutaion SPSS
No ratings yet
Beta Calcutaion SPSS
3 pages
Module 4 - Study Material - Overview of Predictive Analytics
No ratings yet
Module 4 - Study Material - Overview of Predictive Analytics
15 pages
Machine Learning
No ratings yet
Machine Learning
16 pages
HEART DISEASE PREDICTION Using MACHINE LEARNING ALGORITHM Presentation
No ratings yet
HEART DISEASE PREDICTION Using MACHINE LEARNING ALGORITHM Presentation
15 pages
Tyre
No ratings yet
Tyre
3 pages
MLfinal 1
No ratings yet
MLfinal 1
7 pages
Unit 3
No ratings yet
Unit 3
55 pages
Machine Learning
No ratings yet
Machine Learning
28 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
No ratings yet
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
53 pages
Machine Learning
No ratings yet
Machine Learning
42 pages
Chapter 02 Overview - 4
No ratings yet
Chapter 02 Overview - 4
43 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Unit 1,2,3
No ratings yet
Unit 1,2,3
30 pages
Oe Cae 3
No ratings yet
Oe Cae 3
7 pages
CH05 Business Analytics Process and Data Exploration
No ratings yet
CH05 Business Analytics Process and Data Exploration
37 pages
Computer 1st To 3rd Unit
No ratings yet
Computer 1st To 3rd Unit
22 pages
HW1: Descriptive Statistics-Percentages and Central Tendency
No ratings yet
HW1: Descriptive Statistics-Percentages and Central Tendency
2 pages
Fam Question Bank CT
No ratings yet
Fam Question Bank CT
14 pages
Each Stage of A Data Mining Project
No ratings yet
Each Stage of A Data Mining Project
5 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Statistics For Data Science
No ratings yet
Statistics For Data Science
39 pages
ML 1 PPT Unit 1
No ratings yet
ML 1 PPT Unit 1
93 pages
W03 - AI Data Handling
No ratings yet
W03 - AI Data Handling
47 pages
Steps To Create Data Sets and Developing A Machine Learning Model
No ratings yet
Steps To Create Data Sets and Developing A Machine Learning Model
3 pages
MLE
No ratings yet
MLE
15 pages
Data Science Checklist
No ratings yet
Data Science Checklist
22 pages
ML Da
No ratings yet
ML Da
55 pages
Project - Handout
No ratings yet
Project - Handout
8 pages
Chap 3
No ratings yet
Chap 3
26 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Influence of Stages of Economic Development On Women Entrepreneurs' Startups
No ratings yet
Influence of Stages of Economic Development On Women Entrepreneurs' Startups
8 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
Machine Learning in PySpark
No ratings yet
Machine Learning in PySpark
18 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
DWDM PDF
No ratings yet
DWDM PDF
21 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
14.1 Data Preprocessing Class Imbalance and AUC Curve
No ratings yet
14.1 Data Preprocessing Class Imbalance and AUC Curve
5 pages
Module 2-b Prediction Methods and Models-Data Preperation
No ratings yet
Module 2-b Prediction Methods and Models-Data Preperation
26 pages
Group 1 CIN-Act QN (A)
No ratings yet
Group 1 CIN-Act QN (A)
3 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
No ratings yet
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
20 pages
CLS565 - Sprin 2025
No ratings yet
CLS565 - Sprin 2025
4 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Data Analytics Unit4 FullNotes
No ratings yet
Data Analytics Unit4 FullNotes
4 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
6 pages
Classification
No ratings yet
Classification
5 pages

DIFFERENCES

Uploaded by

DIFFERENCES

Uploaded by

DIFFERENCES

a) Supervised Learning vs. Unsupervised Learning

Classification is a type of supervised machine learning task where the goal is to

You might also like