0% found this document useful (0 votes)

8 views

Data Preprocessing and Linear Regression

The document discusses data preprocessing techniques like data cleaning, transformation, and reduction. It provides examples of handling missing data using imputation methods and removing outliers using boxplots. Linear regression concepts like finding the intercept, slope, cost function, and using gradient descent for optimization are explained. Advantages of linear regression like interpretability and disadvantages like susceptibility to overfitting are highlighted. Evaluation metrics like variance-bias tradeoff and overfitting vs underfitting are discussed.

Uploaded by

Raja

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views

Data Preprocessing and Linear Regression

Uploaded by

Raja

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 54

Mohamed Imran

-Data Scientist
Ganit Inc.
Data Preprocessing
Real World Data S.No Credit_rati Age Income Credit_car
ng ds
Any Problem? 1 0.00 21 10000 y

2 1.0 2500 n

3 2.0 62 -500 y

4 100.012 42 n

5 yes 200 1y

6 30 0 Seventy No
thousand
Data Preprocessing

● Data Cleaning
● Data Integration
● Data Reduction
● Data Transformation
Data Cleaning

1. Missing Data
● Central Imputation
● KNN Imputation
● 2. Noisy Data
● Smoothing
● Clustering
1. Outlier Removal
● Using Boxplot
Imputation
S.No Qualification Age Income
● Replace with mean or a median
1 B.Tech 25 30k
● When to use mean?
● Replace with nearest neighbour 2 M.Tech 30 50k
● How much nearest to see?
3 B.Tech 26 32k

4 B.Tech 25 ?

5 M.Tech 29 60k

6 B.Tech ? 30k
Outlier

● BoxPlot
Data Transformation

● Normalization

Min-max normalization
1. Min Max Normalization
2. Z - Score Normalization
3. Decimal scaling

Decimal scaling
v= v/10^j
Data Integration

● Check for correlation

● Remove uncorrelated data
Data Reduction

● Data Cube Aggregation

Relationship
x Y
2 8

6 20
Y = ????????? 4 14

3 11

7 23

4 14

2 8

5 17
Relationship
x Y
2 8

6 20
Y = 2 + 3(X) 4 14

3 11

7 23

4 14

2 8

5 17
What is 2 here?
x Y
2 8

6 20
Y = 2 + 3(X) 4 14

3 11

7 23

4 14

2 8

5 17
Find the Y in ? x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

4 14

2 8

5 17

10 ?
1 ?
Value for Y with given X x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

4 14

2 8

5 17

10 32
1 5
Terminology x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

Y = Model 4 14

2 8

5 17

10 32
1 5
Terminology x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

Y = Model 4 14

2 8
2 = Intercept
5 17

10 32
1 5
Terminology x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

Y = Model 4 14

2 8
2 = Intercept
5 17
3 = Slope
10 32
1 5
Terminology x Y
2 8

6 20

4 14

3 11
Y = 2 + 3(X)
7 23

Y = Model 4 14

2 8
2 = Intercept
5 17
3 = Slope
10 32
X = input
1 5
Formula for a line
Linear
Regression
Welcome to the world of data science
What is linear?
What is linear?

A Straight line
What is Regression?
What is Regression?

Relationship between two points

What is Linear Regression?
What is Linear Regression?

A Straight line that attempts to predict

the relationship between two points
Help me in finding the relationship?
x y

1 1

2 3

4 3

3 2

5 5
y = B0 + B1 * x
B1 = sum((xi-mean(x)) * (yi-mean(y))) / sum((xi – mean(x))^2)

B0 = mean(y) – B1 * mean(x)
x mean(x) x - mean(x) y mean(y) y - mean(y)

1 3 -2 1 2.8 -1.8
B1 = 8 / 10
2 3 -1 3 2.8 0.2

4 3 1 3 2.8 0.2
B1 = 0.8
3 3 0 2 2.8 -0.8
5 2.8 2.2
5 3 2 B0 = mean(y) – B1 * mean(x)

B0 = 2.8 – 0.8 * 3

x - mean(x) y - mean(y) Multiplicati or

on x - mean(x) squared
-2 -1.8 3.6 B0 = 0.4 -2 4
-1 0.2 -0.2 -1 1
y = B0 + B1 * x
1 0.2 0.2 1 1
0 -0.8 0 0 0
or
2 2.2 4.4 2 4

8 y = 0.4 + 0.8 * x 10
x y predicted y

1 1 1.2

2 3 2

4 3 3.6

3 2 2.8

5 5 4.4
RMSE = 0.692
Gradient Descent

Finding the optimum relationship

where the error is minimal.

Finding the intercept and coefficients

value.
Find the solution?

Any Suggestions?
Line of best fit

Ordinary least square line

Cost Function
Gradient Descent

Learning Rate

Momentum
Partial Derivative

Finding the direction of coefficient and

slope moves in.
Error Metrics
for Regression
Iteration Error
1 9.556915033600001
2 9.514033718864932
3 9.471355093177891
4 9.42887819847207
5 9.302648387373978
10 9.302648387373978
20 9.260968926175824
30 8.775918820666949
40 8.392252947074406
50 8.02634104901006
60 7.677361561773854
100 6.160260505649477
200 4.018554474422596
300 2.685046327855845
400 1.854748522005687
800 0.6906129091698867
1000 0.5644839798882763
1600 0.4891352315933852
Step 1

Step 2
Step 3
Step 4
Step 5
Advantage of Linear Regression

● Linear regression implements a

statistical model that, when
relationships between the independent
variables and the dependent variable
are almost linear, shows optimal
results.
● Best place to understand the data
analysis
● Easily Explicable
Disadvantages

● Linear regression is often

inappropriately used to model non-
linear relationships.
● Linear regression is limited to
predicting numeric output.
● A lack of explanation about what has
been learned can be a problem.
● Prone to bias variance problem
How to evaluate our model?
Overfitting vs Underfitting

Training Data(Less Error) Testing Data (More Error)

Overfitting vs Underfitting

Training Data (More Error) Testing (Still More Error)

Variance and Bias Trade off

Ideal Model should have Low varinance and Low Bias

CobraPLC s600 s800 PDF
No ratings yet
CobraPLC s600 s800 PDF
196 pages
Analysis of The Poem "Queer" by Frank Bidart Using Queer Theory
100% (2)
Analysis of The Poem "Queer" by Frank Bidart Using Queer Theory
2 pages
IQ Purified Water
100% (11)
IQ Purified Water
127 pages
CH 02 Ans
No ratings yet
CH 02 Ans
20 pages
04 Differential Equations Elementary Applications of ODE PDF
No ratings yet
04 Differential Equations Elementary Applications of ODE PDF
45 pages
Sample Assignment Questions with Solutions A2
No ratings yet
Sample Assignment Questions with Solutions A2
8 pages
324.22
No ratings yet
324.22
3 pages
Multicol
No ratings yet
Multicol
3 pages
Unit 5 Hard Mode
No ratings yet
Unit 5 Hard Mode
12 pages
Interpolation
No ratings yet
Interpolation
14 pages
H2 MYE Revision Package Differentiation Solutions
No ratings yet
H2 MYE Revision Package Differentiation Solutions
10 pages
Line and Circle Drawing Algorithms
No ratings yet
Line and Circle Drawing Algorithms
57 pages
App Ass1
No ratings yet
App Ass1
8 pages
M M Sec: Water
No ratings yet
M M Sec: Water
8 pages
30-Elliptic Curve Cryptography - 1-27-02-2024
No ratings yet
30-Elliptic Curve Cryptography - 1-27-02-2024
6 pages
Sys Sol
No ratings yet
Sys Sol
9 pages
Sample Regression
No ratings yet
Sample Regression
4 pages
Topic_5_Multivariate_distributions
No ratings yet
Topic_5_Multivariate_distributions
50 pages
Index (1) - Linear Law-Add Math
No ratings yet
Index (1) - Linear Law-Add Math
5 pages
Calculus 10th Edition Anton Test Bank download
100% (2)
Calculus 10th Edition Anton Test Bank download
42 pages
Joint Prob Dist
No ratings yet
Joint Prob Dist
7 pages
6
No ratings yet
6
2 pages
Materi 3 - Multiple Regression-Fixed
No ratings yet
Materi 3 - Multiple Regression-Fixed
68 pages
CHAPTER 1st Order - Without Solution
No ratings yet
CHAPTER 1st Order - Without Solution
42 pages
Chapter Simple Linear Regression 1
100% (1)
Chapter Simple Linear Regression 1
77 pages
3 Techniques of Differentiation 44
No ratings yet
3 Techniques of Differentiation 44
20 pages
Calculus 10th Edition Anton Test Bankpdf download
100% (3)
Calculus 10th Edition Anton Test Bankpdf download
38 pages
Maths Practice Quiz68
No ratings yet
Maths Practice Quiz68
8 pages
2020-21 Exam
No ratings yet
2020-21 Exam
7 pages
Order 7708673
No ratings yet
Order 7708673
4 pages
M3T1 Worksheet 1 (Radical Functions)
No ratings yet
M3T1 Worksheet 1 (Radical Functions)
9 pages
Final Sample 2018
No ratings yet
Final Sample 2018
14 pages
Quadratic Functions
No ratings yet
Quadratic Functions
24 pages
Using Graphs To Solve Equations
No ratings yet
Using Graphs To Solve Equations
30 pages
1 (B) SolnDec2022
No ratings yet
1 (B) SolnDec2022
16 pages
Cal1Mid 1112 Sem2
No ratings yet
Cal1Mid 1112 Sem2
4 pages
unit 02
No ratings yet
unit 02
52 pages
Get Calculus 10th Edition Anton Test Bank free all chapters
100% (9)
Get Calculus 10th Edition Anton Test Bank free all chapters
37 pages
regression
No ratings yet
regression
14 pages
Institute of Actuaries of India: CT3: Probability and Mathematical Statistics Indicative Solution November 2008
No ratings yet
Institute of Actuaries of India: CT3: Probability and Mathematical Statistics Indicative Solution November 2008
9 pages
Analytical Methods - Calculus
100% (1)
Analytical Methods - Calculus
18 pages
DDA Circle and Ellipse Algorithm
No ratings yet
DDA Circle and Ellipse Algorithm
71 pages
A Catalog of Essential Functions
No ratings yet
A Catalog of Essential Functions
12 pages
Theme 5 - 1 Notes Differentiation
No ratings yet
Theme 5 - 1 Notes Differentiation
20 pages
Chapter Review: K K K K K
No ratings yet
Chapter Review: K K K K K
7 pages
CHAPTER-2
No ratings yet
CHAPTER-2
14 pages
Math 152 Mt 217 Spring Sol
No ratings yet
Math 152 Mt 217 Spring Sol
5 pages
2018 3 Per Sam Tet A
No ratings yet
2018 3 Per Sam Tet A
8 pages
Calculus for Economsts Module II Teachin-119228058
No ratings yet
Calculus for Economsts Module II Teachin-119228058
45 pages
Module_1__Topic_1
No ratings yet
Module_1__Topic_1
30 pages
MJC_H1 Prelim (Solutions Without Mark Scheme)
No ratings yet
MJC_H1 Prelim (Solutions Without Mark Scheme)
9 pages
Mathematics in Physics
100% (1)
Mathematics in Physics
49 pages
Lecture 20
No ratings yet
Lecture 20
4 pages
Output Primitives
No ratings yet
Output Primitives
74 pages
Amsj 2023 N01 04
No ratings yet
Amsj 2023 N01 04
9 pages
1 Minor Adv Answer Key
No ratings yet
1 Minor Adv Answer Key
6 pages
Calculus 10th Edition Anton Test Bank download
100% (1)
Calculus 10th Edition Anton Test Bank download
36 pages
1 Introduction
No ratings yet
1 Introduction
8 pages
Reference Solution For The Midterm Exam of Numerical Methods, 2008 Spring
No ratings yet
Reference Solution For The Midterm Exam of Numerical Methods, 2008 Spring
10 pages
Personnal Work MIA PBL 7
No ratings yet
Personnal Work MIA PBL 7
5 pages
4 (B) SolnEMay 2024
No ratings yet
4 (B) SolnEMay 2024
15 pages
Parametric integral maths paper mark scheme
No ratings yet
Parametric integral maths paper mark scheme
11 pages
Solving Math Problems
From Everand
Solving Math Problems
George N. Frempong
No ratings yet
Lecture 09 - Calculus and Optimization Techniques (3) - Plain
No ratings yet
Lecture 09 - Calculus and Optimization Techniques (3) - Plain
15 pages
Lecture 04 - Supervised Learning by Computing Distances (2) - Plain
No ratings yet
Lecture 04 - Supervised Learning by Computing Distances (2) - Plain
16 pages
Deep Learning
No ratings yet
Deep Learning
189 pages
Lecture 02 - Warming-Up and Data and Features - Plain
No ratings yet
Lecture 02 - Warming-Up and Data and Features - Plain
23 pages
Bernd Klein Python and Machine Learning Letter
No ratings yet
Bernd Klein Python and Machine Learning Letter
453 pages
Lecture 03 - Supervised Learning by Computing Distances - Plain
No ratings yet
Lecture 03 - Supervised Learning by Computing Distances - Plain
17 pages
General Observation
No ratings yet
General Observation
93 pages
Bernd Klein Python Data Analysis Letter
No ratings yet
Bernd Klein Python Data Analysis Letter
514 pages
Model Training: (Anything Done While We Train The Model)
No ratings yet
Model Training: (Anything Done While We Train The Model)
194 pages
Dataset: (Most Famous)
No ratings yet
Dataset: (Most Famous)
8 pages
Cnns Convolution Neural Networks
No ratings yet
Cnns Convolution Neural Networks
50 pages
A B Testing
No ratings yet
A B Testing
28 pages
Command Line Python Scripting: Takeaways: Syntax
No ratings yet
Command Line Python Scripting: Takeaways: Syntax
2 pages
Working With Programs: Takeaways: Syntax
No ratings yet
Working With Programs: Takeaways: Syntax
2 pages
PlayBright 48 - 60 Months
0% (1)
PlayBright 48 - 60 Months
3 pages
Chapter 3 Slides
No ratings yet
Chapter 3 Slides
40 pages
Lesson Plan File Transfer
No ratings yet
Lesson Plan File Transfer
1 page
Chen, Jiongshen
No ratings yet
Chen, Jiongshen
5 pages
Experiment 5 - Software Simulations and Harware Modelling of A Monopole Antenna
No ratings yet
Experiment 5 - Software Simulations and Harware Modelling of A Monopole Antenna
9 pages
Profibus MKIV CPrev01
No ratings yet
Profibus MKIV CPrev01
28 pages
Session 07 - Context Free Grammar
No ratings yet
Session 07 - Context Free Grammar
34 pages
Microp Finale Arduino
No ratings yet
Microp Finale Arduino
28 pages
GAD 2018 Propsal 1
No ratings yet
GAD 2018 Propsal 1
21 pages
Calculating Firsts
No ratings yet
Calculating Firsts
7 pages
DFP50123 Case Study - SMC (F2018, F1054, F1017, F2055)
No ratings yet
DFP50123 Case Study - SMC (F2018, F1054, F1017, F2055)
4 pages
High Performance Liquid Chromatography (HPLC), Method Development
100% (9)
High Performance Liquid Chromatography (HPLC), Method Development
4 pages
SHS Classroom Program SY 2022-2023 1st Sem
No ratings yet
SHS Classroom Program SY 2022-2023 1st Sem
3 pages
Sensory Development PDF
No ratings yet
Sensory Development PDF
3 pages
S6ME
No ratings yet
S6ME
13 pages
Regional Headquarters: Authorized Distributor: FA Systems Division H.Q. Omron Europe B.V
No ratings yet
Regional Headquarters: Authorized Distributor: FA Systems Division H.Q. Omron Europe B.V
15 pages
Author's Accepted Manuscript: J.jcrysgro.2013.02.005
No ratings yet
Author's Accepted Manuscript: J.jcrysgro.2013.02.005
29 pages
Developer's Note On Quantum Espresso
No ratings yet
Developer's Note On Quantum Espresso
39 pages
Psychological Skills in Work Place
No ratings yet
Psychological Skills in Work Place
22 pages
Dumper Bed Lifting
No ratings yet
Dumper Bed Lifting
52 pages
Lovely Professional University: (Foundation of Computing) CSE101 Topic Digital Watch Program
No ratings yet
Lovely Professional University: (Foundation of Computing) CSE101 Topic Digital Watch Program
13 pages
Schneider Electric - Acti-9-C60HDC-C60PVDC - A9N61531
No ratings yet
Schneider Electric - Acti-9-C60HDC-C60PVDC - A9N61531
4 pages
Implementation of A Remote Telecommunications Laboratory Using Emona-DATEx Trainer at Cantho University
No ratings yet
Implementation of A Remote Telecommunications Laboratory Using Emona-DATEx Trainer at Cantho University
22 pages
Research Brief: Administrative Services Satisfaction Survey Spring 2011
No ratings yet
Research Brief: Administrative Services Satisfaction Survey Spring 2011
3 pages
IEEE 100-1996 Dictionary
No ratings yet
IEEE 100-1996 Dictionary
1,287 pages
DSC Vibration Modeling PDF
No ratings yet
DSC Vibration Modeling PDF
25 pages
Beginners Guide To Data Visualization
No ratings yet
Beginners Guide To Data Visualization
221 pages