4.4. Data Standardization - Ipynb - Colaboratory

The document discusses data standardization using the StandardScaler. It loads breast cancer data, splits it into training and test sets, then standardizes the training data using the StandardScaler. The StandardScaler transforms the training data to have mean 0 and standard deviation 1 based on the training data statistics. It then transforms the test data using the same parameters to put it on the same scale as the training data.

Uploaded by

lokesh k

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

lokesh k

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

StandardScaler(copy=True, with_mean=True, with_std=True)

Data Standardization:

The process of standardizing the data to a common format and common range X_train_standardized = scaler.transform(X_train)

import numpy as np print(X_train_standardized)

import pandas as pd
import sklearn.datasets [[ 1.40381088 1.79283426 1.37960065 ... 1.044121 0.52295995
from sklearn.preprocessing import StandardScaler 0.64990763]
from sklearn.model_selection import train_test_split [ 1.16565505 -0.14461158 1.07121375 ... 0.5940779 0.44153782
-0.85281516]
[-0.0307278 -0.77271123 -0.09822185 ... -0.64047556 -0.31161687
# loading the dataset -0.69292805]
dataset = sklearn.datasets.load_breast_cancer() ...
[ 1.06478904 0.20084323 0.89267396 ... 0.01694621 3.06583565
-1.29952679]
# loading the data to a pandas dataframe [ 1.51308238 2.3170559 1.67987211 ... 1.14728703 -0.16599653
df = pd.DataFrame(dataset.data, columns=dataset.feature_names) 0.82816016]
[-0.73678981 -1.02636686 -0.74380549 ... -0.31826862 -0.40713129
-0.38233653]]
df.head()

X_test_standardized = scaler.transform(X_test)
mean mean
mean mean mean mean mean mean mean mean radius texture perimeter
concave fractal
radius texture perimeter area smoothness compactness concavity symmetry error error error e
points dimension print(X_train_standardized.std())

0 17.99 10.38 122.80 1001.0 0.11840 0.27760 0.3001 0.14710 0.2419 0.07871 1.0950 0.9053 8.589 1 1.0
1 20.57 17.77 132.90 1326.0 0.08474 0.07864 0.0869 0.07017 0.1812 0.05667 0.5435 0.7339 3.398

2 19.69 21.25 130.00 1203.0 0.10960 0.15990 0.1974 0.12790 0.2069 0.05999 0.7456 0.7869 4.585 print(X_test_standardized.std())

3 11.42 20.38 77.58 386.1 0.14250 0.28390 0.2414 0.10520 0.2597 0.09744 0.4956 1.1560 3.445 0.8654541077212674

4 20.29 14.34 135.10 1297.0 0.10030 0.13280 0.1980 0.10430 0.1809 0.05883 0.7572 0.7813 5.438

df.shape

(569, 30)

X = df
Y = dataset.target

print(X)

mean radius mean texture ... worst symmetry worst fractal dimension
0 17.99 10.38 ... 0.4601 0.11890
1 20.57 17.77 ... 0.2750 0.08902
2 19.69 21.25 ... 0.3613 0.08758
3 11.42 20.38 ... 0.6638 0.17300
4 20.29 14.34 ... 0.2364 0.07678
.. ... ... ... ... ...
564 21.56 22.39 ... 0.2060 0.07115
565 20.13 28.25 ... 0.2572 0.06637
566 16.60 28.08 ... 0.2218 0.07820
567 20.60 29.33 ... 0.4087 0.12400
568 7.76 24.54 ... 0.2871 0.07039

[569 rows x 30 columns]

Splitting the data into training data and test data

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=3)

print(X.shape, X_train.shape, X_test.shape)

(569, 30) (455, 30) (114, 30)

Standardize the data

print(dataset.data.std())

account_circle 228.29740508276657
Code Text
scaler = StandardScaler()

scaler.fit(X_train)

Scriptpack 3
100% (1)
Scriptpack 3
167 pages
Tablas de Distribucion Normal Estandar
100% (1)
Tablas de Distribucion Normal Estandar
7 pages
Fresco
100% (2)
Fresco
17 pages
Tabel Distribusi Normal Baku
No ratings yet
Tabel Distribusi Normal Baku
1 page
Assignment 3 Questions PDF
No ratings yet
Assignment 3 Questions PDF
4 pages
DATA SCIENCE IDC 302 End Sem Project
No ratings yet
DATA SCIENCE IDC 302 End Sem Project
1 page
PCA
No ratings yet
PCA
23 pages
Project 1
No ratings yet
Project 1
6 pages
Code
No ratings yet
Code
5 pages
Data Preparation
No ratings yet
Data Preparation
11 pages
20BCP021 Assignment 3
No ratings yet
20BCP021 Assignment 3
7 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
7 pages
KNN - Jupyter Notebook (1)
No ratings yet
KNN - Jupyter Notebook (1)
7 pages
Practical 6
No ratings yet
Practical 6
6 pages
Pca 2382487
No ratings yet
Pca 2382487
8 pages
Project 3 - Diabetes Prediction.ipynb - Colab
No ratings yet
Project 3 - Diabetes Prediction.ipynb - Colab
4 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
ML program 7 ,8,9 and10
No ratings yet
ML program 7 ,8,9 and10
12 pages
Hussain-assin2_cancrclassification
No ratings yet
Hussain-assin2_cancrclassification
12 pages
Garishav Basra 102103129 2CO5
No ratings yet
Garishav Basra 102103129 2CO5
8 pages
7 Data Transformation - Jupyter Notebook
No ratings yet
7 Data Transformation - Jupyter Notebook
3 pages
7 output
No ratings yet
7 output
4 pages
BHMC17 P5.ipynb - Colaboratory
No ratings yet
BHMC17 P5.ipynb - Colaboratory
4 pages
Standard Normal Probabilities
No ratings yet
Standard Normal Probabilities
3 pages
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
No ratings yet
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
13 pages
m1
No ratings yet
m1
10 pages
grin5
No ratings yet
grin5
4 pages
vertopal.com_model_training
No ratings yet
vertopal.com_model_training
6 pages
vertopal.com_04-fode-2
No ratings yet
vertopal.com_04-fode-2
27 pages
Digital Assignment - 2: Name-Amrutkar Pranit Sanjay Reg. No. - 15BME0741 Slot - E2 + TE2 Faculty - Prof. Murugan
No ratings yet
Digital Assignment - 2: Name-Amrutkar Pranit Sanjay Reg. No. - 15BME0741 Slot - E2 + TE2 Faculty - Prof. Murugan
17 pages
grin7
No ratings yet
grin7
4 pages
Week 4 Naive Bayes Classifier
No ratings yet
Week 4 Naive Bayes Classifier
2 pages
Việt Cường
No ratings yet
Việt Cường
14 pages
EXAM PREPERATION - Ipynb - Colaboratory-1
No ratings yet
EXAM PREPERATION - Ipynb - Colaboratory-1
8 pages
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
No ratings yet
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
22 pages
binned_data
No ratings yet
binned_data
1 page
Steel Sample Test
No ratings yet
Steel Sample Test
133 pages
ml labs
No ratings yet
ml labs
14 pages
Knksdvs
No ratings yet
Knksdvs
4 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
Lab 8
No ratings yet
Lab 8
8 pages
utf-8''C2M1 Assignment
No ratings yet
utf-8''C2M1 Assignment
24 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Presentation 1
No ratings yet
Presentation 1
2 pages
grin4
No ratings yet
grin4
4 pages
Ppmconversiontable 14 H
No ratings yet
Ppmconversiontable 14 H
6 pages
Kahramanmaras Elbistan 1
No ratings yet
Kahramanmaras Elbistan 1
236 pages
Project Coding-Manish Dwari 1807
No ratings yet
Project Coding-Manish Dwari 1807
1 page
Mini Project With Output
No ratings yet
Mini Project With Output
8 pages
TABEL LOG
No ratings yet
TABEL LOG
28 pages
Machine Learning
No ratings yet
Machine Learning
31 pages
ML LAB 12 - Jupyter Notebook
No ratings yet
ML LAB 12 - Jupyter Notebook
11 pages
Python ML Projects
No ratings yet
Python ML Projects
18 pages
G6
No ratings yet
G6
14 pages
ML Project - Binary - Colaboratory
No ratings yet
ML Project - Binary - Colaboratory
7 pages
Ajuste de Curvas
No ratings yet
Ajuste de Curvas
35 pages
ml lab exam document
No ratings yet
ml lab exam document
14 pages
Random 125.2
No ratings yet
Random 125.2
6 pages
Python Tut Gradient Descent Algos MLR - Jupyter Notebook
No ratings yet
Python Tut Gradient Descent Algos MLR - Jupyter Notebook
40 pages
Procedural Surface: Exploring Texture Generation and Analysis in Computer Vision
From Everand
Procedural Surface: Exploring Texture Generation and Analysis in Computer Vision
Fouad Sabry
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
A-level Physics Revision: Cheeky Revision Shortcuts
From Everand
A-level Physics Revision: Cheeky Revision Shortcuts
Scool Revision
3/5 (10)
Whatsnew DeskPack 23 11
No ratings yet
Whatsnew DeskPack 23 11
24 pages
50 Linux Commands List With Examples - Javatpoint
No ratings yet
50 Linux Commands List With Examples - Javatpoint
17 pages
Lecture 1 - Intro To Is and ERP Systems
No ratings yet
Lecture 1 - Intro To Is and ERP Systems
23 pages
Computer Reviewer
No ratings yet
Computer Reviewer
10 pages
Erp Field Manual Ver1
No ratings yet
Erp Field Manual Ver1
104 pages
Java GUI Bangundatar
No ratings yet
Java GUI Bangundatar
10 pages
Replication and Analysis of Ebbinghaus' Forgetting Curve
No ratings yet
Replication and Analysis of Ebbinghaus' Forgetting Curve
23 pages
OVS-DPDK Life of A Packet.2019
No ratings yet
OVS-DPDK Life of A Packet.2019
7 pages
Syllabus Ee541 22sp
No ratings yet
Syllabus Ee541 22sp
7 pages
A Sales Engineer
No ratings yet
A Sales Engineer
2 pages
Getting Started With Javafx Database Operations
No ratings yet
Getting Started With Javafx Database Operations
51 pages
Introductory Electronic Devices and Circuits 6th Ed - Paynter
No ratings yet
Introductory Electronic Devices and Circuits 6th Ed - Paynter
1,010 pages
Vaisala
No ratings yet
Vaisala
2 pages
Service Manual for C
No ratings yet
Service Manual for C
53 pages
FOMCON: A MATLAB Toolbox For Fractional-Order System Identification and Control
No ratings yet
FOMCON: A MATLAB Toolbox For Fractional-Order System Identification and Control
13 pages
Communicator Manual
No ratings yet
Communicator Manual
2 pages
(2023 - 2024) CALCULUS I Student Handouts 19 and 20
No ratings yet
(2023 - 2024) CALCULUS I Student Handouts 19 and 20
16 pages
Case 21 - Denby Constabulary
100% (1)
Case 21 - Denby Constabulary
6 pages
Vapt 1
No ratings yet
Vapt 1
35 pages
Phase 2 Final Report Depression Detection
No ratings yet
Phase 2 Final Report Depression Detection
48 pages
Python DIgSILENT
No ratings yet
Python DIgSILENT
16 pages
Animal 4D Cards PDF
No ratings yet
Animal 4D Cards PDF
2 pages
Thorchain (Rune) Cryptocurrency
No ratings yet
Thorchain (Rune) Cryptocurrency
21 pages
Flask WTF
No ratings yet
Flask WTF
29 pages
Winning ECM Recipe InfoGraphic 2015
No ratings yet
Winning ECM Recipe InfoGraphic 2015
1 page
Server Consolidation
No ratings yet
Server Consolidation
15 pages
Pilar Irving - English CV - Oct 2020 PDF
No ratings yet
Pilar Irving - English CV - Oct 2020 PDF
4 pages
Problem Statement ID – 1598 Problem Statement Title- Student Innovation Theme- Heritage and Culture PS
No ratings yet
Problem Statement ID – 1598 Problem Statement Title- Student Innovation Theme- Heritage and Culture PS
6 pages

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

4.4. Data Standardization - Ipynb - Colaboratory

Uploaded by

StandardScaler(copy=True, with_mean=True, with_std=True)

import numpy as np print(X_train_standardized)

[569 rows x 30 columns]

Splitting the data into training data and test data

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=3)

print(X.shape, X_train.shape, X_test.shape)

(569, 30) (455, 30) (114, 30)

Standardize the data

You might also like