0% found this document useful (0 votes)

9 views6 pages

17.11.24 - Jupyter Notebook - Doc

The document provides a series of Jupyter Notebook code snippets demonstrating various data preprocessing techniques on the Pima Indians Diabetes dataset. Techniques include rescaling, standardizing, normalizing, binarizing, and feature extraction using methods like Chi-squared, RFE, and PCA. Each section includes code for loading the dataset, processing the data, and summarizing the results.

Uploaded by

info.walleynk

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views6 pages

17.11.24 - Jupyter Notebook - Doc

Uploaded by

info.walleynk

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.

2024_Jupiter_Notebook_doc#

In [4]: # Rescale data (between 0 and 1)

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler

filename = 'D:\\Dataset\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components

X = array[:,0:8]
Y = array[:,8]

scaler = MinMaxScaler(feature_range=(0, 1))

rescaledX = scaler.fit_transform(X)

# summarize transformed data

set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[0.353 0.744 0.59 0.354 0. 0.501 0.234 0.483]

[0.059 0.427 0.541 0.293 0. 0.396 0.117 0.167]
[0.471 0.92 0.525 0. 0. 0.347 0.254 0.183]
[0.059 0.447 0.541 0.232 0.111 0.419 0.038 0. ]
[0. 0.688 0.328 0.354 0.199 0.642 0.944 0.2 ]]

In [7]: # Standardize data (0 mean, 1 stdev)

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import StandardScaler

filename = 'D:\\Dataset\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components

X = array[:,0:8]
Y = array[:,8]
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# summarize transformed data
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[ 0.64 0.848 0.15 0.907 -0.693 0.204 0.468 1.426]

[-0.845 -1.123 -0.161 0.531 -0.693 -0.684 -0.365 -0.191]
[ 1.234 1.944 -0.264 -1.288 -0.693 -1.103 0.604 -0.106]
[-0.845 -0.998 -0.161 0.155 0.123 -0.494 -0.921 -1.042]
[-1.142 0.504 -1.505 0.907 0.766 1.41 5.485 -0.02 ]]

1 of 6 11/17/2024, 4:50 PM
17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.2024_Jupiter_Notebook_doc#

In [8]: # Normalize data (length of 1)

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer

filename = 'D:\\Dataset\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components

X = array[:,0:8]
Y = array[:,8]

scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)

# summarize transformed data

set_printoptions(precision=3)
print(normalizedX[0:5,:])

[[0.034 0.828 0.403 0.196 0. 0.188 0.004 0.28 ]

[0.008 0.716 0.556 0.244 0. 0.224 0.003 0.261]
[0.04 0.924 0.323 0. 0. 0.118 0.003 0.162]
[0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]
[0. 0.596 0.174 0.152 0.731 0.188 0.01 0.144]]

In [10]: # binarization
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Binarizer

filename = 'D:\\Dataset\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
dataframe = read_csv(filename, names=names)
array = dataframe.values

# separate array into input and output components

X = array[:,0:8]
Y = array[:,8]

binarizer = Binarizer(threshold=6.0).fit(X)
binaryX = binarizer.transform(X)

# summarize transformed data

set_printoptions(precision=3)
print(binaryX[0:5,:])

[[0. 1. 1. 1. 0. 1. 0. 1.]
[0. 1. 1. 1. 0. 1. 0. 1.]
[1. 1. 1. 0. 0. 1. 0. 1.]
[0. 1. 1. 1. 1. 1. 0. 1.]
[0. 1. 1. 1. 1. 1. 0. 1.]]

2 of 6 11/17/2024, 4:50 PM
17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.2024_Jupiter_Notebook_doc#

In [12]: # Feature Extraction with Univariate Statistical Tests (Chi-squared for classification
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# load data
filename = 'D:\\Dataset\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'
dataframe = read_csv(filename, names=names)
array = dataframe.values

X = array[:,0:8]
Y = array[:,8]

# feature extraction
test = SelectKBest(score_func=chi2, k=3)
fit = test.fit(X, Y)

# summarize scores
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)

# summarize selected features

print(features[0:5,:])

[ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304]

[[148. 0. 50.]
[ 85. 0. 31.]
[183. 0. 32.]
[ 89. 94. 21.]
[137. 168. 33.]]

3 of 6 11/17/2024, 4:50 PM
17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.2024_Jupiter_Notebook_doc#

In [21]: # Feature Extraction with RFE

from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# feature extraction
rfe = RFE(estimator=LogisticRegression(), n_features_to_select=3)
fit = rfe.fit(X, Y)

print(fit.n_features_)
print(fit.support_)
print(fit.ranking_)

C:\Users\CSE\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py:45
8: ConvergenceWarning: lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
https://scikit-learn.org/stable/modules/preprocessing.html (https://sciki
t-learn.org/stable/modules/preprocessing.html)
Please also refer to the documentation for alternative solver options:
https://scikit-learn.org/stable/modules/linear_model.html#logistic-regres
sion (https://scikit-learn.org/stable/modules/linear_model.html#logistic-regr
ession)
n_iter_i = _check_optimize_result(

3
[ True False False False False True True False]
[1 2 4 5 6 1 1 3]

4 of 6 11/17/2024, 4:50 PM
17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.2024_Jupiter_Notebook_doc#

In [23]: # Feature Extraction with PCA

from pandas import read_csv
from sklearn.decomposition import PCA

# feature extraction
pca = PCA(n_components=4)
fit = pca.fit(X)

# summarize components
print(fit.explained_variance_ratio_)
print(fit.components_)

[0.889]
[[-2.022e-03 9.781e-02 1.609e-02 6.076e-02 9.931e-01 1.401e-02
5.372e-04 -3.565e-03]]

5 of 6 11/17/2024, 4:50 PM
17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.2024_Jupiter_Notebook_doc#

In [25]: # Feature Extraction with PCA

from pandas import read_csv
from sklearn.decomposition import PCA

X = array[:,0:8]
Y = array[:,8]

# Standardize the features

X_scaled = StandardScaler().fit_transform(X)

# Apply PCA and automatically select the number of components to explain 95% of the va
pca = PCA(n_components=0.75)
X_pca = pca.fit_transform(X_scaled)

# Output: Number of components and explained variance

print(f"Number of components explaining 95% of variance: {X_pca.shape[1]}")
print(f"Explained Variance (in percentage): {pca.explained_variance_ratio_ * 100
print(f"Cumulative Explained Variance: {sum(pca.explained_variance_ratio_) * 100

# Show the transformed data (first 5 samples)

print("PCA Transformed Data (first 5 samples):\n", X_pca[:5])

Number of components explaining 95% of variance: 5

Explained Variance (in percentage): [26.18 21.64 12.87 10.944 9.529]
Cumulative Explained Variance: 81.16%
PCA Transformed Data (first 5 samples):
[[ 1.069 1.235 0.096 0.497 -0.11 ]
[-1.122 -0.734 -0.713 0.285 -0.39 ]
[-0.396 1.596 1.761 -0.07 0.906]
[-1.116 -1.271 -0.664 -0.579 -0.356]
[ 2.359 -2.185 2.963 4.033 0.593]]

In [ ]:

6 of 6 11/17/2024, 4:50 PM

CET 324 Advance Cybersecurity Part2
0% (1)
CET 324 Advance Cybersecurity Part2
32 pages
Database Management System
No ratings yet
Database Management System
9 pages
Guideline: G1117 VHF Data Exchange System (Vdes)
100% (1)
Guideline: G1117 VHF Data Exchange System (Vdes)
29 pages
Cardio Screen RF
100% (1)
Cardio Screen RF
27 pages
Class Notes
No ratings yet
Class Notes
610 pages
Asda
No ratings yet
Asda
29 pages
AI-ML-Cisco - ACI
No ratings yet
AI-ML-Cisco - ACI
20 pages
Heart Disease Prediction - Jupyter Notebook
100% (1)
Heart Disease Prediction - Jupyter Notebook
9 pages
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
No ratings yet
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
71 pages
COMP5318
No ratings yet
COMP5318
42 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
ASEEx Slides
No ratings yet
ASEEx Slides
87 pages
Tester Guide
No ratings yet
Tester Guide
79 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
3 - Modeling - Ipynb - Colaboratory
No ratings yet
3 - Modeling - Ipynb - Colaboratory
31 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
DWDM Lab Report
No ratings yet
DWDM Lab Report
26 pages
AI Project Medicine Recommending System
No ratings yet
AI Project Medicine Recommending System
11 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
C2M4 - Assignment: 1 Cox Proportional Hazards and Random Survival Forests
No ratings yet
C2M4 - Assignment: 1 Cox Proportional Hazards and Random Survival Forests
18 pages
LAB8 LogisticReg HeartDisease
No ratings yet
LAB8 LogisticReg HeartDisease
31 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
ML Assignment 01 Code
No ratings yet
ML Assignment 01 Code
21 pages
utf-8''C2M1 Assignment
No ratings yet
utf-8''C2M1 Assignment
24 pages
ML Lab Experiment Shortened With Same Output
No ratings yet
ML Lab Experiment Shortened With Same Output
6 pages
Use Case Analysis: Use Case Name: ID: Priority: Actor: Description: Trigger: Type: External Temporal Preconditions
No ratings yet
Use Case Analysis: Use Case Name: ID: Priority: Actor: Description: Trigger: Type: External Temporal Preconditions
3 pages
HCI Lecure 10 Software Process
No ratings yet
HCI Lecure 10 Software Process
58 pages
Picapool Contribution NHC
No ratings yet
Picapool Contribution NHC
6 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
24 pages
Log
No ratings yet
Log
20 pages
lab - 8 - - (6) عفان عبدالله احمد - التكليف -
No ratings yet
lab - 8 - - (6) عفان عبدالله احمد - التكليف -
18 pages
Tutorial - SD - Bass Diffusion Model - ENG
No ratings yet
Tutorial - SD - Bass Diffusion Model - ENG
41 pages
DS Lab 21 Scheme Journal
No ratings yet
DS Lab 21 Scheme Journal
30 pages
MCQ in Networks and DBMS
No ratings yet
MCQ in Networks and DBMS
3 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
PB 000097 IIM 46234 v0.1
No ratings yet
PB 000097 IIM 46234 v0.1
1 page
ML Practical 04
No ratings yet
ML Practical 04
20 pages
Experiment 5
No ratings yet
Experiment 5
9 pages
AML Sessional 1 Students
No ratings yet
AML Sessional 1 Students
16 pages
08 - Alteon ADC Level 1 Lab Manual - Content Modification
No ratings yet
08 - Alteon ADC Level 1 Lab Manual - Content Modification
8 pages
InterCor Hybrid-Roadmap v1.0 Final
No ratings yet
InterCor Hybrid-Roadmap v1.0 Final
40 pages
My Code
No ratings yet
My Code
7 pages
Documentation Code
No ratings yet
Documentation Code
20 pages
Lab 2
No ratings yet
Lab 2
8 pages
ML 7
No ratings yet
ML 7
6 pages
IJRASET Sample Paper For Format
No ratings yet
IJRASET Sample Paper For Format
9 pages
Data Science Programs
No ratings yet
Data Science Programs
11 pages
ADV - CRPD - SCO - 2024-25 - 21 - Archivist
No ratings yet
ADV - CRPD - SCO - 2024-25 - 21 - Archivist
9 pages
PDF To Jpeg
No ratings yet
PDF To Jpeg
7 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Aiml Programs
No ratings yet
Aiml Programs
12 pages
24MCB0021 VL2024250505870 Ast03
No ratings yet
24MCB0021 VL2024250505870 Ast03
4 pages
Abdimas Hki3f52b4c6
No ratings yet
Abdimas Hki3f52b4c6
6 pages
Revision
No ratings yet
Revision
11 pages
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
No ratings yet
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
12 pages
FMB010 Quick Manual v1.3
No ratings yet
FMB010 Quick Manual v1.3
13 pages
Ai in HC - 2
No ratings yet
Ai in HC - 2
9 pages
Ensemblediabetes - Ipynb - Colab
No ratings yet
Ensemblediabetes - Ipynb - Colab
4 pages
Diabetes
No ratings yet
Diabetes
10 pages
ML Practical 3D
No ratings yet
ML Practical 3D
4 pages
Video Marketing Professional
No ratings yet
Video Marketing Professional
24 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
5 pages
Data Science Practical 9
No ratings yet
Data Science Practical 9
6 pages
Logistic Pima Indians - Ipynb - Colaboratory
No ratings yet
Logistic Pima Indians - Ipynb - Colaboratory
4 pages
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
No ratings yet
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
8 pages
Minor Project II Mohd Rehan
No ratings yet
Minor Project II Mohd Rehan
17 pages
MA21M011.ipynb - Colaboratory
No ratings yet
MA21M011.ipynb - Colaboratory
2 pages
KNN For Classification
No ratings yet
KNN For Classification
5 pages
Exp 5
No ratings yet
Exp 5
7 pages
Healthcare-Project-Simplilearn - Week3
No ratings yet
Healthcare-Project-Simplilearn - Week3
7 pages
DWM Exp 8
No ratings yet
DWM Exp 8
4 pages
AI Diabetes Expt 10
No ratings yet
AI Diabetes Expt 10
2 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
RA2111003011432
No ratings yet
RA2111003011432
3 pages
Linear and Multilinear Regression
No ratings yet
Linear and Multilinear Regression
5 pages
Principal Component Analysis: #Question 1
No ratings yet
Principal Component Analysis: #Question 1
6 pages
Practical 4
No ratings yet
Practical 4
2 pages
Cyble MBus STD EN WEB
No ratings yet
Cyble MBus STD EN WEB
2 pages
B58 - Handling Missing Values, Feature - Selection
No ratings yet
B58 - Handling Missing Values, Feature - Selection
4 pages
ML Exp 7
No ratings yet
ML Exp 7
3 pages
OPJEMS Process PDF
No ratings yet
OPJEMS Process PDF
9 pages
Audio1627988258-M4a Dengan Penanda Waktu
No ratings yet
Audio1627988258-M4a Dengan Penanda Waktu
7 pages
BTVN6 Code
No ratings yet
BTVN6 Code
2 pages
Release Notes
No ratings yet
Release Notes
6 pages
Documents-Com Apple CloudDocs-Downloads-untitled Folder 2-2022 MMarco.. 3 (2) (2) (2) 15.download - Google Shopping
No ratings yet
Documents-Com Apple CloudDocs-Downloads-untitled Folder 2-2022 MMarco.. 3 (2) (2) (2) 15.download - Google Shopping
4 pages
Images - Answers - BrainQuest
No ratings yet
Images - Answers - BrainQuest
1 page
COMP 125 Assign 1 Summer 2024
No ratings yet
COMP 125 Assign 1 Summer 2024
2 pages

17.11.24 - Jupyter Notebook - Doc

Uploaded by

17.11.24 - Jupyter Notebook - Doc

Uploaded by

17.11 - Jupyter Notebook http://localhost:8888/notebooks/17.11.

In [4]: # Rescale data (between 0 and 1)

# separate array into input and output components

scaler = MinMaxScaler(feature_range=(0, 1))

# summarize transformed data

[[0.353 0.744 0.59 0.354 0. 0.501 0.234 0.483]

In [7]: # Standardize data (0 mean, 1 stdev)

# separate array into input and output components

[[ 0.64 0.848 0.15 0.907 -0.693 0.204 0.468 1.426]

In [8]: # Normalize data (length of 1)

# separate array into input and output components

# summarize transformed data

[[0.034 0.828 0.403 0.196 0. 0.188 0.004 0.28 ]

# separate array into input and output components

# summarize transformed data

# summarize selected features

[ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304]

In [21]: # Feature Extraction with RFE

In [23]: # Feature Extraction with PCA

In [25]: # Feature Extraction with PCA

# Standardize the features

# Output: Number of components and explained variance

# Show the transformed data (first 5 samples)

Number of components explaining 95% of variance: 5

You might also like