0% found this document useful (0 votes)

19 views8 pages

A5 A.ipynb - Colaboratory

This document contains the code and steps for data preprocessing, normalization, and encoding for a wine quality dataset. It reads in a CSV file, handles missing values through imputation, applies min-max normalization and z-score standardization for data integration and normalization. It also demonstrates label encoding to convert categorical variable labels to numeric codes.

Uploaded by

swetank.raut22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views8 pages

A5 A.ipynb - Colaboratory

Uploaded by

swetank.raut22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

Assignment 5

Name: Divesh Tadimeti

Roll No: SYAIMLA63

CSV DISPLAY

*Do Visit:https://www.mathsisfun.com/data/standard-normal-distribution.html*
For better understanding

Do Visit:https://www.mathsisfun.com/data/standard-normal-distribution.html For better

understanding

from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive

/content/drive/MyDrive/Sem-3/Data Science Lab/A5/CSV Files/wine.csv

a) Data Preprocessing operations:

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Read the CSV file and handle null values

df = pd.read_csv("/content/drive/MyDrive/Sem-3/Data Science Lab/A5/CSV Files/wine.csv",

df.columns = ["Wine", "Alcohol", "Malic.acid"]

# Check for missing values

missing_values = df.isnull().sum()
print("Missing Values:")
print(missing_values)

# Mean imputation for 'Alcohol' and 'Malic.acid'

df['Alcohol'].fillna(df['Alcohol'].mean(), inplace=True)
df['Malic.acid'].fillna(df['Malic.acid'].mean(), inplace=True)

Missing Values:
Wine 0
Alcohol 0
Malic.acid 0
dtype: int64

b) Data Integration and Data Normalization:

MIN MAX NORMALIZATION

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

df = pd.read_csv("/content/wine.csv", usecols=[0, 1, 2])

df.columns = ["Wine", "Alcohol", "Malic.acid"]

scaling = MinMaxScaler()
scaled_data = scaling.fit_transform(df[['Alcohol', 'Malic.acid']])

print(scaled_data)
[0.53557312 0.52941176]
[0.39920949 0.5026738 ]
[0.71541502 0.48128342]
[0.58498024 0.6631016 ]
[0.51976285 0.5026738 ]
[0.36363636 0.71122995]
[0.76284585 0.80213904]
[0.45256917 0.51336898]
[0.32608696 0.49197861]
[0.34980237 0.59893048]
[0.97035573 0.5828877 ]
[0.62648221 0.59893048]
[0.69960474 0.48128342]
[0.36561265 0.54010695]
[0.66403162 0.73796791]]

df.head()

Wine Alcohol Malic.acid

0 13.20 1.78 2.14

1 13.16 2.36 2.67

2 14.37 1.95 2.50

3 13.24 2.59 2.87

4 14.20 1.76 2.45

Z-SCORE STANDARDIZATION

from sklearn.preprocessing import StandardScaler

scale = StandardScaler()
scale_data=scale.fit_transform(df[['Alcohol',"Malic.acid"]])
print(scale_data)

[[-0.50162433 -0.8244853 ]
[ 0.01802001 1.10768971]
[-0.34931478 0.48793547]
[ 0.22408586 1.83681236]
[-0.5195431 0.3056548 ]
[-0.42098986 0.3056548 ]
[-0.17012708 0.88895292]
[-0.62705572 -0.7151169 ]
[-0.88687789 -0.35055558]
[-0.1611677 -0.24118718]
[-0.77040588 -0.16827492]
[-0.54642125 0.15983027]
[-0.54642125 0.08691801]
[-0.42098986 0.05046188]
[-0.47474617 1.21705811]
[-0.37619294 1.28997038]
[-0.68977141 0.92540905]
[-0.67185264 0.4150232 ]
[ 0.6810145 0.70667226]
[-0.6360151 -0.31409944]
[ 1.30817146 1.03477745]
[-0.42994925 -0.02245039]
[-0.66289326 0.56084773]
[-0.47474617 0.88895292]
[-0.25972093 3.11277699]
[-0.51058371 0.92540905]
[-0.55538064 -0.8244853 ]
[-0.39411171 1.58161943]
[-0.59121818 -0.56929237]
[-0.75248711 1.21705811]
[-0.60913695 -0.02245039]
[-0.4568274 -0.02245039]
[-0.72560895 1.21705811]
[-0.48370556 1.03477745]
[-0.47474617 0.15983027]
[-0.62705572 1.72744396]
[-0.61809633 0.67021613]
[-0.75248711 -0.97030983]
[ 1.47839977 0.5243916 ]
[-0.56434002 -0.20473105]
[ 1.344009 -0.89739756]
[-0.40307109 0.81604066]
[ 1.46944039 -0.27764331]
[-0.51058371 -0.97030983]
[ 1.5231967 0.26919867]
[ 1.12002437 -0.31409944]
[-0.59121818 -0.89739756]
[-0.28659909 0.12337414]
[-0.54642125 -0.35055558]
[-0.54642125 -1.18904662]
[-0.61809633 0.85249679]
[-0.52850248 0.19628641]
[-0.39411171 1.14414585]
[-0.60017756 -0.42346784]
[-0.54642125 0.34211094]
[-0.57329941 -0.24118718]
[-0.33139601 1.14414585]
[-0 8152028 0 48793547]

Label Encoding
Notes: https://www.geeksforgeeks.org/ml-label-encoding-of-datasets-in-python/

# Import libraries
import numpy as np #Here whatever we import, i.e. after import ex. pandas or numpy are
import pandas as pd

# Import dataset
df = pd.read_csv('/content/drive/MyDrive/Sem-3/Data Science Lab/A5/CSV Files/Iris.csv')
df
Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

0 1 5.1 3.5 1.4 0.2 Iris-setosa

1 2 4.9 3.0 1.4 0.2 Iris-setosa

2 3 4.7 3.2 1.3 0.2 Iris-setosa

3 4 4.6 3.1 1.5 0.2 Iris-setosa

4 5 5.0 3.6 1.4 0.2 Iris-setosa

... ... ... ... ... ... ...

145 146 6.7 3.0 5.2 2.3 Iris-virginica

146 147 6.3 2.5 5.0 1.9 Iris-virginica

147 148 6.5 3.0 5.2 2.0 Iris-virginica

148 149 6.2 3.4 5.4 2.3 Iris-virginica

149 150 5.9 3.0 5.1 1.8 Iris-virginica

150 rows × 6 columns

df['Species'].unique() #THis will Print Categorical data

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

# Import label encoder

from sklearn import preprocessing #Here sklearn is Library , and preprocessing is part o

# label_encoder object knows

# how to understand word labels.
label_encoder = preprocessing.LabelEncoder() #here as preprocessing is library part or

# Encode labels in column 'species'.

df['Species']= label_encoder.fit_transform(df['Species'])

df['Species'].unique()

array([0, 1, 2])

import pandas as pd

df = pd.read_csv('homeprices.csv') #reading csv file

df
town area price

0 monroe township 2600 550000

1 monroe township 3000 565000

2 monroe township 3200 610000

3 monroe township 3600 680000

4 monroe township 4000 725000

5 west windsor 2600 585000

6 west windsor 2800 615000

7 west windsor 3300 650000

8 west windsor 3600 710000

9 robinsville 2600 575000

10 robinsville 2900 600000

11 robinsville 3100 620000

12 robinsville 3600 695000

dummies = pd.get_dummies(df.town) #dummies is a method /keyword()get_dummies(df.column_d

dummies

monroe township robinsville west windsor

0 1 0 0

1 1 0 0

2 1 0 0

3 1 0 0

4 1 0 0

5 0 0 1

6 0 0 1

7 0 0 1

8 0 0 1

9 0 1 0

10 0 1 0

11 0 1 0

12 0 1 0
#To Concatenate two datas we use pd.concat()
merge = pd.concat([df, dummies], axis= 'columns') #syntax: pandas.concat([var1, var2], a
merge #As we stored dummies in df.

town area price monroe township robinsville west windsor

0 monroe township 2600 550000 1 0 0

1 monroe township 3000 565000 1 0 0

2 monroe township 3200 610000 1 0 0

3 monroe township 3600 680000 1 0 0

4 monroe township 4000 725000 1 0 0

5 west windsor 2600 585000 0 0 1

6 west windsor 2800 615000 0 0 1

7 west windsor 3300 650000 0 0 1

8 west windsor 3600 710000 0 0 1

9 robinsville 2600 575000 0 1 0

10 robinsville 2900 600000 0 1 0

11 robinsville 3100 620000 0 1 0

12 robinsville 3600 695000 0 1 0

final = merge.drop(['town'], axis = 'columns') #as we no more required town along axis:
final #As We have already encoded [monroe township = 0, west windsor = 1, robinsville =
area price monroe township robinsville west windsor

0 2600 550000 1 0 0

1 3000 565000 1 0 0

2 3200 610000 1 0 0

3 3600 680000 1 0 0

4 4000 725000 1 0 0

5 2600 585000 0 0 1

6 2800 615000 0 0 1

Safe Operation of Forklifts and Other Powered Industrial Trucks
100% (1)
Safe Operation of Forklifts and Other Powered Industrial Trucks
48 pages
Learning Aural Piano Tuning
100% (1)
Learning Aural Piano Tuning
29 pages
Concept of River Crossing Towers in Transmission Lines
100% (2)
Concept of River Crossing Towers in Transmission Lines
12 pages
Members Section Turbocharging Turbocharger Surging
No ratings yet
Members Section Turbocharging Turbocharger Surging
3 pages
Company Wide Quality Management
100% (1)
Company Wide Quality Management
46 pages
Atm-1022 Mechanical Workshop Module 3 PDF
No ratings yet
Atm-1022 Mechanical Workshop Module 3 PDF
19 pages
TESOL Certificate Programs: Lesson Plan Format
No ratings yet
TESOL Certificate Programs: Lesson Plan Format
3 pages
Railway Reservation Project
No ratings yet
Railway Reservation Project
24 pages
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
No ratings yet
Importing Libraries: Pandas PD Matplotlib - Pyplot PLT Numpy NP
10 pages
GCCementedCarbides PDF
No ratings yet
GCCementedCarbides PDF
8 pages
Regression Anallysis Hands0n 1
100% (1)
Regression Anallysis Hands0n 1
3 pages
CatBoost - An In-Depth Guide Python
No ratings yet
CatBoost - An In-Depth Guide Python
33 pages
Procedure: Shallow Foundation Designed To Evenly Distribute Structural Loads For Stability
No ratings yet
Procedure: Shallow Foundation Designed To Evenly Distribute Structural Loads For Stability
5 pages
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
No ratings yet
Logistic Regression For Binary Classification With Core APIs - TensorFlow Core
22 pages
Sikkim Manipal University Synopsis & Project
No ratings yet
Sikkim Manipal University Synopsis & Project
2 pages
ECDL Module 4 - Spreadsheets
No ratings yet
ECDL Module 4 - Spreadsheets
9 pages
Professional Practice Assignment - 4
No ratings yet
Professional Practice Assignment - 4
8 pages
Android
No ratings yet
Android
17 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
SAW&amp Comsol
No ratings yet
SAW&amp Comsol
5 pages
Annotated Bib
No ratings yet
Annotated Bib
5 pages
Agile Glossary
No ratings yet
Agile Glossary
7 pages
64GB 256GB 64GB 128GB 256GB 64GB 256GB 512GB 64GB 256GB 512GB
No ratings yet
64GB 256GB 64GB 128GB 256GB 64GB 256GB 512GB 64GB 256GB 512GB
1 page
Dsbda Ass2
No ratings yet
Dsbda Ass2
49 pages
EE2211 CheatSheet
No ratings yet
EE2211 CheatSheet
15 pages
Data Science Practicals
No ratings yet
Data Science Practicals
47 pages
Codes
No ratings yet
Codes
37 pages
Apple Mission Statement and
No ratings yet
Apple Mission Statement and
4 pages
AS Notebook - PCA - Wine Data-4
100% (1)
AS Notebook - PCA - Wine Data-4
1 page
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Dav Practicals
No ratings yet
Dav Practicals
33 pages
Flask-Sqlalchemy Documentation: Release 2.3.2.dev
No ratings yet
Flask-Sqlalchemy Documentation: Release 2.3.2.dev
54 pages
Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
Week 10
No ratings yet
Week 10
50 pages
Linear Regression Analysis - Polynomial Regression
No ratings yet
Linear Regression Analysis - Polynomial Regression
25 pages
Dav Lab Manual
No ratings yet
Dav Lab Manual
28 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Ai Tools and Applications-Lab
No ratings yet
Ai Tools and Applications-Lab
33 pages
2-3 Compressors
No ratings yet
2-3 Compressors
63 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
26 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
47 pages
Pandas Py
No ratings yet
Pandas Py
20 pages
AI Final PDF
No ratings yet
AI Final PDF
38 pages
Development of Ku Compact Broadband 1x4, 1x8 and 1x16 Power Dividers With SIW Optimized Chamfered Bends
No ratings yet
Development of Ku Compact Broadband 1x4, 1x8 and 1x16 Power Dividers With SIW Optimized Chamfered Bends
10 pages
UNIT-4 Important Q-A
No ratings yet
UNIT-4 Important Q-A
28 pages
Data Cleaning
No ratings yet
Data Cleaning
22 pages
Output Da Record
No ratings yet
Output Da Record
16 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
ML Record
No ratings yet
ML Record
19 pages
Experimenting With Data Analysis Packages and Statistical Operations
No ratings yet
Experimenting With Data Analysis Packages and Statistical Operations
18 pages
Guide 6 and 7 (Edited)
No ratings yet
Guide 6 and 7 (Edited)
13 pages
Fds Mannual
No ratings yet
Fds Mannual
39 pages
Machine Exercise 3
No ratings yet
Machine Exercise 3
22 pages
Xgboost
No ratings yet
Xgboost
12 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
Data Preparation
No ratings yet
Data Preparation
11 pages
Peter Kroes - Summary Paper
No ratings yet
Peter Kroes - Summary Paper
2 pages
Satip F 001 04
No ratings yet
Satip F 001 04
12 pages
AM19 EDA Assignment5
No ratings yet
AM19 EDA Assignment5
19 pages
Pca 2382487
No ratings yet
Pca 2382487
8 pages
Dal Programs With Output
No ratings yet
Dal Programs With Output
11 pages
AP19110010030 Assignment-4 Lab
No ratings yet
AP19110010030 Assignment-4 Lab
9 pages
Data Science Programs
No ratings yet
Data Science Programs
6 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Da Lab File 2
No ratings yet
Da Lab File 2
13 pages
Excel2016 Charts
No ratings yet
Excel2016 Charts
22 pages
Prac3.ipynb (Auto-R) - JupyterLab
No ratings yet
Prac3.ipynb (Auto-R) - JupyterLab
6 pages
FDS Slips Solution
No ratings yet
FDS Slips Solution
7 pages
BHMC17 P5.ipynb - Colaboratory
No ratings yet
BHMC17 P5.ipynb - Colaboratory
4 pages
Tinywow - MY CV - 44831924
No ratings yet
Tinywow - MY CV - 44831924
3 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
Ex7 HTML
No ratings yet
Ex7 HTML
3 pages
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
No ratings yet
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
9 pages
7 Data Transformation - Jupyter Notebook
No ratings yet
7 Data Transformation - Jupyter Notebook
3 pages
Machine Learning With Python Data Preprocessing, Analysis and Visualization
No ratings yet
Machine Learning With Python Data Preprocessing, Analysis and Visualization
8 pages
HW7 Code
No ratings yet
HW7 Code
3 pages
BTVN1 - Colaboratory
No ratings yet
BTVN1 - Colaboratory
4 pages
Localweighted - Jupyter Notebook
No ratings yet
Localweighted - Jupyter Notebook
4 pages
Week 4 Naive Bayes Classifier
No ratings yet
Week 4 Naive Bayes Classifier
2 pages
21BDS0357 VL2024250504577 Ast02
No ratings yet
21BDS0357 VL2024250504577 Ast02
5 pages
Nlp2.ipynb - Colab
No ratings yet
Nlp2.ipynb - Colab
3 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Assignment1 VidulGarg
No ratings yet
Assignment1 VidulGarg
2 pages
Verification Submission: Updated Green Mark Score Calculator Sheet
No ratings yet
Verification Submission: Updated Green Mark Score Calculator Sheet
2 pages
No Dues Certificate.
No ratings yet
No Dues Certificate.
2 pages
A List of Factorial Math Constants
From Everand
A List of Factorial Math Constants
Archive Classics
No ratings yet

A5 A.ipynb - Colaboratory

Uploaded by

A5 A.ipynb - Colaboratory

Uploaded by

Assignment 5

Name: Divesh Tadimeti

Roll No: SYAIMLA63

Do Visit:https://www.mathsisfun.com/data/standard-normal-distribution.html For better

from google.colab import drive

/content/drive/MyDrive/Sem-3/Data Science Lab/A5/CSV Files/wine.csv

a) Data Preprocessing operations:

# Read the CSV file and handle null values

df.columns = ["Wine", "Alcohol", "Malic.acid"]

# Check for missing values

# Mean imputation for 'Alcohol' and 'Malic.acid'

b) Data Integration and Data Normalization:

df = pd.read_csv("/content/wine.csv", usecols=[0, 1, 2])

df.columns = ["Wine", "Alcohol", "Malic.acid"]

Wine Alcohol Malic.acid

0 13.20 1.78 2.14

1 13.16 2.36 2.67

2 14.37 1.95 2.50

3 13.24 2.59 2.87

4 14.20 1.76 2.45

from sklearn.preprocessing import StandardScaler

0 1 5.1 3.5 1.4 0.2 Iris-setosa

1 2 4.9 3.0 1.4 0.2 Iris-setosa

2 3 4.7 3.2 1.3 0.2 Iris-setosa

3 4 4.6 3.1 1.5 0.2 Iris-setosa

4 5 5.0 3.6 1.4 0.2 Iris-setosa

... ... ... ... ... ... ...

145 146 6.7 3.0 5.2 2.3 Iris-virginica

146 147 6.3 2.5 5.0 1.9 Iris-virginica

147 148 6.5 3.0 5.2 2.0 Iris-virginica

148 149 6.2 3.4 5.4 2.3 Iris-virginica

149 150 5.9 3.0 5.1 1.8 Iris-virginica

150 rows × 6 columns

df['Species'].unique() #THis will Print Categorical data

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

# Import label encoder

# label_encoder object knows

# Encode labels in column 'species'.

df = pd.read_csv('homeprices.csv') #reading csv file

0 monroe township 2600 550000

1 monroe township 3000 565000

2 monroe township 3200 610000

3 monroe township 3600 680000

4 monroe township 4000 725000

5 west windsor 2600 585000

6 west windsor 2800 615000

7 west windsor 3300 650000

8 west windsor 3600 710000

9 robinsville 2600 575000

10 robinsville 2900 600000

11 robinsville 3100 620000

12 robinsville 3600 695000

dummies = pd.get_dummies(df.town) #dummies is a method /keyword()get_dummies(df.column_d

monroe township robinsville west windsor

town area price monroe township robinsville west windsor

0 monroe township 2600 550000 1 0 0

1 monroe township 3000 565000 1 0 0

2 monroe township 3200 610000 1 0 0

3 monroe township 3600 680000 1 0 0

4 monroe township 4000 725000 1 0 0

5 west windsor 2600 585000 0 0 1

6 west windsor 2800 615000 0 0 1

7 west windsor 3300 650000 0 0 1

8 west windsor 3600 710000 0 0 1

9 robinsville 2600 575000 0 1 0

10 robinsville 2900 600000 0 1 0

11 robinsville 3100 620000 0 1 0

12 robinsville 3600 695000 0 1 0

You might also like