0% found this document useful (0 votes)

11 views17 pages

Ex No3

Uploaded by

janusrini14

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views17 pages

Ex No3

Uploaded by

janusrini14

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 17

Register No: 2022510020

Ex no : 3
Date : 28.03.2024

Data preparation for Exploration using

normalization, binning and sampling methods
AIM:
To prepare our dataset “NYC Property Sales” for exploration using normalization, binning and sampling
methods.

NORMALIZATION:
Normalization is a data technique that scales numeric values in a dataset to a standard range, ensuring all
features contribute equally to analysis. It prevents large-scale features from dominating the model.

Z-Score Normalization:
In our dataset, first Z-score normalization was used, making data have a mean of 0 and a standard deviation of
1. This was done for columns like 'RESIDENTIAL UNITS', 'COMMERCIAL UNITS', 'TOTAL UNITS',
'LAND SQUARE FEET', 'GROSS SQUARE FEET', and 'SALE PRICE'. This scaling makes these columns
comparable for better machine learning analysis.
Code:
from sklearn.preprocessing import StandardScaler, MinMaxScaler
columns_to_normalize = ['RESIDENTIAL UNITS', 'COMMERCIAL UNITS', 'TOTAL UNITS', 'LAND
SQUARE FEET', 'GROSS SQUARE FEET', 'SALE PRICE']
scaler = StandardScaler()
df_z_score_normalized = df.copy()
df_z_score_normalized[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])
print("Z-score normalized DataFrame:")
df_z_score_normalized[columns_to_normalize].head()

Output:

24
Register No: 2022510020

Min-Max Normalization:
To further preprocess the data, Min-Max normalization was applied using Scikit-learn’s MinMaxScaler.
This technique scales numeric values in a dataset to a specific range, typically between 0 and 1. The selected
numeric columns, such as ‘RESIDENTIAL UNITS’, ‘COMMERCIAL UNITS’, ‘TOTAL UNITS’, ‘LAND
SQUARE FEET’, ‘GROSS SQUARE FEET’, and ‘SALE PRICE’, were transformed using this method. Min-
Max normalization ensures that these columns are on a consistent scale, making them suitable for machine
learning analysis. The resulting Min-Max normalized DataFrame is displayed to observe the impact of this
scaling.
Code:
scaler = MinMaxScaler()
df_min_max_normalized = df.copy()
df_min_max_normalized[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])
print("Min-Max normalized DataFrame:")
df_min_max_normalized[columns_to_normalize].head()
Output:

Visualization of Min-Max Normalization Effects on Dataset Columns:

Using Lineplot:
To visually compare the effects of Min-Max normalization on different columns, line plots and
histograms are created before and after normalization using Matplotlib. For each numeric column in the dataset,
two plots are created: one for the original data and another for the data after Min-Max normalization.
Histogram:
Code:
columns_to_normalize = ['LAND SQUARE FEET', 'GROSS SQUARE FEET', 'SALE_PRICE_IN_M']
plt.figure(figsize=(15,5))
for idx,column in enumerate(columns_to_normalize,start=1):
plt.subplot(1,len(columns_to_normalize),idx)
plt.hist(df[column],bins=20,color='skyblue',edgecolor='black')
25
Register No: 2022510020

plt.xlabel(column)
plt.ylabel('frequency')
plt.title('histogram of '+column.lower())
plt.suptitle('DATA BEFORE NORMALIZATION')
plt.tight_layout()
plt.show()
scaler = MinMaxScaler()
df[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])
plt.figure(figsize=(15,5))
for idx,column in enumerate(columns_to_normalize,start=1):
plt.subplot(1,len(columns_to_normalize),idx)
plt.hist(df[column],bins=20,color='skyblue',edgecolor='black')
plt.xlabel(column)
plt.ylabel('frequency')
plt.title('histogram of '+column.lower())
plt.suptitle('DATA AFTER MinMax NORMALIZATION')
plt.tight_layout()
plt.show()
Output:

26
Register No: 2022510020

Lineplot:
Code:
fig, axes = plt.subplots(nrows=len(columns_to_normalize), ncols=2, figsize=(12, 10))
for i, column in enumerate(columns_to_normalize):
# Line plot before normalization
df[[column]].plot(ax=axes[i, 0])
axes[i, 0].set_title(f'{column} (Before Normalization)')
axes[i, 0].set_ylabel('Value')
# Min-Max Normalization
min_val = df[column].min()
max_val = df[column].max()
normalized_data = (df[column] - min_val) / (max_val - min_val)
normalized_data.plot(ax=axes[i, 1], color='r')
axes[i, 1].set_title(f'{column} (After Min-Max Normalization)')
axes[i, 1].set_ylabel('Value')
plt.tight_layout()
fig.suptitle("Min-Max Normalization", fontsize=16, y=1.05)
plt.show()
Output:

27
Register No: 2022510020

Visualization of Z-Score Normalization Effects on Dataset Columns:

To visually compare the effects of Z-score normalization on different columns, line plots and histograms
are created before and after normalization using Matplotlib. For each numeric column in the dataset, two plots
are generated: one displaying the original data and another showing the data after Z-score normalization.
Histogram:
Code:
columns_to_normalize = ['LAND SQUARE FEET', 'GROSS SQUARE FEET', 'SALE_PRICE_IN_M']
plt.figure(figsize=(15,5))
for idx,column in enumerate(columns_to_normalize,start=1):
plt.subplot(1,len(columns_to_normalize),idx)
plt.hist(df[column],bins=20,color='skyblue',edgecolor='black')
plt.xlabel(column)
plt.ylabel('frequency')

28
Register No: 2022510020

plt.title('histogram of '+column.lower())
plt.suptitle('DATA BEFORE NORMALIZATION')
plt.tight_layout()
plt.show()
scaler = StandardScaler()
df[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])
plt.figure(figsize=(15,5))
for idx,column in enumerate(columns_to_normalize,start=1):
plt.subplot(1,len(columns_to_normalize),idx)
plt.hist(df[column],bins=20,color='skyblue',edgecolor='black')
plt.xlabel(column)
plt.ylabel('frequency')
plt.title('histogram of '+column.lower())
plt.suptitle('DATA AFTER Z-SCORE NORMALIZATION')
plt.tight_layout()
plt.show()

Output:

29
Register No: 2022510020

Lineplot:
Code:
scaler = StandardScaler()
df_z_score_normalized = df.copy()
df_z_score_normalized[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])
fig, axes = plt.subplots(nrows=len(columns_to_normalize), ncols=2, figsize=(12, 10))
for i, column in enumerate(columns_to_normalize):
df[column].plot(ax=axes[i, 0])
axes[i, 0].set_title(f'{column} (Before Normalization)')
axes[i, 0].set_ylabel('Value')
df_z_score_normalized[column].plot(ax=axes[i, 1], color='r')
axes[i, 1].set_title(f'{column} (After Z-score Normalization)')
axes[i, 1].set_ylabel('Value')
plt.tight_layout()
fig.suptitle("Z-score Normalization Line Plots", fontsize=16, y=1.05)
plt.show()

Output:

30
Register No: 2022510020

BINNING:
Binning is a data preprocessing technique used to transform continuous numerical data into discrete bins
or categories. It involves grouping numerical values into intervals or ranges, which can be useful for data
analysis and visualization tasks.
Code:
df['SALE_PRICE_IN_M'].plot.hist(bins=10)
Output:

31
Register No: 2022510020

Code:
maxrange=max(df['SALE_PRICE_IN_M'])
minrange=min(df['SALE_PRICE_IN_M'])
range=maxrange-minrange
bins=3
binwidth=range/bins
print(maxrange)
print(minrange)
print(range)
print(binwidth)
Output:
4.875
0.065789
4.809211
1.6030703333333334
Equal width binning:
The following code snippet demonstrates the process of equal-width binning using the Pandas library
(pd.cut function) and visualizes the resulting bins with a histogram using Matplotlib. This technique helps in
understanding how continuous data in a specific column is segmented into distinct categories of equal width.
Borough:
Code:
column_to_bin = 'BOROUGH'
num_bins = 5 # Increase the number of bins
bin_edges = pd.cut(df[column_to_bin], bins=num_bins, precision=2)
plt.figure(figsize=(10, 6))

32
Register No: 2022510020

plt.hist(df[column_to_bin], bins=num_bins, edgecolor='black')

plt.xlabel(column_to_bin)
plt.ylabel('Frequency')
plt.title('Histogram of BOROUGH with Equal-Width Binning')
plt.grid(True)
plt.show()

Output:

Sale price:
Code:
custom_labels = ['Low', 'Medium', 'High']
columns_to_bin = ['SALE_PRICE_IN_M']
num_bins = 3
# Iterate through each column and perform equal-width binning
for idx, column in enumerate(columns_to_bin, start=1):
# Perform equal-width binning
bins = pd.cut(df[column], bins=num_bins, labels=custom_labels, include_lowest=True)
# Count the number of data points in each bin
bin_counts = bins.value_counts().sort_index()
# Plot the histogram of binned data

33
Register No: 2022510020

plt.subplot(1, len(columns_to_bin), idx)

plt.bar(bin_counts.index.astype(str), bin_counts.values, color='skyblue')
# Add labels and title
plt.xlabel('sale price')
plt.ylabel('Frequency')
plt.title('Binned Histogram of ' + column)
plt.tight_layout()
plt.show()

Output:

Custom binning:
The following code snippet demonstrates custom binning applied to the 'YEAR BUILT' column in a
dataset. Custom binning involves manually defining intervals or bins to group data based on specific criteria. In
this case, construction years are categorized into custom-defined intervals such as [1875-1900], [1900-1925],
and so forth.
Code:
custom_bins = [1875, 1900, 1925, 1950, 1975, 2000, 2024]
column_to_bin = 'YEAR BUILT'

34
Register No: 2022510020

bin_edges = pd.cut(df[column_to_bin], bins=custom_bins, precision=0).unique().categories

bin_edges = [interval.left for interval in bin_edges] + [bin_edges[-1].right]
hist_data, bin_edges = np.histogram(df[column_to_bin], bins=bin_edges)
plt.figure(figsize=(10, 6))
plt.hist(df[column_to_bin], bins=bin_edges, edgecolor='black')
plt.xlabel(column_to_bin)
plt.ylabel('Frequency')
plt.title('Histogram of YEAR BUILT with Custom Binning')
plt.grid(True)
plt.show()

Output:

Custom binning on Sales price:

The code snippet performs custom binning on the 'SALE PRICE' data, dividing it into specific price
ranges. It then visualizes the distribution of buildings across these price bins using a bar plot. This visualization
helps to understand how the number of buildings varies across different sale price ranges, providing insights
into the distribution pattern of sale prices within the dataset.
Code:
35
Register No: 2022510020

sale_price_bins = [0, 100000, 500000, 1000000, 5000000, float('inf')]

df['SALE PRICE BINNED'] = pd.cut(df['SALE PRICE'], bins=sale_price_bi
sale_price_counts = df['SALE PRICE BINNED'].value_counts().sort_index()
plt.figure(figsize=(10, 6))
sale_price_counts.plot(kind='bar', color='lightblue')
plt.title('Distribution of Buildings by Sale Price')
plt.xlabel('Sale Price Bins')
plt.ylabel('Number of Buildings')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

Output:

Sampling:
Sampling is a data preprocessing technique used to select a subset of data points from a larger dataset,
often to reduce computational complexity or to ensure representative training and testing sets.
Random sampling:

36
Register No: 2022510020

Random sampling is a fundamental technique in statistics and data analysis, crucial for obtaining
representative subsets from larger datasets.The following code snippet randomly selects 10,000 data points from
the DataFrame df using the sample method. This random selection ensures a representative subset for analysis
and modeling purposes. The random_state=42 parameter ensures reproducibility of the random sample. The line
random_sample.head() displays the first few rows of the randomly sampled data.
Code:
sample_size=10000
random_sample=df.sample(n=sample_size,random_state=42)
Output:

Systematic sampling:
Systematic sampling involves selecting data points at regular intervals from an ordered dataset. In the
provided code snippet, a step size is calculated to create a systematic sample of approximately 10,000 data
points from the DataFrame df. This systematic sampling method ensures a structured and representative subset
of data for analysis.

Code:
step = int(len(df)/10000)
systematic_sample = df.iloc[::step]
systematic_sample
Output:

37
Register No: 2022510020

Stratified Sampling:
The following code snippet performs stratified sampling using Stratified K-Fold cross-validation,
encodes categorical data using LabelEncoder, separates features from the target variable 'BOROUGH,' and
trains a KNN classifier. It then predicts 'BOROUGH' for test data, computes classifier accuracy, and visualizes
the target variable's distribution before and after sampling.
Code:
from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
mixed_cols = df.select_dtypes(include=['object']).columns.tolist()
df[mixed_cols] = df[mixed_cols].astype(str)
label_encoder = LabelEncoder()
for col in mixed_cols:
df[col] = label_encoder.fit_transform(df[col])
X = df.drop('BOROUGH', axis=1) # Features
y = df['BOROUGH'] # Target variable
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
train_index, test_index = next(skf.split(X, y))
X_train, X_test = X.iloc[train_index], X.iloc[test_index]
y_train, y_test = y.iloc[train_index], y.iloc[test_index]
knn = KNeighborsClassifier(n_neighbors=5)

38
Register No: 2022510020

knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
sampled_data = pd.concat([X_test, y_test], axis
fig, axes = plt.subplots(1, 2, figsize=(12, 6))
stage_counts = y.value_counts()
axes[0].pie(stage_counts, labels=stage_counts.index, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Pie Chart of BOROUGH in Unsampled Data')
stage_counts_sampled = pd.Series(y_pred_concatenated).value_counts()
axes[1].pie(stage_counts_sampled, labels=stage_counts_sampled.index, autopct='%1.1f%%', startangle=90)
axes[1].set_title('Pie Chart of BOROUGH after Stratified Sampling')
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy of KNN classifier: {accuracy:.2f}")
Output:

Proportionate Sampling:
The following code snippet presents a comparison of the distribution of 'BOROUGH' categories in two
scenarios: the original (unsampled) dataset and after applying proportionate sampling. The 'BOROUGH'
column represents different borough categories, and the pie charts visualize the percentage of buildings within
each borough category.The first pie chart displays the distribution of 'BOROUGH' in the original dataset,
providing an initial understanding of how buildings are distributed across different boroughs.The second pie
chart illustrates the distribution of 'BOROUGH' after applying proportionate sampling, where each borough
category is sampled in proportion to its representation in the original dataset.
Code:
stage_counts= df['BOROUGH'].value_counts()
plt.pie(stage_counts, labels=stage_counts.index, autopct='%1.1f%%', startangle=90)
plt.title('Pie Chart of BOROUGH in unsampled data')

39
Register No: 2022510020

plt.legend()
plt.show()
sampled_data2=df.groupby('BOROUGH', group_keys=False).apply(lambda x: x.sample(frac=0.6))
stage_counts = sampled_data2['BOROUGH'].value_counts()
plt.pie(stage_counts, labels=stage_counts.index, autopct='%1.1f%%', startangle=90)
plt.title('Pie Chart of BOROUGH after Proportionate Sampling')
plt.legend()
plt.show()
Output:

RESULT:
The data has been prepared using Normalization, Binning and sampling.
40

Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Lecture 7 Data Transformation and Dimensionality Reduction
No ratings yet
Lecture 7 Data Transformation and Dimensionality Reduction
22 pages
Data Assigment 1
100% (2)
Data Assigment 1
32 pages
Condensate Recovery Meter CRM 485R: Energy Conservation - Environment - Process Efficiency
0% (1)
Condensate Recovery Meter CRM 485R: Energy Conservation - Environment - Process Efficiency
6 pages
Rapid Miner - Data Preparation
100% (1)
Rapid Miner - Data Preparation
17 pages
437 Xbox @iiicvv
No ratings yet
437 Xbox @iiicvv
45 pages
C# Lab Report VTU
No ratings yet
C# Lab Report VTU
75 pages
ML Lab Manual
No ratings yet
ML Lab Manual
110 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
Feature Extraction and Dimensionality Reduction - 2
No ratings yet
Feature Extraction and Dimensionality Reduction - 2
75 pages
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
No ratings yet
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
12 pages
Model Selection and Feature Engineering
No ratings yet
Model Selection and Feature Engineering
64 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
Machine Learning - Lec4 - 5
No ratings yet
Machine Learning - Lec4 - 5
41 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Feature Engineering
No ratings yet
Feature Engineering
50 pages
Chapter 2. Pre-Processing Data
No ratings yet
Chapter 2. Pre-Processing Data
37 pages
Week 10
No ratings yet
Week 10
50 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
AbidAdhikari26840 DWDM
No ratings yet
AbidAdhikari26840 DWDM
43 pages
Unit2 Modified
No ratings yet
Unit2 Modified
42 pages
Seven Lab Instruction
No ratings yet
Seven Lab Instruction
38 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
26 pages
AD3411
No ratings yet
AD3411
28 pages
ML Observation
No ratings yet
ML Observation
29 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
32 pages
Da Lab It
No ratings yet
Da Lab It
20 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
dmdw2 2
No ratings yet
dmdw2 2
24 pages
ML Lab Exam Document
No ratings yet
ML Lab Exam Document
14 pages
Feature Engineering
No ratings yet
Feature Engineering
18 pages
Edp 3
No ratings yet
Edp 3
16 pages
Da Lab File 2
No ratings yet
Da Lab File 2
13 pages
8 Normalization Methods
No ratings yet
8 Normalization Methods
10 pages
Azure MSP Playbook
No ratings yet
Azure MSP Playbook
56 pages
Ds 5
No ratings yet
Ds 5
9 pages
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
No ratings yet
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
11 pages
Mine 5
No ratings yet
Mine 5
8 pages
DS Day 5
No ratings yet
DS Day 5
11 pages
Data Preparation
No ratings yet
Data Preparation
11 pages
Dal Programs With Output
No ratings yet
Dal Programs With Output
11 pages
Machine Learning Lab - Preprocessing
No ratings yet
Machine Learning Lab - Preprocessing
13 pages
1 Data Mining 2 Lab - 1 3 Vinay Sirohi 4 2139472 5 Identify A Dataset, Preprocess The Dataset Set Using Normaliza-Tion Techniques
No ratings yet
1 Data Mining 2 Lab - 1 3 Vinay Sirohi 4 2139472 5 Identify A Dataset, Preprocess The Dataset Set Using Normaliza-Tion Techniques
9 pages
X - AI - Question Bank2022
No ratings yet
X - AI - Question Bank2022
7 pages
Tutorial 4
No ratings yet
Tutorial 4
8 pages
Exp 2
No ratings yet
Exp 2
6 pages
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
No ratings yet
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
10 pages
Python Code Longterm
No ratings yet
Python Code Longterm
5 pages
MCA Sem 1 Question Bank
No ratings yet
MCA Sem 1 Question Bank
222 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Fds QB
No ratings yet
Fds QB
6 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
4 pages
21BDS0357 VL2024250504577 Ast02
No ratings yet
21BDS0357 VL2024250504577 Ast02
5 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
Name: Haseeb Arif Reg No: SP18-BSE-087 Date of Submission: May 10, 2020. Submitted To: Ms. Saira Beg
100% (2)
Name: Haseeb Arif Reg No: SP18-BSE-087 Date of Submission: May 10, 2020. Submitted To: Ms. Saira Beg
7 pages
Lab 3 - Normalization of Dataset
No ratings yet
Lab 3 - Normalization of Dataset
2 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
Assignment#2 RT WQ2021
No ratings yet
Assignment#2 RT WQ2021
2 pages
Adv Itt CAAT MCQ
No ratings yet
Adv Itt CAAT MCQ
5 pages
Normalization: Normalization Techniques at A Glance
No ratings yet
Normalization: Normalization Techniques at A Glance
5 pages
04 - Data Normalization in Python - en
No ratings yet
04 - Data Normalization in Python - en
1 page
Data Preprocessing PT 2
No ratings yet
Data Preprocessing PT 2
7 pages
Sunspec Modbus Protocol For SMA Device
No ratings yet
Sunspec Modbus Protocol For SMA Device
19 pages
Adobe Creative Suite 3 Design Premium: Deliver Innovative Ideas in Print, Web, and Mobile
No ratings yet
Adobe Creative Suite 3 Design Premium: Deliver Innovative Ideas in Print, Web, and Mobile
18 pages
Virtual Gamepad Ik - Icp
No ratings yet
Virtual Gamepad Ik - Icp
1 page
A Concise Survey Paper On Automated Plant Irrigation System
No ratings yet
A Concise Survey Paper On Automated Plant Irrigation System
7 pages
HNDR-S4812 User's Manual
No ratings yet
HNDR-S4812 User's Manual
74 pages
SM Campaign LT Explained
No ratings yet
SM Campaign LT Explained
6 pages
Config Idevice Standard DOCU V1d0 en
No ratings yet
Config Idevice Standard DOCU V1d0 en
44 pages
WD19DC Dell Docking Station Troubleshoot
No ratings yet
WD19DC Dell Docking Station Troubleshoot
6 pages
Unit 1 - Cloud Computing
No ratings yet
Unit 1 - Cloud Computing
12 pages
LTM230HT05 V
No ratings yet
LTM230HT05 V
34 pages
UISearchController Tutorial Getting Started
No ratings yet
UISearchController Tutorial Getting Started
16 pages
Moving From SAP ECC To S
No ratings yet
Moving From SAP ECC To S
8 pages
IOT SEM 5 2K23 - 24 - Solution Set Editable
No ratings yet
IOT SEM 5 2K23 - 24 - Solution Set Editable
60 pages
2020 - Supervised Community Detection With Line Graph Neural Networks - Chen Et Al
No ratings yet
2020 - Supervised Community Detection With Line Graph Neural Networks - Chen Et Al
24 pages
S130 SDS v2.0
No ratings yet
S130 SDS v2.0
87 pages
Data Sheet FW 6
No ratings yet
Data Sheet FW 6
7 pages
Using Charles Proxy
No ratings yet
Using Charles Proxy
7 pages
Benefits of Lift-and-Shift Strategy For Cloud Migration: Compute Storage Network On-Premise Infrastructure
No ratings yet
Benefits of Lift-and-Shift Strategy For Cloud Migration: Compute Storage Network On-Premise Infrastructure
22 pages
It Pre-Final Examination
No ratings yet
It Pre-Final Examination
11 pages
Skyblue - Operations: Operating Manual
No ratings yet
Skyblue - Operations: Operating Manual
47 pages
Wireless Network Assignment
No ratings yet
Wireless Network Assignment
5 pages
Terms of Service
No ratings yet
Terms of Service
3 pages

Ex No3

Uploaded by

Ex No3

Uploaded by

Register No: 2022510020

Data preparation for Exploration using

Visualization of Min-Max Normalization Effects on Dataset Columns:

Visualization of Z-Score Normalization Effects on Dataset Columns:

plt.hist(df[column_to_bin], bins=num_bins, edgecolor='black')

plt.subplot(1, len(columns_to_bin), idx)

bin_edges = pd.cut(df[column_to_bin], bins=custom_bins, precision=0).unique().categories

Custom binning on Sales price:

sale_price_bins = [0, 100000, 500000, 1000000, 5000000, float('inf')]

You might also like