0% found this document useful (0 votes)

18 views7 pages

Ass - 11.ipynb - Colab

The document outlines various data analysis techniques using Python, including distance metrics (Euclidean, Manhattan, Cosine, Jaccard) on the Iris dataset, density estimation methods (Parzen Window and Nearest Neighbor) on the Wine Quality dataset, and hierarchical clustering methods on customer data. It includes visualizations such as heatmaps and dendrograms to represent the results. Additionally, it discusses the implementation of agglomerative and divisive clustering methods with sample datasets.

Uploaded by

brotin2503

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views7 pages

Ass - 11.ipynb - Colab

Uploaded by

brotin2503

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

# Import necessary libraries

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.metrics.pairwise import euclidean_distances, manhattan_distances, cosine_similarity
from sklearn.preprocessing import StandardScaler, Binarizer
from scipy.spatial.distance import pdist, squareform, jaccard

# Load the Iris dataset

iris = load_iris()
X = iris.data
feature_names = iris.feature_names

# Standardize the features

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Compute Euclidean distance matrix

euclidean_dist = euclidean_distances(X_scaled)

# Compute Manhattan distance matrix

manhattan_dist = manhattan_distances(X_scaled)

# Compute Cosine similarity matrix

cosine_sim = cosine_similarity(X_scaled)

# Binarize the features for Jaccard similarity

binarizer = Binarizer()
X_binarized = binarizer.fit_transform(X_scaled)

# Compute Jaccard similarity matrix

# pdist computes pairwise distances; 'jaccard' computes Jaccard distance
# Subtracting from 1 converts distance to similarity
jaccard_dist = pdist(X_binarized, metric='jaccard')
jaccard_sim = 1 - squareform(jaccard_dist)

# Function to plot heatmap

def plot_heatmap(matrix, title, labels):
plt.figure(figsize=(10, 8))
sns.heatmap(matrix, xticklabels=labels, yticklabels=labels, cmap='viridis')
plt.title(title)
plt.show()

# Plot heatmaps for each proximity matrix

plot_heatmap(euclidean_dist, 'Euclidean Distance Matrix', feature_names)
plot_heatmap(manhattan_dist, 'Manhattan Distance Matrix', feature_names)
plot_heatmap(cosine_sim, 'Cosine Similarity Matrix', feature_names)
plot_heatmap(jaccard_sim, 'Jaccard Similarity Matrix', feature_names)
# Import necessary libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KernelDensity, NearestNeighbors
from scipy.stats import gaussian_kde

# Load the Wine Quality Dataset

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'
wine_data = pd.read_csv(url, sep=';')

# Extract the "alcohol" feature

alcohol = wine_data['alcohol'].values

# Define a range of values for plotting density estimates

alcohol_range = np.linspace(alcohol.min(), alcohol.max(), 1000).reshape(-1, 1)

# Parzen Window Density Estimation with different bandwidths

bandwidths = [0.1, 0.5, 1.0]

plt.figure(figsize=(12, 8))
for h in bandwidths:
kde = KernelDensity(kernel='gaussian', bandwidth=h).fit(alcohol.reshape(-1, 1))
log_density = kde.score_samples(alcohol_range)
plt.plot(alcohol_range, np.exp(log_density), label=f'Bandwidth h={h}')
plt.title('Parzen Window Density Estimation for "alcohol" Feature')
plt.xlabel('Alcohol')
plt.ylabel('Density')
plt.legend()
plt.grid(True)
plt.show()

# Nearest Neighbor Density Estimation with different k values

k_values = [5, 10, 20]

plt.figure(figsize=(12, 8))
for k in k_values:
nbrs = NearestNeighbors(n_neighbors=k).fit(alcohol.reshape(-1, 1))
distances, _ = nbrs.kneighbors(alcohol_range)
# Volume of the 1D ball is 2*distance in 1D
density = k / (len(alcohol) * 2 * distances[:, -1])
plt.plot(alcohol_range, density, label=f'k={k}')
plt.title('Nearest Neighbor Density Estimation for "alcohol" Feature')
plt.xlabel('Alcohol')
plt.ylabel('Density')
plt.legend()
plt.grid(True)
plt.show()
Hierarchical Clustering

!pip install pandas seaborn matplotlib scipy scikit-learn

!pip install scikit-misc
!pip install scikit-extra
# Import necessary libraries
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.metrics import pairwise_distances
#from sklearn_extra.cluster import KMedoids

# Load the dataset

url = "https://raw.githubusercontent.com/ShubhendraChoubey/Mall_Customers/main/Mall_Customers.csv"
data = pd.read_csv(url)

# Display the first few rows of the dataframe to understand the structure
print(data.head())

# Selecting relevant features

features = data[['Annual Income (k$)', 'Spending Score (1-100)']]
features = StandardScaler().fit_transform(features) # Scale the data

# ------------ Agglomerative Hierarchical Clustering ------------

def plot_dendrogram(linkage_matrix, title):
plt.figure(figsize=(10, 7))
dendrogram(linkage_matrix)
plt.title(title)
plt.xlabel('Samples')
plt.ylabel('Distance')
plt.show()

# Different linkage methods

linkage_methods = ['single', 'complete', 'average']
for method in linkage_methods:
Z = linkage(features, method=method)
plot_dendrogram(Z, title=f'Dendrogram - {method.capitalize()} Linkage')

# Agglomerative Clustering
for method in linkage_methods:
cluster_model = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage=method)
cluster_labels = cluster_model.fit_predict(features)

# Add cluster labels to original dataframe

data[f'Cluster_{method}'] = cluster_labels
plt.figure(figsize=(10, 6))
plt.scatter(data['Annual Income (k$)'], data['Spending Score (1-100)'], c=cluster_labels, cmap='viridis')
plt.title(f'Agglomerative Clustering - {method.capitalize()} Linkage')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.show()

# ------------ Divisive Clustering with ISODATA ------------

def isodata_clustering(features, threshold):

# Initialize with one cluster
current_clusters = [features]
clusters = []

while current_clusters:
cluster = current_clusters.pop(0)
clusters.append(cluster)

# Split the cluster if it has more than 1 point

if len(cluster) > 1:
# Calculate distance matrix
dist = pairwise_distances(cluster)
# Get the average distance
mean_distance = np.mean(dist)

# If the mean distance is greater than the threshold, split

if mean_distance > threshold:
# K-means with n_clusters=2 for split
kmedoids = KMedoids(n_clusters=2)
labels = kmedoids.fit_predict(cluster)

# Assign points to respective new clusters

new_clusters = [cluster[labels == i] for i in range(2)]
current_clusters.extend(new_clusters)

return clusters

# Experiment with different merge/split thresholds

Elements of Chemical Reaction Engineering - Solutions Manual (PDFDrive)
No ratings yet
Elements of Chemical Reaction Engineering - Solutions Manual (PDFDrive)
903 pages
Sanjey RS Lab
No ratings yet
Sanjey RS Lab
33 pages
DSM 2
No ratings yet
DSM 2
7 pages
Rsfinal
No ratings yet
Rsfinal
30 pages
DSM 1
No ratings yet
DSM 1
6 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
M PDF
No ratings yet
M PDF
13 pages
ML - Datascience Manual
No ratings yet
ML - Datascience Manual
64 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
33 pages
DSM 3
No ratings yet
DSM 3
6 pages
V
No ratings yet
V
8 pages
Machine Learning Programs
No ratings yet
Machine Learning Programs
10 pages
Wa0003
No ratings yet
Wa0003
16 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
No ratings yet
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
25 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
33 pages
ML
No ratings yet
ML
8 pages
Strangers
No ratings yet
Strangers
8 pages
DM Lab 02
No ratings yet
DM Lab 02
12 pages
Evaluation of Similarity Measurement For Image Retrieval
No ratings yet
Evaluation of Similarity Measurement For Image Retrieval
4 pages
Machine Learning Laboratory
No ratings yet
Machine Learning Laboratory
23 pages
Kmeans - Ipynb - Colab
No ratings yet
Kmeans - Ipynb - Colab
2 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
26 pages
ML 3
No ratings yet
ML 3
24 pages
Lab4 KNN
No ratings yet
Lab4 KNN
9 pages
Distance Metrics in Machine Learning
No ratings yet
Distance Metrics in Machine Learning
2 pages
ML Lab Manual
No ratings yet
ML Lab Manual
24 pages
K-Nearest Neighbors: Nipun Batra July 5, 2020
No ratings yet
K-Nearest Neighbors: Nipun Batra July 5, 2020
66 pages
ML Observation
No ratings yet
ML Observation
29 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Distances Similarities
No ratings yet
Distances Similarities
39 pages
ML Lab Mannual1
No ratings yet
ML Lab Mannual1
37 pages
BCSL606 Machine Learning Lab
No ratings yet
BCSL606 Machine Learning Lab
33 pages
Manhattan Distance Computer Vision Report
No ratings yet
Manhattan Distance Computer Vision Report
5 pages
9-2 Data Analysis and Pre-Processing Part 2 PDF
No ratings yet
9-2 Data Analysis and Pre-Processing Part 2 PDF
27 pages
ML Lab Manual
No ratings yet
ML Lab Manual
25 pages
ML Programs
No ratings yet
ML Programs
14 pages
Nearest Centroid
No ratings yet
Nearest Centroid
7 pages
Cheat Sheet
No ratings yet
Cheat Sheet
4 pages
Machine Learning Lab Manaul BCSL606
No ratings yet
Machine Learning Lab Manaul BCSL606
27 pages
ML Spy Programs
No ratings yet
ML Spy Programs
16 pages
Question-1 Code:: Name - Bhumika Verma Reg. No. - 19BCE1418 Teacher: Dr. S. Geetha Subject: CBIR LAB (L45+L46)
No ratings yet
Question-1 Code:: Name - Bhumika Verma Reg. No. - 19BCE1418 Teacher: Dr. S. Geetha Subject: CBIR LAB (L45+L46)
12 pages
ML Manual
No ratings yet
ML Manual
30 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
18 pages
Assignment # 1: Performance Timeline of Flynn Taxonomy
No ratings yet
Assignment # 1: Performance Timeline of Flynn Taxonomy
21 pages
Lesson 6 Similarities KNN
No ratings yet
Lesson 6 Similarities KNN
25 pages
Formulas at A Glance - IDS
No ratings yet
Formulas at A Glance - IDS
5 pages
BCSL606 Machine Learning Lab Final Draft
No ratings yet
BCSL606 Machine Learning Lab Final Draft
32 pages
FML 4
No ratings yet
FML 4
26 pages
Product Quantization For Nearest Neighbor Search
No ratings yet
Product Quantization For Nearest Neighbor Search
13 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
Instance Based Learning
No ratings yet
Instance Based Learning
20 pages
Seminar On Data Mining and Data Warehousing Concepts of Second Module Chapter Two
No ratings yet
Seminar On Data Mining and Data Warehousing Concepts of Second Module Chapter Two
7 pages
ML Lab Manual
No ratings yet
ML Lab Manual
43 pages
K Nearest Neighbor Classification
0% (1)
K Nearest Neighbor Classification
32 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
Insertion Sort
No ratings yet
Insertion Sort
3 pages
Radix Sort
No ratings yet
Radix Sort
5 pages
Quick Sort
No ratings yet
Quick Sort
4 pages
Selection Sort
No ratings yet
Selection Sort
3 pages
Bubble Sort
No ratings yet
Bubble Sort
3 pages
Merge Sort
No ratings yet
Merge Sort
5 pages
Software Engineering Lab
No ratings yet
Software Engineering Lab
5 pages
Heap Sort
No ratings yet
Heap Sort
4 pages
Assignment 09
No ratings yet
Assignment 09
23 pages
Assignment 8
No ratings yet
Assignment 8
7 pages
Ass - 10.ipynb - Colab
No ratings yet
Ass - 10.ipynb - Colab
8 pages
DSP W5 Handouts
No ratings yet
DSP W5 Handouts
10 pages
1668887handson Quantum Machine Learning With Python Volume 1 Get Started DR Frank Zickert PDF Download
No ratings yet
1668887handson Quantum Machine Learning With Python Volume 1 Get Started DR Frank Zickert PDF Download
76 pages
Designing Combinational Logic Circuits in Verilog - 2: Discussion 7.3
No ratings yet
Designing Combinational Logic Circuits in Verilog - 2: Discussion 7.3
32 pages
Fourier Transform
No ratings yet
Fourier Transform
16 pages
Applications of Thermodynamic Models
No ratings yet
Applications of Thermodynamic Models
4 pages
Productflyer - 978 3 642 05155 5 PDF
No ratings yet
Productflyer - 978 3 642 05155 5 PDF
1 page
Linear Predict
No ratings yet
Linear Predict
14 pages
Control System Kec602
No ratings yet
Control System Kec602
3 pages
‘
No ratings yet
‘
14 pages
Jinawi Awi
No ratings yet
Jinawi Awi
171 pages
Principles of Discrete Time Mechanics Jaroszkiewicz G. PDF Download
100% (1)
Principles of Discrete Time Mechanics Jaroszkiewicz G. PDF Download
45 pages
Ai Pyq
No ratings yet
Ai Pyq
33 pages
Controllability, Observability and Multivariable Zeros: Example 1
No ratings yet
Controllability, Observability and Multivariable Zeros: Example 1
7 pages
Sat Class 0811
0% (1)
Sat Class 0811
2 pages
Summer Term 2024 Course Handout: Date: 28.05.2024
No ratings yet
Summer Term 2024 Course Handout: Date: 28.05.2024
3 pages
Chapter - 5 Algebra
No ratings yet
Chapter - 5 Algebra
18 pages
Nonlinearity Test Summary - Bima
No ratings yet
Nonlinearity Test Summary - Bima
4 pages
Linear Programming and POM For Windows
No ratings yet
Linear Programming and POM For Windows
2 pages
Black Scholes Option Pricing Model - Student Version
No ratings yet
Black Scholes Option Pricing Model - Student Version
4 pages
Question-Answers in Machine Learning
No ratings yet
Question-Answers in Machine Learning
14 pages
Desalgo 02 - Practice - Exercises - 1
No ratings yet
Desalgo 02 - Practice - Exercises - 1
2 pages
Sample of Error Logs
No ratings yet
Sample of Error Logs
12 pages
Learning Representations On Logs For AIOps
No ratings yet
Learning Representations On Logs For AIOps
11 pages
Unit-5 Multirate Updated
No ratings yet
Unit-5 Multirate Updated
83 pages
Quantum Gravity As Gravitized Quantum Theory: Tristan H Ubsch and Djordje Minic
No ratings yet
Quantum Gravity As Gravitized Quantum Theory: Tristan H Ubsch and Djordje Minic
60 pages
Graph Algorithm
No ratings yet
Graph Algorithm
4 pages
Unit 1 - Control System - WWW - Rgpvnotes.in
No ratings yet
Unit 1 - Control System - WWW - Rgpvnotes.in
21 pages
Tentative Mphil, PHD Time Table Spring 2025 V2 (Ramzan) - 1
No ratings yet
Tentative Mphil, PHD Time Table Spring 2025 V2 (Ramzan) - 1
1 page
Machine Learning
No ratings yet
Machine Learning
122 pages