Code

The document loads taxonomic data, creates an adjacency matrix showing co-occurrences of taxa, constructs a graph from the matrix, embeds the graph nodes in 2D using t-SNE, clusters the embedded nodes using DBSCAN, and plots the results.

Uploaded by

Hugo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views2 pages

Code

Uploaded by

Hugo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

### Loading the file ###

import pandas as pd
f="C:/MP-CHEW/CHEW/cycle_2/lca.tsv"
df=pd.read_csv(f,sep="\t")#.sample(2000) #you can just sample here for testing
purposes
df["proteins"]=df["proteins"].str.split(", ")
edf=df.explode("proteins")
edf["OX"]=edf["proteins"].str.split("_").apply(lambda x: "_".join(x[-3:])) #these
are the taxonomies (GTDB taxid instead of NCBI)

#Data reduction: trim taxa based on frequency

s=edf.groupby("OX").size()
edf=edf[edf["OX"].isin(s[s>5].index)]
ut=edf["OX"].drop_duplicates()

### create adjacency matrix ###

dfm =edf[["u_ix","OX"]].merge(edf[["u_ix","OX"]],on="u_ix").query("OX_x != OX_y")
out=pd.crosstab(dfm["OX_x"],dfm["OX_y"])

#Data reduction: trim crosstab based on minimum adjacency?

# q=out[out.sum()>2].index
# out=out.loc[q,q]

### Graph construction

import networkx as nx
from node2vec import Node2Vec

graph=nx.from_pandas_adjacency(out)
node2vec=Node2Vec(graph,dimensions=10,walk_length=5,num_walks=20,workers=4) #not
sure what parameters I should select here
model=node2vec.fit(window=10,min_count=1)

### 2D embedding
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
# Retrieve node embeddings and corresponding subjects
node_targets = model.wv.index_to_key # list of node IDs
node_embeddings = (
model.wv.vectors
) # numpy.ndarray of size number of nodes times embeddings dimensionality

trans = TSNE(n_components=2) # or PCA

node_embeddings_2d = trans.fit_transform(node_embeddings)

### Clustering

from sklearn.cluster import DBSCAN

sw=s.loc[node_targets]
clustering = DBSCAN(eps=2,
min_samples=1).fit(node_embeddings_2d)#,sample_weight=sw) #distance would need
optimization?
clusters=clustering.labels_
uc=np.unique(clusters)
cluster_count=len(uc)

#plot clusters
import seaborn as sns
node_colors=np.array(sns.color_palette("Spectral",n_colors=cluster_count))
[clusters]
plt.scatter( node_embeddings_2d[:, 0],
node_embeddings_2d[:, 1],
c=node_colors,)

#plot intensity
plt.scatter( node_embeddings_2d[:, 0],
node_embeddings_2d[:, 1],
c=np.log(s.loc[node_targets].values)
,cmap='Spectral',s=0.2)

Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
Pattern Recognition Lab
No ratings yet
Pattern Recognition Lab
24 pages
graph_analysis_code
No ratings yet
graph_analysis_code
2 pages
graph_analysis2_code
No ratings yet
graph_analysis2_code
2 pages
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
No ratings yet
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
4 pages
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
No ratings yet
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
4 pages
graph_analysis3_code
No ratings yet
graph_analysis3_code
2 pages
Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831
No ratings yet
Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831
8 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Ml Lab Experiment Shortened With Same Output
No ratings yet
Ml Lab Experiment Shortened With Same Output
6 pages
ML II lab
No ratings yet
ML II lab
5 pages
ML
No ratings yet
ML
7 pages
Week 8 DS Practical (1)
No ratings yet
Week 8 DS Practical (1)
13 pages
twins code
No ratings yet
twins code
4 pages
ML 7
No ratings yet
ML 7
6 pages
DataScience All 1to8
No ratings yet
DataScience All 1to8
6 pages
AI and ML Lab Programs to Print
No ratings yet
AI and ML Lab Programs to Print
22 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
DOC-20241108-WA0003
No ratings yet
DOC-20241108-WA0003
16 pages
ml
No ratings yet
ml
11 pages
data preprocessing
No ratings yet
data preprocessing
9 pages
21BCE5775 Clustering
No ratings yet
21BCE5775 Clustering
42 pages
DEEP LEARNING MANUAL Final
No ratings yet
DEEP LEARNING MANUAL Final
14 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
1-Linear Regression and TensorFlow
No ratings yet
1-Linear Regression and TensorFlow
79 pages
Implementing KNN Algorithm on the Iris Dataset
No ratings yet
Implementing KNN Algorithm on the Iris Dataset
7 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
ai int-1
No ratings yet
ai int-1
6 pages
Classification and Dimension Reduction: Load Dataset
No ratings yet
Classification and Dimension Reduction: Load Dataset
11 pages
aiml
No ratings yet
aiml
18 pages
EE 559 HW2Code PDF
No ratings yet
EE 559 HW2Code PDF
7 pages
Clustering
No ratings yet
Clustering
1 page
Boston housing
No ratings yet
Boston housing
5 pages
1
No ratings yet
1
13 pages
AIML_lab_10
No ratings yet
AIML_lab_10
4 pages
mlalllabprgs
No ratings yet
mlalllabprgs
17 pages
DM ML Practical
No ratings yet
DM ML Practical
13 pages
Slip
No ratings yet
Slip
5 pages
ML Minimized Programs
No ratings yet
ML Minimized Programs
9 pages
AML_lab[1] (1)
No ratings yet
AML_lab[1] (1)
14 pages
Protein_Code_Explanation
No ratings yet
Protein_Code_Explanation
9 pages
Py 2
No ratings yet
Py 2
7 pages
Spectral Clustering
No ratings yet
Spectral Clustering
5 pages
Annex e Gui
No ratings yet
Annex e Gui
8 pages
DNN ALL Practical 28
No ratings yet
DNN ALL Practical 28
34 pages
Big Data Assignment - 7
No ratings yet
Big Data Assignment - 7
7 pages
Graph Embedding and Extensions: A General Framework For Dimensionality Reduction
No ratings yet
Graph Embedding and Extensions: A General Framework For Dimensionality Reduction
12 pages
Market analysis by pchandru
No ratings yet
Market analysis by pchandru
10 pages
Intro Cluster Problem Python
No ratings yet
Intro Cluster Problem Python
13 pages
ML Programs
No ratings yet
ML Programs
14 pages
Face Recognition Using Pca.ipynb
No ratings yet
Face Recognition Using Pca.ipynb
843 pages
Ai Predictor [SAB]
No ratings yet
Ai Predictor [SAB]
9 pages
Suneel Varma
No ratings yet
Suneel Varma
11 pages
Soft Sensor Code
No ratings yet
Soft Sensor Code
4 pages
Soft Sensor Code
No ratings yet
Soft Sensor Code
4 pages
Code
No ratings yet
Code
6 pages
Image Classification Handson-Image - Test
No ratings yet
Image Classification Handson-Image - Test
5 pages
Final_ML_Programs_075005
No ratings yet
Final_ML_Programs_075005
15 pages
featureselection
No ratings yet
featureselection
11 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet

Code

Uploaded by

Code

Uploaded by

### Loading the file ###

#Data reduction: trim taxa based on frequency

### create adjacency matrix ###

#Data reduction: trim crosstab based on minimum adjacency?

### Graph construction

trans = TSNE(n_components=2) # or PCA

from sklearn.cluster import DBSCAN

You might also like