0% found this document useful (0 votes)

10 views4 pages

Gensim: A Python Library For NLP and Word Embeddings.: Import As Import As From Import From Import From Import

The document outlines a program that uses dimensionality reduction techniques like PCA to visualize word embeddings from a selected domain, specifically sports. It includes code to generate semantically similar words for a given input using GloVe embeddings. Additionally, it provides examples of visualizing word relationships and printing vector embeddings for specific words.

Uploaded by

Shamanth M

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views4 pages

Gensim: A Python Library For NLP and Word Embeddings.: Import As Import As From Import From Import From Import

Uploaded by

Shamanth M

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

PG2: Use dimensionality reduction (e.g., PCA or t-SNE) to visualize word embeddings for PG 1.

Select
10 words from a specific domain (e.g., sports, technology) and visualize their embeddings. Analyze
clusters and relationships.

Generate contextually rich outputs using embeddings. Write a program to generate 5 semantically
similar words for a given input

Soln:

!pip install gensim

#Gensim: A Python library for NLP and word embeddings.

Use dimensionality reduction (e.g., PCA or t-
SNE) to visualize word embeddings for PG1. Select 10 words from a specific domain (e.g., sp
orts, technology) and visualize their embeddings. Analyze clusters and relationships. Genera
te contextually rich outputs using embeddings. Write aprogram to generate 5 semantically si
milar words for a given input.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from gensim.models import KeyedVectors

# Load pre-trained GloVe embeddings (100d model)

model_100d =
KeyedVectors.load_word2vec_format("/content/glove.6B.100d.word2vec.txt"
, binary=False,limit=500000)

# Select 10 words from a specific domain (sports) # Included other

words to show how embeddings are different
words = ['football', 'soccer', 'basketball',
'tennis','engineer','information', 'baseball', 'coach', 'goal',
'player', 'referee', 'team']
word_vectors = np.array([model_100d[word] for word in words])

# Dimensionality reduction using PCA

# Using PCA to reduce to 2D for visualization
pca = PCA(n_components=2)
pca_result = pca.fit_transform(word_vectors)

# Plotting the words in 2D space

plt.figure(figsize=(10, 8))
for i, word in enumerate(words):
plt.scatter(pca_result[i, 0], pca_result[i, 1])
plt.text(pca_result[i, 0] + 0.02, pca_result[i, 1], word,
fontsize=12)
plt.title("PCA Visualization of Sports-related Word Embeddings (100d)")
plt.xlabel("PCA Dimension 1")
plt.ylabel("PCA Dimension 2")
plt.show()

# 5 Semantically Similar Words Generator Function

def get_similar_words(word, model, topn=5):
similar_words = model.similar_by_word(word, topn=topn)
return similar_words

# Example: Get 5 words similar to "football"

similar_words_football = get_similar_words('football', model_100d,
topn=5)
print(f"Words similar to 'football': {similar_words_football}")

Output:
Output: Words similar to 'football': [('soccer', 0.8732221722602844),
('basketball', 0.8555637001991272), ('league', 0.815336287021637),
('rugby', 0.8007532954216003), ('hockey', 0.7833694815635681)]

# Select the words you want to print embeddings for

words_to_print = ['football', 'soccer']

# Print their embeddings

for word in words_to_print:
if word in model_100d:
print(f"Vector embedding for '{word}':\n{model_100d[word]}\n")
else:
print(f"Word '{word}' not found in the embeddings model.")

Output:

Vector embedding for 'football':

[ 0.43865 0.10537 0.45972 -1.0724 -1.2471 0.76351
0.47528 0.083857 -0.9127 -0.27328 -0.018591 -1.184
0.22748 0.16847 -0.52158 0.11339 1.3757 0.11892
-0.37683 0.51149 -0.8833 0.96259 0.18143 -0.407
0.036181 -0.74432 -0.0027401 -0.70068 0.53103 0.45114
-0.72884 1.0631 -0.28008 -0.63848 0.15645 -0.46927
-1.0071 1.033 -1.4354 -0.27485 0.048984 0.13951
0.43072 -0.78791 0.41097 0.58509 1.0155 -0.1839
0.27487 -0.90866 -0.30441 -0.17396 0.020941 0.62813
0.10978 -2.3885 -0.56364 -0.27193 0.98728 0.70608
-0.512 0.52636 -0.78503 -0.68714 0.38121 0.097582
-0.20237 0.43208 -0.30527 0.57925 0.62619 -0.47415
0.33834 -0.28421 -0.097465 0.19597 0.54849 0.59918
-0.41576 0.1021 0.6766 0.0042009 -0.12354 -0.76613
-0.27436 -0.68248 -1.0789 -0.16708 0.81671 0.026999
-0.38707 0.40448 -1.0995 0.64718 -0.12802 -0.26084
-0.96701 0.88078 1.012 -0.022223 ]

Vector embedding for 'soccer':

[ 8.3777e-01 5.1890e-01 6.4015e-01 -6.2606e-01 -9.7474e-01 1.0127e+00

6.2729e-02 4.4316e-01 -8.3299e-01 7.9888e-02 -1.1815e-02 -1.1265e+00

1.2554e-01 -3.4206e-01 -5.1422e-01 3.8526e-01 1.0032e+00 -1.5172e-03

-2.2684e-01 3.5658e-01 -6.2449e-01 8.7271e-01 3.6670e-01 4.6462e-01

-1.0046e-01 -4.4798e-01 -2.1813e-01 -5.6423e-01 5.6665e-01 5.1601e-01

-5.6511e-01 7.1919e-01 -6.5347e-01 -9.5952e-02 5.6028e-01 -4.9956e-01

-7.4757e-01 6.8516e-01 -1.4518e+00 -1.1207e-01 1.0241e-01 3.0537e-02

1.1326e-02 -8.6873e-01 6.3622e-01 4.9539e-01 3.0538e-01 7.7133e-02

7.4048e-02 -7.1163e-01 -1.9159e-01 -3.4168e-01 -4.7185e-01 5.6794e-01

3.7454e-01 -1.9207e+00 -8.6040e-01 5.7058e-01 1.0700e+00 9.2101e-01

-6.4825e-01 5.3516e-01 -1.5556e-01 -9.0021e-01 -1.7459e-01 3.3146e-02

-5.7512e-01 2.9963e-01 -4.0008e-01 -1.0765e-01 4.1384e-01 -7.2178e-01

1.1442e-01 -2.1291e-01 5.4949e-02 1.3213e-01 7.8766e-01 8.9291e-02

-6.6689e-01 3.3998e-01 9.7163e-01 -8.4871e-02 1.7542e-01 -4.6039e-01

-8.5885e-02 -7.5960e-01 -1.5071e+00 2.1545e-01 2.1209e-01 -4.4837e-01

-2.5882e-01 3.3814e-01 -4.7979e-01 2.1059e-01 2.3621e-01 -3.6699e-01

-8.1440e-01 5.4515e-01 9.7946e-01 2.3367e-01]

Data Mining Portfolio
No ratings yet
Data Mining Portfolio
19 pages
Constructing and Evaluating Word Embeddings
No ratings yet
Constructing and Evaluating Word Embeddings
33 pages
Numpy For Data Science ?
No ratings yet
Numpy For Data Science ?
9 pages
Information Security 06 Hashing and Digital Signatures
No ratings yet
Information Security 06 Hashing and Digital Signatures
29 pages
Word Guessing Game (Hangman) PPT
0% (1)
Word Guessing Game (Hangman) PPT
7 pages
Digital Audio Processing Revisited: Juan P Bello
No ratings yet
Digital Audio Processing Revisited: Juan P Bello
29 pages
Project 1
No ratings yet
Project 1
13 pages
3 Greedy Method New
No ratings yet
3 Greedy Method New
92 pages
Genai
No ratings yet
Genai
17 pages
A 3D Ray Tracing Approach
No ratings yet
A 3D Ray Tracing Approach
21 pages
05 Deep Learning and Neural Nets
No ratings yet
05 Deep Learning and Neural Nets
184 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
49 pages
Numpy For Data Science
No ratings yet
Numpy For Data Science
94 pages
Machine Learning: Aigerim Bogyrbayeva
No ratings yet
Machine Learning: Aigerim Bogyrbayeva
85 pages
Recurrent Neural Networks (RNNS) : 10-301/10-601 Introduction To Machine Learning
No ratings yet
Recurrent Neural Networks (RNNS) : 10-301/10-601 Introduction To Machine Learning
86 pages
UNIT 5 Session 6
No ratings yet
UNIT 5 Session 6
67 pages
Lab4 103169894
No ratings yet
Lab4 103169894
34 pages
Data Mining
No ratings yet
Data Mining
18 pages
CH-3a (JCDF & JPDF)
No ratings yet
CH-3a (JCDF & JPDF)
98 pages
Building A Brain in 10 Minutes: Perceptron Research From The 50's & 6 Perceptron Research From The 50's & 6
No ratings yet
Building A Brain in 10 Minutes: Perceptron Research From The 50's & 6 Perceptron Research From The 50's & 6
14 pages
Rsfinal
No ratings yet
Rsfinal
30 pages
PythonAI VectorEmbeddingsForSharing
No ratings yet
PythonAI VectorEmbeddingsForSharing
46 pages
On The PDF of The Sum of Random Vectors
No ratings yet
On The PDF of The Sum of Random Vectors
15 pages
Lesson 13
No ratings yet
Lesson 13
29 pages
FDS Lab Program
No ratings yet
FDS Lab Program
11 pages
Word Embedding Generation For Telugu Corpus
No ratings yet
Word Embedding Generation For Telugu Corpus
28 pages
Lab4 KNN
No ratings yet
Lab4 KNN
9 pages
cs229 Python Friday
No ratings yet
cs229 Python Friday
40 pages
8 Autoencoders
No ratings yet
8 Autoencoders
33 pages
Gen Ai Lab Programs
No ratings yet
Gen Ai Lab Programs
15 pages
LSA, pLSA, and LDA Acronyms, Oh My!
No ratings yet
LSA, pLSA, and LDA Acronyms, Oh My!
114 pages
L2. Numpy
No ratings yet
L2. Numpy
24 pages
Lecture - 7 MSDS
No ratings yet
Lecture - 7 MSDS
32 pages
Covering and Coloring Mat175
No ratings yet
Covering and Coloring Mat175
9 pages
What Are Autoencoders?
No ratings yet
What Are Autoencoders?
75 pages
Lecun 20181015 Ihes Gomax PDF
No ratings yet
Lecun 20181015 Ihes Gomax PDF
109 pages
Aula 10
No ratings yet
Aula 10
49 pages
Course: Module-4:: Renewable Energy Sources - 22ETS15E Tidal Power
No ratings yet
Course: Module-4:: Renewable Energy Sources - 22ETS15E Tidal Power
18 pages
Feature Embedding
No ratings yet
Feature Embedding
5 pages
Advanced Seismic Data Analysis Presentation On: Deconvolution
No ratings yet
Advanced Seismic Data Analysis Presentation On: Deconvolution
13 pages
Profitability of simple fixed strategies in sport betting: Soccer, Spain Primera Division (LaLiga), 2009-2019
From Everand
Profitability of simple fixed strategies in sport betting: Soccer, Spain Primera Division (LaLiga), 2009-2019
Igor Stukanov
No ratings yet
Tarea 8
No ratings yet
Tarea 8
7 pages
Lab1 ML Eac22050
No ratings yet
Lab1 ML Eac22050
17 pages
Allnlp
No ratings yet
Allnlp
15 pages
Fqiwefp
No ratings yet
Fqiwefp
2 pages
16 - Practical - 6-7.ipynb - Colab
No ratings yet
16 - Practical - 6-7.ipynb - Colab
3 pages
08 Embedding Et RNN v2.11
No ratings yet
08 Embedding Et RNN v2.11
69 pages
Ex 2
No ratings yet
Ex 2
7 pages
Apiosjfpae
No ratings yet
Apiosjfpae
3 pages
Cosine Similarity in Machine Learning
No ratings yet
Cosine Similarity in Machine Learning
14 pages
Experiment 4 Code
No ratings yet
Experiment 4 Code
3 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
183 pages
1 An Introduction To Machine Learning With Scikit Learn
No ratings yet
1 An Introduction To Machine Learning With Scikit Learn
2 pages
Generative AI 2
No ratings yet
Generative AI 2
24 pages
EWIT
No ratings yet
EWIT
21 pages
Lecture21 1
No ratings yet
Lecture21 1
14 pages
61 - PDFsam - Python Data Science Handbook, 2nd Edi... (Z-Library)
No ratings yet
61 - PDFsam - Python Data Science Handbook, 2nd Edi... (Z-Library)
3 pages
Genai Lab 1
No ratings yet
Genai Lab 1
6 pages
Gen AI Lab
No ratings yet
Gen AI Lab
22 pages
Numpy Exercises Dev
No ratings yet
Numpy Exercises Dev
4 pages
Numpy
No ratings yet
Numpy
1 page
Gen AI Micro
No ratings yet
Gen AI Micro
15 pages
Generative AI
No ratings yet
Generative AI
16 pages
Graduated Non-Convexity For Robust Spatial Perception: From Non-Minimal Solvers To Global Outlier Rejection
No ratings yet
Graduated Non-Convexity For Robust Spatial Perception: From Non-Minimal Solvers To Global Outlier Rejection
11 pages
Matrix Description For Linear Block Codes
No ratings yet
Matrix Description For Linear Block Codes
24 pages
Gen AI VTUCircle
No ratings yet
Gen AI VTUCircle
1 page
COE292 - T221 - Final - Version C
No ratings yet
COE292 - T221 - Final - Version C
19 pages
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
No ratings yet
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
13 pages
Sammon
No ratings yet
Sammon
5 pages
DIP Lab Manual No 02
No ratings yet
DIP Lab Manual No 02
24 pages
Nlp2.ipynb - Colab
No ratings yet
Nlp2.ipynb - Colab
3 pages
Assignment - 10 (Numpy)
No ratings yet
Assignment - 10 (Numpy)
3 pages
Documents Similarity
No ratings yet
Documents Similarity
6 pages
Entity Embeddings of Categorical Variables
No ratings yet
Entity Embeddings of Categorical Variables
9 pages
Smoothing and Sharpening
No ratings yet
Smoothing and Sharpening
10 pages
BSP Course
No ratings yet
BSP Course
2 pages
Salt and Pepper Noise Removal Using Median Filtering
No ratings yet
Salt and Pepper Noise Removal Using Median Filtering
3 pages
4.8 Limitations To Mti Performance: Mti and Pui - Se Doppler Radar
No ratings yet
4.8 Limitations To Mti Performance: Mti and Pui - Se Doppler Radar
2 pages
One-Dimensional Minimization: Lectures For PHD Course On Numerical Optimization
No ratings yet
One-Dimensional Minimization: Lectures For PHD Course On Numerical Optimization
33 pages
2 - Optimisation Tools
No ratings yet
2 - Optimisation Tools
18 pages
Data Mining - Sem 3 - Assignment - 2
No ratings yet
Data Mining - Sem 3 - Assignment - 2
5 pages
Learning Optimal Objective Values For MILP.18321v1
No ratings yet
Learning Optimal Objective Values For MILP.18321v1
12 pages
Homework 2 DSP
No ratings yet
Homework 2 DSP
2 pages
Reading 3 Machine Learning
No ratings yet
Reading 3 Machine Learning
9 pages
Q) Matrix Chain Multiplication Problem ?: Conclusion
No ratings yet
Q) Matrix Chain Multiplication Problem ?: Conclusion
6 pages
Branch and Bound - G
No ratings yet
Branch and Bound - G
12 pages
DSP Assignment 5
No ratings yet
DSP Assignment 5
2 pages
Import Import Def
No ratings yet
Import Import Def
2 pages
程Model order reduction method based on (r) POD-ANNs for parameterized
No ratings yet
程Model order reduction method based on (r) POD-ANNs for parameterized
13 pages
Soln
No ratings yet
Soln
4 pages
Assignment 3-2
No ratings yet
Assignment 3-2
2 pages
Prajwal M CV
No ratings yet
Prajwal M CV
1 page
RUNNER
No ratings yet
RUNNER
1 page
Amity - Mod - 1 - L-5 Analyzing Recursive Algorithms
No ratings yet
Amity - Mod - 1 - L-5 Analyzing Recursive Algorithms
11 pages