Gen Ai Lab

The document outlines two lab programs utilizing the Gensim library for natural language processing. The first program demonstrates the training of a Word2Vec model on a simple corpus, performing operations like vector addition, cosine similarity, and finding similar words. The second program focuses on a technology-themed corpus, including data preprocessing, training a Word2Vec model, visualizing word embeddings using PCA, and retrieving semantically similar words.

Uploaded by

Nikitha G R

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

27 views3 pages

Gen Ai Lab

Uploaded by

Nikitha G R

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 3

Lab Program 1

!pip install gensim

corpus = ['king is a strong man','queen is a wise woman','boy is a young man','girl
is a young woman','prince is a young','prince will be strong','princess is
young','man is strong','woman is pretty', 'prince is a boy','prince will be king',
'princess is a girl', 'princess will be queen']
print(corpus)
statements_listt = []
for cor in corpus:
statements_listt.append(cor.split())
print(statements_listt)
from gensim.parsing.preprocessing import STOPWORDS
documents = [[word for word in document if word not in STOPWORDS] for document in
statements_listt]
documents

import gensim
from gensim.models import Word2Vec
model = Word2Vec(documents, min_count=1, vector_size=3, window = 3)
# Assuming you have already trained your Word2Vec model and it's stored in the
'model' variable

# 1. Addition and Subtraction:

vector1 = model.wv['king']
vector2 = model.wv['man']
sum_vector = vector1 + vector2
print("sum vector ",sum_vector)
diff_vector = vector1 - vector2
print("difference vector ",sum_vector)
# 2. Cosine Similarity:
similarity = model.wv.similarity('king', 'queen')
print(f"Cosine Similarity between 'king' and 'queen': {similarity}")

# 3. Finding Most Similar Words:

similar_words = model.wv.most_similar('king', topn=5)
print(f"Most Similar words to 'king': {similar_words}")

# 4. Analogy Example:
analogy_vector = model.wv['king'] - model.wv['man'] + model.wv['woman']
most_similar = model.wv.most_similar(positive=[analogy_vector], topn=1)
print(f"Analogy Result (king - man + woman): {most_similar}")

program 2

import gensim
from gensim.models import Word2Vec
import re
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# Sample domain-specific corpus (Technology)

technology_corpus = [
"Artificial intelligence is transforming various industries.",
"Machine learning algorithms improve predictive analytics.",
"Cloud computing enables scalable infrastructure for businesses.",
"Cybersecurity is crucial for protecting sensitive data.",
"Blockchain technology ensures secure and decentralized transactions.",
"The Internet of Things connects smart devices seamlessly.",
"Big data analytics helps organizations make data-driven decisions.",
"Quantum computing has the potential to revolutionize cryptography.",
"Edge computing brings computation closer to data sources.",
"Natural language processing enhances human-computer interactions."
]

# Basic text preprocessing function (tokenization & lowercasing)

def simple_tokenize(text):
return re.findall(r'\b\w+\b', text.lower())

# Preprocess corpus manually

preprocessed_corpus = [simple_tokenize(sentence) for sentence in technology_corpus]

# Train Word2Vec model

model = Word2Vec(sentences=preprocessed_corpus, vector_size=50, window=5,
min_count=1, workers=4)

# Select 10 domain-specific words

selected_words = ["ai", "machine", "cloud", "cybersecurity", "blockchain", "iot",
"data", "quantum", "edge", "nlp"]
# Filter selected words to include only words present in model.wv
selected_words = [word for word in selected_words if word in model.wv]

# Extract word embeddings for selected words

word_vectors = [model.wv[word] for word in selected_words if word in model.wv]

# Reduce dimensionality using PCA

pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(word_vectors)

# Create DataFrame for visualization

df_embeddings = pd.DataFrame(reduced_vectors, columns=["x", "y"],
index=selected_words)

# Plot embeddings
plt.figure(figsize=(10, 6))
plt.scatter(df_embeddings["x"], df_embeddings["y"], marker='o')

for word, (x, y) in zip(df_embeddings.index, reduced_vectors):

plt.text(x, y, word, fontsize=12)

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")
plt.title("Word Embeddings Visualization (Technology Domain)")
plt.show()

# Function to get semantically similar words

def get_similar_words(word, top_n=5):
if word in model.wv:
return model.wv.most_similar(word, topn=top_n)
else:
return f"Word '{word}' not in vocabulary."
# Example usage
input_word = "technology"
similar_words = get_similar_words(input_word)
print(f"Top 5 words similar to '{input_word}':", similar_words)

Lab Manual Generative AI
No ratings yet
Lab Manual Generative AI
34 pages
Word Embeddings
No ratings yet
Word Embeddings
55 pages
For Visual Studio User'S Manual: Motoplus SDK
No ratings yet
For Visual Studio User'S Manual: Motoplus SDK
84 pages
DM Chapter 9 - Word Embedding
No ratings yet
DM Chapter 9 - Word Embedding
7 pages
Genai Manual
No ratings yet
Genai Manual
17 pages
MT6737 PCB Design Guidelines-English-V0 - 1
No ratings yet
MT6737 PCB Design Guidelines-English-V0 - 1
113 pages
Acknowledgement For Thesis Work in Pakistan
100% (3)
Acknowledgement For Thesis Work in Pakistan
7 pages
ABCmouse Part of The Body Worksheets Packet
No ratings yet
ABCmouse Part of The Body Worksheets Packet
19 pages
Ni-Cad Battery Sizing Calculation (IEEE 1115)
No ratings yet
Ni-Cad Battery Sizing Calculation (IEEE 1115)
2 pages
Transport Requests in SAP
No ratings yet
Transport Requests in SAP
9 pages
CS 7641 CSE/ISYE 6740 Mid-Term Exam 2 (Fall 2016) Solutions: 1 Probability and Bayes' Rule (14 PTS)
No ratings yet
CS 7641 CSE/ISYE 6740 Mid-Term Exam 2 (Fall 2016) Solutions: 1 Probability and Bayes' Rule (14 PTS)
12 pages
Coal Project Report
No ratings yet
Coal Project Report
15 pages
Lecture 6 - Word2Vec and Text Classification
No ratings yet
Lecture 6 - Word2Vec and Text Classification
66 pages
C1SE.38 SprintBacklog EQR
No ratings yet
C1SE.38 SprintBacklog EQR
8 pages
Unit 2 Updated New
No ratings yet
Unit 2 Updated New
77 pages
Genai
No ratings yet
Genai
17 pages
Unit-4 Image Restoration
No ratings yet
Unit-4 Image Restoration
72 pages
3HAC056431 PS IRB 910SC-en PDF
No ratings yet
3HAC056431 PS IRB 910SC-en PDF
56 pages
12500-0000 AndroVision en 140714
No ratings yet
12500-0000 AndroVision en 140714
4 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
21 pages
XCS224N Module1 Slides
No ratings yet
XCS224N Module1 Slides
72 pages
TextFeatureEnginerring-NLP Lec2
No ratings yet
TextFeatureEnginerring-NLP Lec2
60 pages
DOA IPIP - 200B GTS - HS Global POF
No ratings yet
DOA IPIP - 200B GTS - HS Global POF
13 pages
NLP - Module 2
No ratings yet
NLP - Module 2
54 pages
06 Wordvectors
No ratings yet
06 Wordvectors
96 pages
SocrAI Day 3
No ratings yet
SocrAI Day 3
43 pages
NLP 1 Week Tutorial NLTK
No ratings yet
NLP 1 Week Tutorial NLTK
15 pages
Vector Semantics and Embedding (Part 2)
No ratings yet
Vector Semantics and Embedding (Part 2)
47 pages
Generative AI 2
No ratings yet
Generative AI 2
24 pages
EWIT
No ratings yet
EWIT
21 pages
08 Word Embeddings (2021)
No ratings yet
08 Word Embeddings (2021)
58 pages
Word2Vec - A Baby Step in Deep Learning But A Giant Leap Towards Natural Language Processing
100% (1)
Word2Vec - A Baby Step in Deep Learning But A Giant Leap Towards Natural Language Processing
12 pages
Module III
No ratings yet
Module III
42 pages
Unit 5b - Natural Language Processing
No ratings yet
Unit 5b - Natural Language Processing
41 pages
Gen AI Lab
No ratings yet
Gen AI Lab
22 pages
ProgramsGenAI BAIL657C
No ratings yet
ProgramsGenAI BAIL657C
18 pages
Lecture Word Embeddings WordTo Vec IR
No ratings yet
Lecture Word Embeddings WordTo Vec IR
60 pages
Vector Semantics and Embeddings
No ratings yet
Vector Semantics and Embeddings
29 pages
1st Programme
No ratings yet
1st Programme
16 pages
Gen AI Micro
No ratings yet
Gen AI Micro
15 pages
Verification and Validation Norvig 2016
No ratings yet
Verification and Validation Norvig 2016
83 pages
ML For NLP-LO4
No ratings yet
ML For NLP-LO4
42 pages
Dealing With Textual Data
No ratings yet
Dealing With Textual Data
67 pages
NLP Concepts
No ratings yet
NLP Concepts
37 pages
Wordembed
No ratings yet
Wordembed
31 pages
Stylistics Is A Branch of Linguistics That Focuses On The Study of Style in Language
No ratings yet
Stylistics Is A Branch of Linguistics That Focuses On The Study of Style in Language
5 pages
Abb Utilities GMBH: Operation
No ratings yet
Abb Utilities GMBH: Operation
4 pages
Word Embadding
No ratings yet
Word Embadding
24 pages
Database & Database Management Systems (Notes)
No ratings yet
Database & Database Management Systems (Notes)
22 pages
Generative AI
No ratings yet
Generative AI
16 pages
Module 1.2
No ratings yet
Module 1.2
28 pages
DS - Fujitsu PRIMERGY TX1310
No ratings yet
DS - Fujitsu PRIMERGY TX1310
7 pages
Import Gensim
No ratings yet
Import Gensim
8 pages
Atajos Teclado Photoshop Cs Mac
No ratings yet
Atajos Teclado Photoshop Cs Mac
2 pages
NLP Record
No ratings yet
NLP Record
16 pages
Gen AIL
No ratings yet
Gen AIL
12 pages
Genai Lab 1
No ratings yet
Genai Lab 1
6 pages
Rajeev Mishra 20 SCSE1180087
No ratings yet
Rajeev Mishra 20 SCSE1180087
29 pages
BusTicketingSystem PPT
No ratings yet
BusTicketingSystem PPT
18 pages
NLP Final Review
No ratings yet
NLP Final Review
32 pages
Gen Ai NW
No ratings yet
Gen Ai NW
12 pages
Lab
No ratings yet
Lab
8 pages
Implementation of GSM Based Water Meter A Step Towards Automation in Billing System
No ratings yet
Implementation of GSM Based Water Meter A Step Towards Automation in Billing System
4 pages
GenAI Shortened
No ratings yet
GenAI Shortened
8 pages
Window On Humanity: A Concise Introduction To Anthropology, Ninth 9 Edition Conrad Phillip Kottak
No ratings yet
Window On Humanity: A Concise Introduction To Anthropology, Ninth 9 Edition Conrad Phillip Kottak
9 pages
Mod Menu Log - Com - Fffungame.taptaprun
No ratings yet
Mod Menu Log - Com - Fffungame.taptaprun
23 pages
Universal Testing Machine (UTM) - RTHRTI Catalog 2021 English
No ratings yet
Universal Testing Machine (UTM) - RTHRTI Catalog 2021 English
10 pages
Lenovo ThinkSmart Tiny Poly Recovery Aid
No ratings yet
Lenovo ThinkSmart Tiny Poly Recovery Aid
26 pages
Gena I Short
No ratings yet
Gena I Short
6 pages
Genaii
No ratings yet
Genaii
5 pages
Allnlp
No ratings yet
Allnlp
15 pages
542 315 Word2vec
No ratings yet
542 315 Word2vec
20 pages
Chapter 1 Introduction OS
No ratings yet
Chapter 1 Introduction OS
18 pages
Laboratory Manual: Faculty of Engineering and Technology Bachelor of Technology
No ratings yet
Laboratory Manual: Faculty of Engineering and Technology Bachelor of Technology
10 pages
Bramah-Systems Audit
No ratings yet
Bramah-Systems Audit
14 pages
Relational Calculus
No ratings yet
Relational Calculus
10 pages
Understanding Social Engineering Attacks - 1
No ratings yet
Understanding Social Engineering Attacks - 1
7 pages
ML7 - Text Classification
No ratings yet
ML7 - Text Classification
13 pages
NLP Soc
No ratings yet
NLP Soc
15 pages
Gensim: A Python Library For NLP and Word Embeddings
No ratings yet
Gensim: A Python Library For NLP and Word Embeddings
5 pages
Explaining The Intuition of Word2Vec & Implementing It in Python
No ratings yet
Explaining The Intuition of Word2Vec & Implementing It in Python
13 pages
GAI Lab-1
No ratings yet
GAI Lab-1
4 pages
CSDM2-Text Preprocessing For NL Data - 011050
No ratings yet
CSDM2-Text Preprocessing For NL Data - 011050
6 pages
NLP PDF
No ratings yet
NLP PDF
3 pages
Summer Sem
No ratings yet
Summer Sem
2 pages
Video Conferencing Industry: 5 Forces Worksheet: Key Barriers To Entry
No ratings yet
Video Conferencing Industry: 5 Forces Worksheet: Key Barriers To Entry
1 page