0% found this document useful (0 votes)

19 views3 pages

Word 2 Vec

The document outlines a TensorFlow implementation for generating word embeddings using the 20 Newsgroups dataset. It includes data preprocessing, sample generation for training, and the setup of a neural network with negative sampling for training word embeddings. The training process is executed over multiple epochs, and the document also demonstrates how to find similar words based on the learned embeddings.

Uploaded by

ravintej22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views3 pages

Word 2 Vec

Uploaded by

ravintej22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 3

import tensorflow as tf

import numpy as np

from tensorflow import keras

from tensorflow.keras import layers

from sklearn.datasets import fetch_20newsgroups

newsgroups_train = fetch_20newsgroups(subset='train')

import os

wordToInd = {}
indToWord = {}
count = 0
for ind, file in enumerate(newsgroups_train.data):
file=file.replace('\n',' ')
file = file.replace('\r', ' ')
for word in file.split():
#print(word)
if word not in wordToInd:
wordToInd[word] = count
indToWord[count] = word
count+=1
print(ind)
print(len(wordToInd))

docs = []
for file in newsgroups_train.data:
docs.append(file.split())
print(len(docs))
print(docs[0])

Generation of samples(pairs of source and target)

windowSize = 2
samples = []
#index = 0
for doc in range(len(docs)):
for index in range(len(docs[doc])):
for n in range(max(0,index-windowSize), min(index+windowSize, len(docs[doc])-
1)+1):
if n!=index:
samples.append([wordToInd[docs[doc][index]], wordToInd[docs[doc][n]]])

samples

samplesSource = np.array([x[0] for x in samples])

samplesTarget = np.array([x[1] for x in samples])
samplesSource = np.reshape(samplesSource, newshape=[len(samplesSource),1])
samplesTarget = np.reshape(samplesTarget, newshape=[len(samplesTarget),1])

samplesSource

print(samplesSource.shape)

tf.__version__

import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
tf.__version__

batchSize = 50000
embeddingSize = 50
vocabSize = len(wordToInd)
numNegativeSamples = 10

source = tf.placeholder(tf.int32, shape=[batchSize], name='S')

target = tf.placeholder(tf.int32, shape=[batchSize,1], name='T')

validationSize = 8
validationX = np.random.choice(validationSize * 10, validationSize, replace=False)
print('valid: ',validationX)

sourceValidation = tf.constant(validationX, dtype=tf.int32)

embeddingMat = tf.Variable(tf.random_uniform(shape=[vocabSize, embeddingSize],

minval=-1, maxval=1), name=
'embedMatrix' )

getWordEmbedding = tf.nn.embedding_lookup(embeddingMat, source)

nceWeights = tf.Variable(tf.random.truncated_normal(shape = [vocabSize,

embeddingSize],

stddev=1.0/tf.sqrt(embeddingSize*1.0)))

nceBias = tf.Variable(tf.zeros(shape=[vocabSize]))

loss = tf.reduce_mean(tf.nn.nce_loss(weights= nceWeights,

biases= nceBias,
inputs= getWordEmbedding,
labels=target,
num_sampled=numNegativeSamples,
num_classes=vocabSize))

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddingMat), 1, keep_dims=True))

normalizedEmbeddings = embeddingMat/norm
validationEmbeddings = tf.nn.embedding_lookup(normalizedEmbeddings,
sourceValidation)
similarity = tf.matmul(validationEmbeddings, normalizedEmbeddings, transpose_b=
True)

optOperation = tf.train.GradientDescentOptimizer(learning_rate=0.9).minimize(loss)

numEpochs = 2
learningRate = 0.9
numBatches = int(len(samples)/batchSize)

with tf.Session() as sess:

sess.run(tf.global_variables_initializer())
for epoch in range(numEpochs):
epochLoss = 0
for batch in range(numBatches):
indices = np.random.choice(len(samples), batchSize)
sourceBatch = samplesSource[indices]
sourceBatch = np.squeeze(sourceBatch)
targetBatch = samplesTarget[indices]
_, batchLoss = sess.run([optOperation, loss], feed_dict =
{source:sourceBatch, target:targetBatch})
epochLoss+=batchLoss
print('batchLoss:\t'+str(batchLoss)+ ':' + str(optOperation))
epochLoss = epochLoss/numBatches
print(str(epoch)+'\tavgEpochLoss:\t'+ str(epochLoss))

similarityScores = sess.run(similarity)
for i in range(validationSize):
topK= 5
similarWords = (-similarityScores[i, :]).argsort()[1:topK+1]
similarStrings = 'Similart to {0:}:'.format(indToWord[validationX[i]])
for k in range(topK):
similarStrings+=indToWord[similarWords[k]]+','
print(similarStrings)
finalEmbeddings = sess.run(normalizedEmbeddings)

CBSE Class 7 English - Comprehension Passage
100% (1)
CBSE Class 7 English - Comprehension Passage
7 pages
C3 W2
No ratings yet
C3 W2
89 pages
Catalog Amp Ruang Teknik Group
100% (1)
Catalog Amp Ruang Teknik Group
23 pages
Genai
No ratings yet
Genai
17 pages
NLP Study Plan For Beginners - HW Samples
No ratings yet
NLP Study Plan For Beginners - HW Samples
47 pages
NNDL 2
No ratings yet
NNDL 2
67 pages
Soccer Training For Goalkeepers
86% (7)
Soccer Training For Goalkeepers
170 pages
CV Prince
No ratings yet
CV Prince
120 pages
03 - Lecture Slide - Basic Models in TensorFlow
No ratings yet
03 - Lecture Slide - Basic Models in TensorFlow
94 pages
A5 - Jupyter Notebook PDF
No ratings yet
A5 - Jupyter Notebook PDF
4 pages
Deep Learning Lab Manual
No ratings yet
Deep Learning Lab Manual
46 pages
GI Lab
No ratings yet
GI Lab
27 pages
Crash Course On Tensorflow!: Vincent Lepetit!
No ratings yet
Crash Course On Tensorflow!: Vincent Lepetit!
63 pages
AI Lab6
No ratings yet
AI Lab6
22 pages
DL
No ratings yet
DL
17 pages
Tugas NLP - 1152000052 1
No ratings yet
Tugas NLP - 1152000052 1
14 pages
Downloaded by R GAYATHRI (R.gayathri@aalimec - Ac.in)
No ratings yet
Downloaded by R GAYATHRI (R.gayathri@aalimec - Ac.in)
56 pages
NLP Assignment 4 (22bce9560)
No ratings yet
NLP Assignment 4 (22bce9560)
12 pages
NER Brahui NLP Project
No ratings yet
NER Brahui NLP Project
12 pages
NNDL Manual
No ratings yet
NNDL Manual
19 pages
Autoencoder - MPL - Basic - Ipynb - Colaboratory PDF
No ratings yet
Autoencoder - MPL - Basic - Ipynb - Colaboratory PDF
21 pages
DL - 20-WordEmbeddings - Ipynb - Colab
No ratings yet
DL - 20-WordEmbeddings - Ipynb - Colab
6 pages
HASRITH ML LAB 10 ASSIGNMENT - Jupyter Notebook
No ratings yet
HASRITH ML LAB 10 ASSIGNMENT - Jupyter Notebook
8 pages
Gen Ai Lab Programs
No ratings yet
Gen Ai Lab Programs
15 pages
CNN Program
No ratings yet
CNN Program
10 pages
Assignment-10.1 NLP 2103a51375
No ratings yet
Assignment-10.1 NLP 2103a51375
8 pages
DL Programs
No ratings yet
DL Programs
13 pages
IMDB - Colaboratory
No ratings yet
IMDB - Colaboratory
10 pages
Expt 5 Expt 6
No ratings yet
Expt 5 Expt 6
10 pages
Binary Classification - Ipynb - Colab
No ratings yet
Binary Classification - Ipynb - Colab
5 pages
Ass5 DL Inp OUT
No ratings yet
Ass5 DL Inp OUT
5 pages
Transformer
No ratings yet
Transformer
10 pages
CCC
No ratings yet
CCC
25 pages
Practical No 05
No ratings yet
Practical No 05
4 pages
LLM Code Ref
No ratings yet
LLM Code Ref
10 pages
Import As From Import From Import From Import From Import: # Load The IMDB Dataset
No ratings yet
Import As From Import From Import From Import From Import: # Load The IMDB Dataset
6 pages
Clean Data
No ratings yet
Clean Data
4 pages
NLP
No ratings yet
NLP
15 pages
Exp No 5
No ratings yet
Exp No 5
5 pages
Sentiment Analysis Using LSTM
No ratings yet
Sentiment Analysis Using LSTM
5 pages
NLP 4
No ratings yet
NLP 4
10 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Prac 5
No ratings yet
Prac 5
3 pages
Python Code
No ratings yet
Python Code
3 pages
Chap 6 Embedding
No ratings yet
Chap 6 Embedding
44 pages
DL 6th Exp Program
No ratings yet
DL 6th Exp Program
3 pages
NNDL 7&8 Programs
No ratings yet
NNDL 7&8 Programs
7 pages
Chapter02 Mathematical-Building-Blocks
No ratings yet
Chapter02 Mathematical-Building-Blocks
9 pages
EncoderDecoderSeq2Seq DeepLSTM
No ratings yet
EncoderDecoderSeq2Seq DeepLSTM
7 pages
DL Lab 8 Excuted
No ratings yet
DL Lab 8 Excuted
3 pages
Genai Lab 1
No ratings yet
Genai Lab 1
6 pages
ISO 9001 Internal Auditor Training
100% (3)
ISO 9001 Internal Auditor Training
7 pages
DL5.ipynb - Colab
No ratings yet
DL5.ipynb - Colab
3 pages
GPT2 From Scratch in PyTorch
No ratings yet
GPT2 From Scratch in PyTorch
13 pages
Autoencoder Transformer
No ratings yet
Autoencoder Transformer
2 pages
Sample Code
No ratings yet
Sample Code
8 pages
Public Administration
No ratings yet
Public Administration
178 pages
Sample
No ratings yet
Sample
6 pages
District Survey Report For Latur District FOR
No ratings yet
District Survey Report For Latur District FOR
146 pages
Assignment 10 2
No ratings yet
Assignment 10 2
4 pages
Notebook - Tensorflow Keras
No ratings yet
Notebook - Tensorflow Keras
25 pages
Jean Watson's Human Caring Science, A Theory of Nursing
0% (1)
Jean Watson's Human Caring Science, A Theory of Nursing
30 pages
Simple NMT
No ratings yet
Simple NMT
3 pages
Choose The BEST Answer.: Practice Test 2 - Assessment of Learning Multiple Choice
100% (1)
Choose The BEST Answer.: Practice Test 2 - Assessment of Learning Multiple Choice
6 pages
Unit 1 Introduction To HRM
100% (1)
Unit 1 Introduction To HRM
6 pages
Cost Estimate For Construction of Cross Drainage Works Road:-Devari To Kalkoti Road Chainage: - Slab Culvert of Size 8.00 X 5.00 No of Span 5 Slab Thickness 600
No ratings yet
Cost Estimate For Construction of Cross Drainage Works Road:-Devari To Kalkoti Road Chainage: - Slab Culvert of Size 8.00 X 5.00 No of Span 5 Slab Thickness 600
12 pages
Checklist and Procedure Ver 3.0
No ratings yet
Checklist and Procedure Ver 3.0
4 pages
Keysight Infiniivision 4000 X-Series Oscilloscopes: User'S Guide
No ratings yet
Keysight Infiniivision 4000 X-Series Oscilloscopes: User'S Guide
560 pages
Aureole Book
No ratings yet
Aureole Book
360 pages
Transformations SAT
No ratings yet
Transformations SAT
14 pages
Fluid Statics Examples
No ratings yet
Fluid Statics Examples
14 pages
UNIT1-3 Notes
No ratings yet
UNIT1-3 Notes
57 pages
VB7
No ratings yet
VB7
44 pages
English Project
No ratings yet
English Project
22 pages
1239915-Fairwinds Festival of Delights - The Homebrewery
No ratings yet
1239915-Fairwinds Festival of Delights - The Homebrewery
7 pages
GAA ADEK Inspection Report 17-18
No ratings yet
GAA ADEK Inspection Report 17-18
20 pages
Summary Tables: Bigg Pharmaceutical Company BP3304-002
No ratings yet
Summary Tables: Bigg Pharmaceutical Company BP3304-002
55 pages
How To Write A Research Proposal
No ratings yet
How To Write A Research Proposal
3 pages
Essentials C3D2010 Session 01 Introduction
No ratings yet
Essentials C3D2010 Session 01 Introduction
13 pages
The Lifestyle Flow
No ratings yet
The Lifestyle Flow
14 pages
Feelings When Your Needs Are Satisfied: Engaged
No ratings yet
Feelings When Your Needs Are Satisfied: Engaged
4 pages
Activity 2.1 Scavenger Hunt Form
No ratings yet
Activity 2.1 Scavenger Hunt Form
2 pages
Managing Corporate Social Responsibility - 2011 - Coombs
No ratings yet
Managing Corporate Social Responsibility - 2011 - Coombs
10 pages
DBMS Lab 6
No ratings yet
DBMS Lab 6
3 pages
Juliani 2
No ratings yet
Juliani 2
4 pages
Pran Yog
No ratings yet
Pran Yog
3 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Word 2 Vec

Uploaded by

Word 2 Vec

Uploaded by

import tensorflow as tf

from tensorflow import keras

from sklearn.datasets import fetch_20newsgroups

Generation of samples(pairs of source and target)

samplesSource = np.array([x[0] for x in samples])

source = tf.placeholder(tf.int32, shape=[batchSize], name='S')

sourceValidation = tf.constant(validationX, dtype=tf.int32)

embeddingMat = tf.Variable(tf.random_uniform(shape=[vocabSize, embeddingSize],

getWordEmbedding = tf.nn.embedding_lookup(embeddingMat, source)

nceWeights = tf.Variable(tf.random.truncated_normal(shape = [vocabSize,

loss = tf.reduce_mean(tf.nn.nce_loss(weights= nceWeights,

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddingMat), 1, keep_dims=True))

with tf.Session() as sess:

You might also like