SOURCE CODE-image - To - Text

The document provides a comprehensive code for image captioning using the COCO dataset, including installation of necessary libraries, data loading, preprocessing, and model definition. It employs a combination of CNN and LSTM architectures to generate captions for images, detailing the steps for data generation, model training, and caption generation. The code also includes visualization of images and their respective annotations from the dataset.

Uploaded by

s45033966

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views7 pages

SOURCE CODE-image - To - Text

Uploaded by

s45033966

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

SOURCE CODE:

!pip install CocoDataset==0.1.2

!wget
http://images.cocodataset.org/annotations/annotations_trainval2017.zip
!unzip /content/annotations_trainval2017.zip
!wget http://images.cocodataset.org/zips/train2017.zip
!unzip /content/train2017.zip
!wget http://images.cocodataset.org/zips/val2017.zip
!unzip /content/val2017.zip
!pip install pycocotools
from pycocotools.coco import COCO # COCO python library
import numpy as np
import skimage.io as io
import matplotlib.pyplot as plt
import pylab
import random
import string
import cv2
import os
from pickle import dump, load
import json
import nltk
nltk.download("stopwords")
from nltk.corpus import stopwords
import tensorflow as tf
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense,
Bidirectional, Input, Dropout, Attention
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.applications.xception import Xception,
preprocess_input
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras.utils import to_categorical
from keras.layers.merge import add
from tensorflow.keras.models import Model, load_model
from tqdm.notebook import tqdm
pylab.rcParams['figure.figsize'] = (8.0, 10.0)
coco=COCO("../content/annotations/instances_train2017.json")
cats = coco.loadCats(coco.getCatIds())
maincategories = list(set([cat['supercategory'] for cat in cats]))
print("Number of main categories: ", len(maincategories))
print("List of main categories: ", maincategories)
subcategories = [cat['name'] for cat in cats]
print("Number of sub categories: ", len(subcategories))
print("List of sub categories: ", subcategories)
catIds = coco.getCatIds(catNms=subcategories)
subcategories_Ids = dict()
for i in range(0,len(subcategories)):
subcategories_Ids[subcategories[i]] = catIds[i]
print("Sub categories with IDs :",subcategories_Ids)
subcategories_imageIds = dict()
for i in range(0,len(catIds)):
imgIds = coco.getImgIds(catIds=catIds[i])
img = []
for j in imgIds:
img.append(j)
subcategories_imageIds[subcategories[i]] = img
print("Sub categories with Image IDs :",len(subcategories_imageIds))
length_dict = {key: len(value) for key, value in
subcategories_imageIds.items()}
print("Total images in each sub categories: ", length_dict)
train_cats = subcategories_imageIds['bicycle'] +
subcategories_imageIds['airplane']
imgIdss = coco.getImgIds(imgIds = train_cats)
print("Total Images: ", len(imgIdss))
fig = plt.gcf()
fig.set_size_inches(16, 16)
next_pix = imgIdss
random.shuffle(next_pix)
for i, img_path in enumerate(next_pix[0:12]):
sp = plt.subplot(4, 4, i + 1)
sp.axis('Off')
img = coco.loadImgs(img_path)[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
plt.show()
fig = plt.gcf()
fig.set_size_inches(16, 16)
for i, img_path in enumerate(next_pix[0:12]):
sp = plt.subplot(4, 4, i + 1)
sp.axis('Off')
img = coco.loadImgs(img_path)[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
annIds = coco.getAnnIds(imgIds=img['id'], catIds=catIds,
iscrowd=None)
anns = coco.loadAnns(annIds)
# print(anns)
coco.showAnns(anns)
plt.show()
annFile="../content/annotations/person_keypoints_train2017.json"
coco_kps=COCO(annFile)
fig = plt.gcf()
fig.set_size_inches(16, 16)
for i, img_path in enumerate(next_pix[0:12]):
sp = plt.subplot(4, 4, i + 1)
sp.axis('Off')
img = coco.loadImgs(img_path)[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
annIds = coco_kps.getAnnIds(imgIds=img['id'], catIds=catIds,
iscrowd=None)
anns = coco_kps.loadAnns(annIds)
coco_kps.showAnns(anns)
plt.show()
annFile = "../content/annotations/captions_train2017.json"
coco_caps=COCO(annFile)
img = coco.loadImgs(next_pix[0])[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
annIds = coco_caps.getAnnIds(imgIds=img['id']);
anns = coco_caps.loadAnns(annIds)
coco_caps.showAnns(anns)
plt.show()
img = coco.loadImgs(next_pix[1])[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
annIds = coco_caps.getAnnIds(imgIds=img['id']);
anns = coco_caps.loadAnns(annIds)
coco_caps.showAnns(anns)
plt.show()
img = coco.loadImgs(next_pix[10])[0]
I = io.imread(img['coco_url'])
plt.imshow(I)
annIds = coco_caps.getAnnIds(imgIds=img['id']);
anns = coco_caps.loadAnns(annIds)
coco_caps.showAnns(anns)
plt.show()
print("Total images for training: ", len(imgIdss))
dataset = dict()
imgcaptions = []
for imgid in imgIdss:
img = coco.loadImgs(imgid)[0]
annIds = coco_caps.getAnnIds(imgIds=img['id']);
anns = coco_caps.loadAnns(annIds)
imgcaptions = []
for cap in anns:
# Remove punctuation
cap = cap['caption'].translate(str.maketrans('', '',
string.punctuation))
# Replace - to blank
cap = cap.replace("-"," ")
# Split string into word list and Convert each word into lower
case
cap = cap.split()
cap = [word.lower() for word in cap]
# join word list into sentence and <start> and <end> tag to
each sentence which helps
# LSTM encoder-decoder model while training.
cap = '<start> ' + " ".join(cap) + ' <end>'
imgcaptions.append(cap)
dataset[img['coco_url']] = imgcaptions
print("Length of Dataset: ",len(dataset))
print(dataset['http://images.cocodataset.org/train2017/000000047084.jpg
'])
#dataset
from itertools import chain
flatten_list = list(chain.from_iterable(dataset.values()))
#[[1,3],[4,8]] = [1,3,4,8]
tokenizer = Tokenizer(oov_token='<oov>') # For those words which are
not found in word_index
tokenizer.fit_on_texts(flatten_list)
total_words = len(tokenizer.word_index) + 1
print("Vocabulary length: ", total_words)
print("Bicycle ID: ", tokenizer.word_index['bicycle'])
print("Airplane ID: ", tokenizer.word_index['airplane'])
print("Image features length: ", len(image_features))
image_features['http://images.cocodataset.org/train2017/000000047084.jp
g'].shape
def dict_to_list(descriptions):
all_desc = []
for key in descriptions.keys():
[all_desc.append(d) for d in descriptions[key]]
return all_desc
def max_length(descriptions):
desc_list = dict_to_list(descriptions)
return max(len(d.split()) for d in desc_list)
max_length = max_length(dataset)
max_length
#create input-output sequence pairs from the image description.def
data_generator(descriptions, features, tokenizer, max_length):
while 1:
for key, description_list in descriptions.items():
feature = features[key][0]
input_image, input_sequence, output_word =
create_sequences(tokenizer, max_length, description_list, feature)
yield ([input_image, input_sequence], output_word)
def create_sequences(tokenizer, max_length, desc_list, feature):
X1, X2, y = list(), list(), list()
# walk through each description for the image
for desc in desc_list:
# encode the sequence
seq = tokenizer.texts_to_sequences([desc])[0]
# split one sequence into multiple X,y pairs
for i in range(1, len(seq)):
# split into input and output pair
in_seq, out_seq = seq[:i], seq[i]
# pad input sequence
in_seq = pad_sequences([in_seq], maxlen=max_length)[0]
# encode output sequence
out_seq = to_categorical([out_seq],
num_classes=total_words)[0]
# store
X1.append(feature) # image features
X2.append(in_seq) # Caption input
y.append(out_seq) # Caption output
return np.array(X1), np.array(X2), np.array(y)
from tensorflow.keras.utils import plot_model
# define the captioning model
def define_model(total_words, max_length):
# features from the CNN model squeezed from 2048 to 256 nodes
inputs1 = Input(shape=(2048,))
49fe1 = Dropout(0.5)(inputs1)
fe2 = Dense(256, activation='relu')(fe1)
# LSTM sequence model
inputs2 = Input(shape=(max_length,))
se1 = Embedding(total_words, 256, mask_zero=True)(inputs2)
se2 = Dropout(0.5)(se1)
se3 = LSTM(256)(se2)
# Merging both models
decoder1 = add([fe2, se3])
decoder2 = Dense(256, activation='relu')(decoder1)
outputs = Dense(total_words, activation='softmax')(decoder2)
# tie it together [image, seq] [word]
model = Model(inputs=[inputs1, inputs2], outputs=outputs)
model.compile(loss='categorical_crossentropy', optimizer='adam')
# summarize model
print(model.summary())
plot_model(model, to_file='model.png', show_shapes=True)
return model
# train our model
print('Dataset: ', len(dataset))
print('Descriptions: train=', len(dataset))
print('Photos: train=', len(image_features))
print('Vocabulary Size:', total_words)
print('Description Length: ', max_length)
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
img_paths = ["../content/val2017/000000001761.jpg",
"../content/val2017/000000022396.jpg" ,
"../content/val2017/000000098520.jpg" ,
"../content/val2017/000000101762.jpg" ,
"../content/val2017/000000224051.jpg",
]
def extract_features(filename, model):
try:
image = Image.open(filename)
except:
print("ERROR: Couldn't open image! Make sure the image path
and extension is correct")
image = image.resize((299,299))
image = np.array(image)
# for images that has 4 channels, we convert them into 3
channels
if image.shape[2] == 4:
image = image[..., :3]
image = np.expand_dims(image, axis=0)
image = image/127.5
image = image - 1.0
feature = model.predict(image)
return feature
def word_for_id(integer, tokenizer):
for word, index in tokenizer.word_index.items():
if index == integer:
return word
return None
def generate_desc(model, tokenizer, photo, max_length):
in_text = 'start'
for i in range(max_length):
sequence = tokenizer.texts_to_sequences([in_text])[0]
sequence = pad_sequences([sequence], maxlen=max_length)
pred = model.predict([photo,sequence], verbose=0)
pred = np.argmax(pred)
word = word_for_id(pred, tokenizer)
if word is None:
break
in_text += ' ' + word
if word == 'end':
break
return in_text
#max_length = 46
#model = load_model('./models/model_0.h5')
xception_model = Xception(include_top=False, pooling="avg")
photo = extract_features(img_paths[0], xception_model)
img = Image.open(img_paths[0])
description = generate_desc(model, tokenizer, photo, max_length)
print("\n\n")
print(description)
plt.imshow(img)
photo = extract_features(img_paths[1], xception_model)
img = Image.open(img_paths[1])
description = generate_desc(model, tokenizer, photo, max_length)
print("\n\n")
print(description)
plt.imshow(img)
photo = extract_features(img_paths[2], xception_model)
img = Image.open(img_paths[2])
description = generate_desc(model, tokenizer, photo, max_length)
print("\n\n")
print(description)
plt.imshow(img)
photo = extract_features(img_paths[3], xception_model)
img = Image.open(img_paths[3])
description = generate_desc(model, tokenizer, photo, max_length)
print("\n\n")
print(description)
plt.imshow(img)
photo = extract_features(img_paths[4], xception_model)
img = Image.open(img_paths[4])
description = generate_desc(model, tokenizer, photo, max_length)
print("\n\n")
print(description)
plt.imshow(img)

TECHNICAL DRAFTING 10 Module 1
100% (3)
TECHNICAL DRAFTING 10 Module 1
28 pages
Unlimited Tinder Openers
0% (3)
Unlimited Tinder Openers
11 pages
Manual Smartgen
100% (4)
Manual Smartgen
50 pages
Mos-Mcs 2200 Manual
100% (1)
Mos-Mcs 2200 Manual
308 pages
Basic Computer Hardware and Troubleshooting
No ratings yet
Basic Computer Hardware and Troubleshooting
39 pages
Ds File
No ratings yet
Ds File
58 pages
Python Code
No ratings yet
Python Code
52 pages
Cengizhan Sahin
No ratings yet
Cengizhan Sahin
26 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
CD 601 Lab Manual
No ratings yet
CD 601 Lab Manual
61 pages
CV Prince
No ratings yet
CV Prince
120 pages
Code Implé
No ratings yet
Code Implé
13 pages
Sample Code
No ratings yet
Sample Code
9 pages
ML PPT G3
No ratings yet
ML PPT G3
15 pages
Vit32 GPTMD
No ratings yet
Vit32 GPTMD
6 pages
Proyecto IA2
No ratings yet
Proyecto IA2
14 pages
Lab Manual
No ratings yet
Lab Manual
45 pages
DL Lab Answers Batch 2
No ratings yet
DL Lab Answers Batch 2
27 pages
Wa0000.
No ratings yet
Wa0000.
40 pages
DL Practical 6,7 Outputs
No ratings yet
DL Practical 6,7 Outputs
9 pages
Image Caption2
No ratings yet
Image Caption2
9 pages
748747019-Ad3511-Deep-Learning-Lab-Manual-Iii-Yearjnn (1) - 1
No ratings yet
748747019-Ad3511-Deep-Learning-Lab-Manual-Iii-Yearjnn (1) - 1
51 pages
DL
No ratings yet
DL
17 pages
DL - 5 Excuted
No ratings yet
DL - 5 Excuted
13 pages
Flower CNN
No ratings yet
Flower CNN
7 pages
RESNET - Dynamometer - Ipynb - Colaboratory
No ratings yet
RESNET - Dynamometer - Ipynb - Colaboratory
6 pages
Apex For Bres 1
No ratings yet
Apex For Bres 1
6 pages
Image Captioning With Visual Attention PDF
No ratings yet
Image Captioning With Visual Attention PDF
16 pages
Downloaded by R GAYATHRI (R.gayathri@aalimec - Ac.in)
No ratings yet
Downloaded by R GAYATHRI (R.gayathri@aalimec - Ac.in)
56 pages
Finding Similar Fashion Products With Their Links
No ratings yet
Finding Similar Fashion Products With Their Links
19 pages
Transfer Learning Q3 2
No ratings yet
Transfer Learning Q3 2
36 pages
Final Code
No ratings yet
Final Code
16 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
53 pages
Experiment 8
No ratings yet
Experiment 8
3 pages
CCS355
No ratings yet
CCS355
29 pages
Skill4 2100100003
No ratings yet
Skill4 2100100003
5 pages
Training Code
No ratings yet
Training Code
4 pages
Code Text
No ratings yet
Code Text
4 pages
NN - DL Project
No ratings yet
NN - DL Project
16 pages
Twins Code
No ratings yet
Twins Code
4 pages
Sample
No ratings yet
Sample
6 pages
DL Experiment 4
No ratings yet
DL Experiment 4
11 pages
Emotion Detection - Merged
No ratings yet
Emotion Detection - Merged
8 pages
Ass 3
No ratings yet
Ass 3
5 pages
Val
No ratings yet
Val
9 pages
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
No ratings yet
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
8 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
Detect
No ratings yet
Detect
6 pages
Object Detection Webcam
No ratings yet
Object Detection Webcam
3 pages
1729492946538
No ratings yet
1729492946538
10 pages
Sentence Embedding Code
No ratings yet
Sentence Embedding Code
9 pages
Import Numpy As NP
No ratings yet
Import Numpy As NP
3 pages
Deep Learning Experiments
No ratings yet
Deep Learning Experiments
42 pages
DL Internal
No ratings yet
DL Internal
12 pages
Non-Creamy Layer Certificate: Government of Kerala
No ratings yet
Non-Creamy Layer Certificate: Government of Kerala
1 page
DL Exps
No ratings yet
DL Exps
9 pages
CVcode
No ratings yet
CVcode
4 pages
Sample Code
No ratings yet
Sample Code
8 pages
Mabin - Fundood Data - S To Z
No ratings yet
Mabin - Fundood Data - S To Z
36 pages
CNN Ise
No ratings yet
CNN Ise
5 pages
DL Programs
No ratings yet
DL Programs
12 pages
NNDL Lab Record
No ratings yet
NNDL Lab Record
26 pages
Start
No ratings yet
Start
3 pages
Brain Tumour Classification
No ratings yet
Brain Tumour Classification
10 pages
DL All Codes
No ratings yet
DL All Codes
9 pages
19 3 RTU560 Training 3
No ratings yet
19 3 RTU560 Training 3
8 pages
UFGS 01 32 01.00 10 Project Schedule
No ratings yet
UFGS 01 32 01.00 10 Project Schedule
24 pages
Online Creation Tools Platforms
No ratings yet
Online Creation Tools Platforms
5 pages
Cs Woodside Petrel VBM
No ratings yet
Cs Woodside Petrel VBM
2 pages
Faculty Scheduling System Thesis Documentation
100% (2)
Faculty Scheduling System Thesis Documentation
4 pages
Layout Barranquilla - DWG v2
No ratings yet
Layout Barranquilla - DWG v2
1 page
ENARSI Chapter 3
No ratings yet
ENARSI Chapter 3
52 pages
Finite Difference Method
No ratings yet
Finite Difference Method
7 pages
Iso 15628 2013
No ratings yet
Iso 15628 2013
15 pages
SyncServer S666 User Guide
No ratings yet
SyncServer S666 User Guide
291 pages
iPodUpdater 26
No ratings yet
iPodUpdater 26
24 pages
E sanadAU
No ratings yet
E sanadAU
2 pages
Strings
No ratings yet
Strings
22 pages
PowerPoint - All About Digital Citizenship New Zealand PowerPoint (Years 5-8)
No ratings yet
PowerPoint - All About Digital Citizenship New Zealand PowerPoint (Years 5-8)
23 pages
Security Vendor Questionnaire
No ratings yet
Security Vendor Questionnaire
2 pages
INTERTWinE Best Practice Guide MPI+GASPI 1.0 0
No ratings yet
INTERTWinE Best Practice Guide MPI+GASPI 1.0 0
19 pages
Module 6 Analytics-Making Sense of Data
No ratings yet
Module 6 Analytics-Making Sense of Data
9 pages
Chapter 1.2
No ratings yet
Chapter 1.2
47 pages
CEDRON - OLA-LP Model Formulation
No ratings yet
CEDRON - OLA-LP Model Formulation
7 pages
Gadgets
No ratings yet
Gadgets
4 pages
Shreyansh Chandraka Business Analyst Resume
No ratings yet
Shreyansh Chandraka Business Analyst Resume
3 pages
Optimized References
No ratings yet
Optimized References
2 pages
Durga Prasad Resume
No ratings yet
Durga Prasad Resume
1 page
Pyqt6 101: A Beginner’s Guide to PyQt6
From Everand
Pyqt6 101: A Beginner’s Guide to PyQt6
Edward Chang
No ratings yet
Fresher PyQt5: A Beginner’s Guide to PyQt5
From Everand
Fresher PyQt5: A Beginner’s Guide to PyQt5
Edward Chang
No ratings yet

SOURCE CODE-image - To - Text

Uploaded by

SOURCE CODE-image - To - Text

Uploaded by

SOURCE CODE:

!pip install CocoDataset==0.1.2

You might also like