0% found this document useful (0 votes)

23 views

Application of Deep Learning Part1

The document discusses image captioning and summarizes several papers on generating image descriptions with recurrent neural networks. It provides examples of captions generated for various images and discusses failure cases as well as applications to visual question answering and visual dialog.

Uploaded by

5049 Harishchandra Kumar

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views

Application of Deep Learning Part1

Uploaded by

5049 Harishchandra Kumar

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 21

Image Captioning

Figure from Karpathy et a, “Deep

Visual-Semantic Alignments for Generating
Image Descriptions”, CVPR 2015; figure
copyright IEEE, 2015.
Reproduced for educational purposes.

Lecture
Explain Images with Multimodal Recurrent Neural Networks, Mao et al. 10 - April 29, 2021
Deep Visual-Semantic Alignments for Generating Image Descriptions, Karpathy and Fei-Fei
Show and Tell: A Neural Image Caption Generator, Vinyals et al.
Long-term Recurrent Convolutional Networks for Visual Recognition and Description, Donahue et al.
Learning a Recurrent Visual Representation for Image Caption Generation, Chen and Zitnick

Fei-Fei Li, Ranjay Krishna, Danfei Xu 1

Recurrent Neural
Network

Lecture 10 - April 29, 2021

Convolutional Neural Network

Fei-Fei Li, Ranjay Krishna, Danfei Xu 2

test image

This image is CC0 public domain

Fei-Fei Li, Ranjay Krishna, Danfei Xu Lecture 10 - April 29, 2021

test image

Fei-Fei Li, R anjay Krishna, Danfei Xu Lecture 10 - April 29, 2021

test image

X
Fei-Fei Li, Ranjay Krishna, Danfei Xu Lecture 10 - April 29, 2021
test image

x0
<START>

Fei-Fei Li, Ranjay Krishna, Danfei Xu Lecture 10 - April 29, 2021

test image

before:
h = tanh(Wxh * x + Whh * h)
h0

Wih
now:
h = tanh(Wxh * x + Whh * h + Wih * v)
x0
<START>

v
Fei-Fei Li, Ranjay Krishna, Danfei Xu Lecture 10 - April 29, 2021
test image

sample!
h0

Lecture 10 - April 29, 2021

x0
<START> straw

Fei-Fei Li, Ranjay Krishna, Danfei Xu

test image

y0 y1

h0 h1

Lecture 10 - April 29, 2021

x0
<START> straw

Fei-Fei Li, Ranjay Krishna, Danfei Xu

test image

y0 y1

h0 h1
sample!

Lecture 10 - April 29, 2021

x0
<START> straw hat

Fei-Fei Li, Ranjay Krishna, Danfei Xu

test image

y0 y1 y2

h0 h1 h2

Lecture 10 - April 29, 2021

x0
<START> straw hat

Fei-Fei Li, Ranjay Krishna, Danfei Xu

test image

y0 y1 y2

sample
<END> token
h0 h1 h2 => finish.

Lecture 10 - April 29, 2021

x0
<START> straw hat

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Captions generated using neuraltalk2

Image Captioning: Example Results

All images are CC0 Public domain:
cat suitcase, cat tree, dog, bear,
surfers, tennis, giraffe, motorcycle

A cat sitting on a A cat is sitting on a tree A dog is running in the A white teddy bear sitting in
suitcase on the floor branch grass with a frisbee the grass

Lecture 10 - 13 April 29, 2021

Two people walking on A tennis player in action Two giraffes standing in a A man riding a dirt bike on
the beach with surfboards on the court grassy field a dirt track

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Captions generated using neuraltalk2

Image Captioning: Failure Cases

All images are CC0 Public domain: fur
coat, handstand, spider web, baseball

A bird is perched on
a tree branch

A woman is holding a cat

in her hand

A man in a
baseball uniform
throwing a ball

Lecture 10 - 14 April 29, 2021

A woman standing on a
beach holding a surfboard
A person holding a
computer mouse on a desk

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Visual Question Answering (VQA)

Lecture 10 - 15 April 29, 2021

Agrawal et al, “VQA: Visual Question Answering”, ICCV 2015

Zhu et al, “Visual 7W: Grounded Question Answering in Images”, CVPR 2016
Figure from Zhu et al, copyright IEEE 2016. Reproduced for educational purposes.

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Visual Question Answering: RNNs with Attention

Lecture 10 - 16 April 29, 2021

Agrawal et al, “Visual 7W: Grounded Question Answering in Images”, CVPR 2015
Figures from Agrawal et al, copyright IEEE 2015. Reproduced for educational purposes.

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Visual Dialog: Conversations about images

Lecture 10 - 17 April 29, 2021

Das et al, “Visual Dialog”, CVPR 2017

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Visual Language Navigation: Go to the living room
Agent encodes instructions in
language and uses an RNN to
generate a series of movements as
the visual input changes after each
move.

Lecture 10 - 18 April 29, 2021

Wang et al, “Reinforced Cross-Modal Matching and Self-Supervised
Imitation Learning for Vision-Language Navigation”, CVPR 2018
Figures from Wang et al, copyright IEEE 2017. Reproduced with permission.

Fei-Fei Li, Ranjay Krishna, Danfei Xu

All images are CC0 Public domain:

Visual Question Answering: Dataset Bias

dog,

Image

Model Yes or No
What is the dog Question
playing with?

Frisbee Answer

Lecture 10 - 19 April 29, 2021

Jabri et al. “Revisiting Visual Question Answering Baselines” ECCV 2016

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Multilayer RNNs

10 - 20
Lecturedepth April 29, 2021

time

Fei-Fei Li, Ranjay Krishna, Danfei Xu

Source -Fei-Fei Li, Ranjay
Krishna, Danfei Xu

Conceptual Perspectives and Practical Guidelines: Christopher P. Dwyer
No ratings yet
Conceptual Perspectives and Practical Guidelines: Christopher P. Dwyer
278 pages
Effective Communication
No ratings yet
Effective Communication
48 pages
Lecture 2 PDF
No ratings yet
Lecture 2 PDF
62 pages
Lecture 4 PDF
No ratings yet
Lecture 4 PDF
169 pages
lecture_6_part_2
No ratings yet
lecture_6_part_2
136 pages
Convolutional Neural Networks: April 18, 2017 Lecture 5 - 1
No ratings yet
Convolutional Neural Networks: April 18, 2017 Lecture 5 - 1
64 pages
Support Materi
No ratings yet
Support Materi
120 pages
Lecture 11
No ratings yet
Lecture 11
130 pages
Lecture 1 Part 2
No ratings yet
Lecture 1 Part 2
53 pages
Integral Transforms, Pde, and Calculus of Variations: Iist Lms
No ratings yet
Integral Transforms, Pde, and Calculus of Variations: Iist Lms
3 pages
Lect-7 Segmentation Localization
No ratings yet
Lect-7 Segmentation Localization
151 pages
Learning From Children: Improving Image-Caption Pretraining Via Curriculum
No ratings yet
Learning From Children: Improving Image-Caption Pretraining Via Curriculum
7 pages
Lecture 5 - CNNs For Detection and Segmentation
No ratings yet
Lecture 5 - CNNs For Detection and Segmentation
62 pages
Be Central
No ratings yet
Be Central
98 pages
Comp3314 8. Convolutional Neural Networks
No ratings yet
Comp3314 8. Convolutional Neural Networks
64 pages
cs231n 2017 Lecture5
No ratings yet
cs231n 2017 Lecture5
78 pages
NUWA-Infinity: Autoregressive Over Autoregressive Generation For Infinite Visual Synthesis
No ratings yet
NUWA-Infinity: Autoregressive Over Autoregressive Generation For Infinite Visual Synthesis
24 pages
chainrule2021
No ratings yet
chainrule2021
11 pages
02u Handout
No ratings yet
02u Handout
37 pages
Spring 2024 Final
No ratings yet
Spring 2024 Final
2 pages
Machine Learning Foundations (機器學習基石) : Lecture 2: Learning to Answer Yes/No
No ratings yet
Machine Learning Foundations (機器學習基石) : Lecture 2: Learning to Answer Yes/No
37 pages
2503.12917v1
No ratings yet
2503.12917v1
12 pages
Lecture 2 Autoregressive Models
No ratings yet
Lecture 2 Autoregressive Models
113 pages
FiVE_A_Fine-grained_Video_Editing_Benchmark_for_Ev
No ratings yet
FiVE_A_Fine-grained_Video_Editing_Benchmark_for_Ev
25 pages
Add-It: Training-Free Object Insertion in Images With Pretrained Diffusion Models
No ratings yet
Add-It: Training-Free Object Insertion in Images With Pretrained Diffusion Models
20 pages
Study Material: Free Master Class Series
No ratings yet
Study Material: Free Master Class Series
9 pages
Thebrainboxtutorials Com
No ratings yet
Thebrainboxtutorials Com
2 pages
Decision Tree Based Depression Classicationfrom Audio Videoand Language Information
No ratings yet
Decision Tree Based Depression Classicationfrom Audio Videoand Language Information
9 pages
Progressive Deblurring of Diffusion Models for Coarse-to-Fine Image Synthesis
No ratings yet
Progressive Deblurring of Diffusion Models for Coarse-to-Fine Image Synthesis
10 pages
Hands-On Bayesian Neural NetworksA Tutorial For Deep Learning Users
No ratings yet
Hands-On Bayesian Neural NetworksA Tutorial For Deep Learning Users
20 pages
2024ACMMMDehaoYingDIGComplexLayoutDocumentImageGenerationwithAuthentic-lookingTextforEnhancingLayoutAnalysis
No ratings yet
2024ACMMMDehaoYingDIGComplexLayoutDocumentImageGenerationwithAuthentic-lookingTextforEnhancingLayoutAnalysis
10 pages
Lecture 2.2-4on1
No ratings yet
Lecture 2.2-4on1
4 pages
Notes On Continuous Functions: Alex Nelson November 5, 2011
No ratings yet
Notes On Continuous Functions: Alex Nelson November 5, 2011
3 pages
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
No ratings yet
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
30 pages
Zero-Shot Relation Extraction Via Reading Comprehension
No ratings yet
Zero-Shot Relation Extraction Via Reading Comprehension
10 pages
Object Detyection Using CNN
No ratings yet
Object Detyection Using CNN
113 pages
08985434
No ratings yet
08985434
10 pages
Introduction To Cognitive Psychology - Unit 10 - Week 07 - Concept Formation
No ratings yet
Introduction To Cognitive Psychology - Unit 10 - Week 07 - Concept Formation
2 pages
9_Math_fl23_1stgrade_ipe_02
No ratings yet
9_Math_fl23_1stgrade_ipe_02
1 page
Lupi
No ratings yet
Lupi
5 pages
Lecture 1 Part 1
No ratings yet
Lecture 1 Part 1
68 pages
A Simple yet Effective Training-free Prompt-free Approach
No ratings yet
A Simple yet Effective Training-free Prompt-free Approach
22 pages
Face Detection Using CNN
No ratings yet
Face Detection Using CNN
6 pages
Lecture14 PDF
No ratings yet
Lecture14 PDF
130 pages
2401.08967v2
No ratings yet
2401.08967v2
15 pages
Arts 10 - RAISEPlus Week6 - Expressionism
No ratings yet
Arts 10 - RAISEPlus Week6 - Expressionism
3 pages
4930-Article Text-7995-1-10-20190709
No ratings yet
4930-Article Text-7995-1-10-20190709
8 pages
Detecting Twenty-Thousand Classes Using Image-Level Supervision
No ratings yet
Detecting Twenty-Thousand Classes Using Image-Level Supervision
27 pages
Aguanta Cristine Gersary PM Probtheory Lessonplan
No ratings yet
Aguanta Cristine Gersary PM Probtheory Lessonplan
3 pages
Introduction To Cognitive Psychology - Unit 11 - Week 08 - Visual and Spatial Memory
No ratings yet
Introduction To Cognitive Psychology - Unit 11 - Week 08 - Visual and Spatial Memory
1 page
Online Meta-Learning: y 0. An Algorithm That Understands The Underlying Struc
No ratings yet
Online Meta-Learning: y 0. An Algorithm That Understands The Underlying Struc
19 pages
Emotion-Cause Pair Extraction: A New Task To Emotion Analysis in Texts
No ratings yet
Emotion-Cause Pair Extraction: A New Task To Emotion Analysis in Texts
10 pages
OR1 03imp IPmodeling
No ratings yet
OR1 03imp IPmodeling
10 pages
Diffusion Model For Generative Image Denoising
No ratings yet
Diffusion Model For Generative Image Denoising
15 pages
Introduction To Cognitive Psychology - Unit 14 - Week 11 - Reasoning
No ratings yet
Introduction To Cognitive Psychology - Unit 14 - Week 11 - Reasoning
2 pages
CHEMISTRY F1 2025
No ratings yet
CHEMISTRY F1 2025
13 pages
T C D B I: Ransformers AN O Ayesian Nference
No ratings yet
T C D B I: Ransformers AN O Ayesian Nference
23 pages
GT Problems Applications
No ratings yet
GT Problems Applications
15 pages
Motivation: S E: A Self-Explaining Architecture For Neural Text Classifiers
No ratings yet
Motivation: S E: A Self-Explaining Architecture For Neural Text Classifiers
16 pages
Consider The Differential Equation 4xy'' + 2y' + Y.
100% (1)
Consider The Differential Equation 4xy'' + 2y' + Y.
4 pages
HOW TO ACCESS THE LMS - PPSX
No ratings yet
HOW TO ACCESS THE LMS - PPSX
18 pages
Rugby Flyer
No ratings yet
Rugby Flyer
2 pages
G1 q1 DLL WEEK 6 READING LITERACY1
No ratings yet
G1 q1 DLL WEEK 6 READING LITERACY1
9 pages
machine learning in chemistry
No ratings yet
machine learning in chemistry
14 pages
Proponents of Metacognition
No ratings yet
Proponents of Metacognition
6 pages
The Problem and Its Background
No ratings yet
The Problem and Its Background
25 pages
Activity Proposal Bridge The Gap in Math Sy 2020-2021
No ratings yet
Activity Proposal Bridge The Gap in Math Sy 2020-2021
6 pages
Cot 3 Under My Invisible Umbrella
No ratings yet
Cot 3 Under My Invisible Umbrella
4 pages
Best Practices Als
100% (2)
Best Practices Als
9 pages
Cover Letter - Final
No ratings yet
Cover Letter - Final
1 page
Unit 1 - Globalization & Identity Grade: 10-C & 10-2 Subject: Social Studies Number of Days: 18 Days
No ratings yet
Unit 1 - Globalization & Identity Grade: 10-C & 10-2 Subject: Social Studies Number of Days: 18 Days
30 pages
HR Manager Interview Questions With Sample Answers
No ratings yet
HR Manager Interview Questions With Sample Answers
3 pages
Module 4
No ratings yet
Module 4
9 pages
Test-Time Model Adaptation for Visual Question Answering With Debiased Self-Supervisions
No ratings yet
Test-Time Model Adaptation for Visual Question Answering With Debiased Self-Supervisions
11 pages
Table of Specification Content Standard: Performance Standard: Grade/Subject
No ratings yet
Table of Specification Content Standard: Performance Standard: Grade/Subject
3 pages
TRANSITIONAL
No ratings yet
TRANSITIONAL
12 pages
Practical Research 1 Quarter 1 Notes 1 Final
No ratings yet
Practical Research 1 Quarter 1 Notes 1 Final
9 pages
64-Article Text-88-1-10-20181019 PDF
No ratings yet
64-Article Text-88-1-10-20181019 PDF
10 pages
Assignment One Ped3210 New
No ratings yet
Assignment One Ped3210 New
14 pages
Adolescence 2
No ratings yet
Adolescence 2
5 pages
Grade 8 Design A City Lesson Plan
No ratings yet
Grade 8 Design A City Lesson Plan
2 pages
Using The Lexical Approach Based Activit
No ratings yet
Using The Lexical Approach Based Activit
20 pages
MAR5708-B - Individual Assignment 2022-23 - Updated
No ratings yet
MAR5708-B - Individual Assignment 2022-23 - Updated
4 pages
School Effectiveness and Management
No ratings yet
School Effectiveness and Management
9 pages
TEAM Lesson Plan Template: Standards
No ratings yet
TEAM Lesson Plan Template: Standards
4 pages
Chapter 1 (Introduction of OB)
No ratings yet
Chapter 1 (Introduction of OB)
11 pages
ENTP Personality (Debater) _ 16Personalities
No ratings yet
ENTP Personality (Debater) _ 16Personalities
11 pages
Cloudy With A Chance of Meatballs
No ratings yet
Cloudy With A Chance of Meatballs
3 pages
FS 2 - Episode 13-15
No ratings yet
FS 2 - Episode 13-15
20 pages