MAST: A Memory-Augmented Self-Supervised Tracker: Zihang Lai, Erika Lu, Weidi Xie VGG, University of Oxford

MAST is a self-supervised dense tracking model that uses a memory module to learn from past frames without human annotations. It outperforms other self-supervised baselines on DAVIS-2017 and YouTube-VOS benchmarks, achieving 15% and 17% higher mean Jaccard and F-measure scores respectively. Qualitative results also show MAST produces more accurate predictions over time compared to other self-supervised methods.

Uploaded by

Jan Kristanto

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

40 views9 pages

MAST: A Memory-Augmented Self-Supervised Tracker: Zihang Lai, Erika Lu, Weidi Xie VGG, University of Oxford

Uploaded by

Jan Kristanto

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

MAST: A Memory-Augmented

Self-supervised Tracker
Zihang Lai, Erika Lu, Weidi Xie

VGG, University of Oxford

CVPR 2020
Objective
In this work, we propose a novel dense tracking model that is
able to learn without any human annotations
Key idea: Memory Module
Past frames (Memory) Present
Results
DAVIS-2017 (+15%)

Youtube-VOS (+17%)
Results from DAVIS-2017 Validation Set
Algorithms trained in a self-supervised fashion

60 65.5
(J & F Mean)

50
48.7 50.3
40

30 34
20
Vid. Color. [1] CycleTime [2] CorrFlow [3] MAST (Ours)

[1] Vondrick, Carl, et al. Tracking emerges by colorizing videos. In Proc. ECCV, 2018. 
[2] Wang, Xiaolong, et al. Learning correspondence from the cycle-consistency of time. In Proc. CVPR, 2019. 
[3] Lai, Zihang, et al. Self-supervised learning for video correspondence flow. In Proc. BMVC, 2019
Results from YouTube-VOS Validation Set
Algorithms trained in a self-supervised fashion

60 64.2
(J & F Mean)

40
46.6
38.9
30

20
Vid. Color. [1] CorrFlow [2] MAST (Ours)

[1] Vondrick, Carl, et al. Tracking emerges by colorizing videos. In Proc. ECCV, 2018. 
[2] Lai, Zihang, et al. Self-supervised learning for video correspondence flow. In Proc. BMVC, 2019
Qualitative results * Black screen denotes no prediction.

Video Colorization (Vondrick et al.) CorrFlow (Lai et al.)

CycleTime (Wang et al.) SMAT (Ours)

Qualitative results

Video Colorization (Vondrick et al.) CorrFlow (Lai et al.)

CycleTime (Wang et al.) SMAT (Ours)

Handbook of Cognition 1st Edition DR Koen Lamberts PDF Download
100% (3)
Handbook of Cognition 1st Edition DR Koen Lamberts PDF Download
81 pages
The Complete
100% (2)
The Complete
132 pages
LESSON-EXEMPLAR-in-TLE-9-CONSUMER ELECTRONICS-BY-KARLOBELMONTE
50% (2)
LESSON-EXEMPLAR-in-TLE-9-CONSUMER ELECTRONICS-BY-KARLOBELMONTE
6 pages
The Dawn of LMMS: Preliminary Explorations With Gpt-4V (Ision)
No ratings yet
The Dawn of LMMS: Preliminary Explorations With Gpt-4V (Ision)
166 pages
APTIS Speaking Part 2 - Intake 1 2021 1 PDF
No ratings yet
APTIS Speaking Part 2 - Intake 1 2021 1 PDF
11 pages
GEM 231 - Business Management
No ratings yet
GEM 231 - Business Management
4 pages
Week 1-LS4 DLL (Produkto at Kompetisyon)
No ratings yet
Week 1-LS4 DLL (Produkto at Kompetisyon)
4 pages
Video Summarization Project Presentaion
No ratings yet
Video Summarization Project Presentaion
34 pages
ICCV 2019 Paper Digests
No ratings yet
ICCV 2019 Paper Digests
124 pages
Ailab References
No ratings yet
Ailab References
128 pages
Curriculum Vitae PDF
No ratings yet
Curriculum Vitae PDF
2 pages
ViViT: A Video Vision Transformer
No ratings yet
ViViT: A Video Vision Transformer
14 pages
CatalogMobilier Urban 2
No ratings yet
CatalogMobilier Urban 2
172 pages
Dlincv 161110052148 PDF
No ratings yet
Dlincv 161110052148 PDF
271 pages
DLL Q2 Mathematics Week 9 d2
0% (1)
DLL Q2 Mathematics Week 9 d2
2 pages
Knn-Experiments - Jupyter Notebook
No ratings yet
Knn-Experiments - Jupyter Notebook
10 pages
Grauman Aaai2017
No ratings yet
Grauman Aaai2017
60 pages
CVPR 2020 Paper Digests
No ratings yet
CVPR 2020 Paper Digests
169 pages
6 Transformers
No ratings yet
6 Transformers
77 pages
Lu 2 TRPR
No ratings yet
Lu 2 TRPR
32 pages
Module Five: Job Design
No ratings yet
Module Five: Job Design
63 pages
Meta Ai提出了一种名为v Jepa的自监督学习方法，利用视频特征预测开发出高效自监督视觉表示，实现多任务性能提升
No ratings yet
Meta Ai提出了一种名为v Jepa的自监督学习方法，利用视频特征预测开发出高效自监督视觉表示，实现多任务性能提升
23 pages
Effective Communication Skill PPT at Bec Doms Mba
100% (4)
Effective Communication Skill PPT at Bec Doms Mba
16 pages
Difference Between Classical Conditioning and Operant Conditioning
No ratings yet
Difference Between Classical Conditioning and Operant Conditioning
15 pages
Fredylin P. Saclote: Your Reference Regarding My Qualification and Expertise
No ratings yet
Fredylin P. Saclote: Your Reference Regarding My Qualification and Expertise
2 pages
11 Deep Transfer Learning and Multi Task Learning
No ratings yet
11 Deep Transfer Learning and Multi Task Learning
24 pages
Vision Transformers For Vein Biometric Recognition
No ratings yet
Vision Transformers For Vein Biometric Recognition
23 pages
A Survey On Vision Mamba: Models, Applications and Challenges
No ratings yet
A Survey On Vision Mamba: Models, Applications and Challenges
17 pages
Video Anomaly Detection in 10 Years: A Survey and Outlook
No ratings yet
Video Anomaly Detection in 10 Years: A Survey and Outlook
20 pages
4M: Massively Multimodal Masked Modeling
No ratings yet
4M: Massively Multimodal Masked Modeling
46 pages
Conditional Positional Encoding Fot ViT
No ratings yet
Conditional Positional Encoding Fot ViT
19 pages
A Robust Volumetric Transformer For Accurate 3D Tumor Segmentation Paper
No ratings yet
A Robust Volumetric Transformer For Accurate 3D Tumor Segmentation Paper
12 pages
Paper 5
No ratings yet
Paper 5
12 pages
Group 43
No ratings yet
Group 43
11 pages
Li Recurrent Dynamic Embedding For Video Object Segmentation CVPR 2022 Paper
No ratings yet
Li Recurrent Dynamic Embedding For Video Object Segmentation CVPR 2022 Paper
10 pages
Automatic Video Annotation of Human Action Via
No ratings yet
Automatic Video Annotation of Human Action Via
39 pages
Evaluation Rubric
No ratings yet
Evaluation Rubric
2 pages
多模态目标跟踪
No ratings yet
多模态目标跟踪
11 pages
MIST
No ratings yet
MIST
10 pages
Research Notes
No ratings yet
Research Notes
9 pages
Yu Deep Anomaly Discovery From Unlabeled Videos Via Normality Advantage and CVPR 2022 Paper
No ratings yet
Yu Deep Anomaly Discovery From Unlabeled Videos Via Normality Advantage and CVPR 2022 Paper
12 pages
Masked Autoencoders As Spatiotemporal Learners
No ratings yet
Masked Autoencoders As Spatiotemporal Learners
13 pages
Ef Cient Training of Visual Transformers With Small Datasets - Liu Et Al
No ratings yet
Ef Cient Training of Visual Transformers With Small Datasets - Liu Et Al
13 pages
Paper 2
No ratings yet
Paper 2
8 pages
Seminar 1
No ratings yet
Seminar 1
22 pages
Autoregressive Video Generation
No ratings yet
Autoregressive Video Generation
22 pages
Real
No ratings yet
Real
8 pages
SAMURAI: Adapting Segment Anything Model For Zero-Shot Visual Tracking With Motion-Aware Memory
No ratings yet
SAMURAI: Adapting Segment Anything Model For Zero-Shot Visual Tracking With Motion-Aware Memory
11 pages
BEIT V2: Masked Image Modeling With Vector-Quantized Visual Tokenizers
No ratings yet
BEIT V2: Masked Image Modeling With Vector-Quantized Visual Tokenizers
15 pages
【目标跟踪】MixFormerV2 Efficient Fully Transformer Tracking
No ratings yet
【目标跟踪】MixFormerV2 Efficient Fully Transformer Tracking
13 pages
V Jepa
No ratings yet
V Jepa
23 pages
Data2vec: A General Framework For Self-Supervised Learning in Speech, Vision & Language
No ratings yet
Data2vec: A General Framework For Self-Supervised Learning in Speech, Vision & Language
20 pages
Masked Autoencoders As Spatiotemporal Learners: Equal Contribution
No ratings yet
Masked Autoencoders As Spatiotemporal Learners: Equal Contribution
17 pages
2019 CVPR Paper Overview: Sualab Ho Seong Lee
No ratings yet
2019 CVPR Paper Overview: Sualab Ho Seong Lee
30 pages
7 Talk PDF
No ratings yet
7 Talk PDF
29 pages
Routing To The Expert Efficient Reward-Guided Ensemble of Large Language Models
No ratings yet
Routing To The Expert Efficient Reward-Guided Ensemble of Large Language Models
10 pages
2021 NeurIPS VAAT Akbari, Yuan, Qian, Chuang, Chang, Cui, Gong
No ratings yet
2021 NeurIPS VAAT Akbari, Yuan, Qian, Chuang, Chang, Cui, Gong
16 pages
Conditional Positional Encodings For Vision Transformers
No ratings yet
Conditional Positional Encodings For Vision Transformers
13 pages
Ch-1 Introduction To Business Communication
No ratings yet
Ch-1 Introduction To Business Communication
51 pages
Status Update
No ratings yet
Status Update
5 pages
Q2-COT-LP - PE10 (Basic Dance Steps)
No ratings yet
Q2-COT-LP - PE10 (Basic Dance Steps)
3 pages
2020 Emnlp-Main 640
No ratings yet
2020 Emnlp-Main 640
10 pages
Pointrend: Image Segmentation As Rendering: Alexander Kirillov Kaiming He Yuxin Wu Ross Girshick
No ratings yet
Pointrend: Image Segmentation As Rendering: Alexander Kirillov Kaiming He Yuxin Wu Ross Girshick
23 pages
Le 2
No ratings yet
Le 2
19 pages
Benchmarking Detection Transfer Learning With Vision Transformers
No ratings yet
Benchmarking Detection Transfer Learning With Vision Transformers
9 pages
Masked Autoencoders Are Scalable Vision Learners
No ratings yet
Masked Autoencoders Are Scalable Vision Learners
14 pages
PHD MOT CNN Proposal
No ratings yet
PHD MOT CNN Proposal
3 pages
Transformers in Single Object Tracking: An Experimental Survey
No ratings yet
Transformers in Single Object Tracking: An Experimental Survey
32 pages
Vision Mamba: Rethinking Visual Representation With Bidirectional LSTMs
No ratings yet
Vision Mamba: Rethinking Visual Representation With Bidirectional LSTMs
7 pages
00 Using Variational Autoencoder To Augment Sparse Time Series Datasets
No ratings yet
00 Using Variational Autoencoder To Augment Sparse Time Series Datasets
6 pages
(2019) Towards Machine Learning With Zero Real - World Data
No ratings yet
(2019) Towards Machine Learning With Zero Real - World Data
6 pages
Chen An Empirical Study of Training Self-Supervised Vision Transformers ICCV 2021 Paper
No ratings yet
Chen An Empirical Study of Training Self-Supervised Vision Transformers ICCV 2021 Paper
10 pages
Edp
No ratings yet
Edp
34 pages
Boundary-Aware 3D Building Reconstruction From A Single Overhead Image
No ratings yet
Boundary-Aware 3D Building Reconstruction From A Single Overhead Image
11 pages
Convnext V2: Co-Designing and Scaling Convnets With Masked Autoencoders
No ratings yet
Convnext V2: Co-Designing and Scaling Convnets With Masked Autoencoders
15 pages
Literature Review - Sheet1
No ratings yet
Literature Review - Sheet1
2 pages
Unsupervised Learning of Video Representations Using Lstms
No ratings yet
Unsupervised Learning of Video Representations Using Lstms
12 pages
Whether or Not We Are Aware of It, Over Recent Years Artificial Intelligence (AI) Has Become An Integral Part of Our Lives
No ratings yet
Whether or Not We Are Aware of It, Over Recent Years Artificial Intelligence (AI) Has Become An Integral Part of Our Lives
8 pages
Exploring Self-Attention For Visual Odometry: AVO (Ours)
No ratings yet
Exploring Self-Attention For Visual Odometry: AVO (Ours)
8 pages
Dulingo Questions
No ratings yet
Dulingo Questions
2 pages
He Bi-Directional Cascade Network For Perceptual Edge Detection CVPR 2019 Paper
No ratings yet
He Bi-Directional Cascade Network For Perceptual Edge Detection CVPR 2019 Paper
10 pages
Addernet: Do We Really Need Multiplications in Deep Learning?
No ratings yet
Addernet: Do We Really Need Multiplications in Deep Learning?
8 pages
Addernet: Do We Really Need Multiplications in Deep Learning?
No ratings yet
Addernet: Do We Really Need Multiplications in Deep Learning?
8 pages
Learning Visual Voice Activity Detection With An Automatically Annotated Dataset
No ratings yet
Learning Visual Voice Activity Detection With An Automatically Annotated Dataset
6 pages
Eisenson, 1968
No ratings yet
Eisenson, 1968
11 pages
Assignment 2
No ratings yet
Assignment 2
2 pages
Video Gesture Analysis For Autism Spectrum Disorder Detection 2018
No ratings yet
Video Gesture Analysis For Autism Spectrum Disorder Detection 2018
6 pages
Effective Daycare Kindergarten Interventions To Prevent Chronic Aggression
No ratings yet
Effective Daycare Kindergarten Interventions To Prevent Chronic Aggression
6 pages
Factors Affecting The Face - To - Face Classes
No ratings yet
Factors Affecting The Face - To - Face Classes
21 pages
Improving CNN Performance With Min-Max Objective
No ratings yet
Improving CNN Performance With Min-Max Objective
7 pages
Image Deblurring
No ratings yet
Image Deblurring
30 pages
Case Study Handouts 12june2020
No ratings yet
Case Study Handouts 12june2020
9 pages
Grade 7 English Language Week 1 Lesson 1 and Answersheet
No ratings yet
Grade 7 English Language Week 1 Lesson 1 and Answersheet
4 pages
Syailendra Fixed Income Fund
No ratings yet
Syailendra Fixed Income Fund
1 page
Lesson Plan For Counteries, Nationality and Languages
No ratings yet
Lesson Plan For Counteries, Nationality and Languages
1 page
Chapter 4 Summary
No ratings yet
Chapter 4 Summary
2 pages
Bag of Words Model: Unlocking Visual Intelligence with Bag of Words
From Everand
Bag of Words Model: Unlocking Visual Intelligence with Bag of Words
Fouad Sabry
No ratings yet
Autodesk Inventor 2022 Black Book
From Everand
Autodesk Inventor 2022 Black Book
Gaurav Verma
No ratings yet

MAST: A Memory-Augmented Self-Supervised Tracker: Zihang Lai, Erika Lu, Weidi Xie VGG, University of Oxford

Uploaded by

MAST: A Memory-Augmented Self-Supervised Tracker: Zihang Lai, Erika Lu, Weidi Xie VGG, University of Oxford

Uploaded by

MAST: A Memory-Augmented

VGG, University of Oxford

Video Colorization (Vondrick et al.) CorrFlow (Lai et al.)

CycleTime (Wang et al.) SMAT (Ours)

Video Colorization (Vondrick et al.) CorrFlow (Lai et al.)

CycleTime (Wang et al.) SMAT (Ours)

You might also like