[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA
[3] Syntax-Aware Action Targeting for Video Captioning
[4] Modality Shifting Attention Network for Multi-modal Video Question Answering
[5] Graph-Structured Referring Expression Reasoning in The Wild
[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
总结

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

oral
motivation：模型答对了问题，但是可能并没有理解图像，这体现在对问题的回答存在不一致性（eg：图中香蕉是什么颜色的？绿色。这个香蕉熟了吗？熟了。）。
method：本文提出一个数据集，将VQA任务中的问题分为两类：Reasoning、Perception。其中，Perception类问题是Reasoning类问题的子问题（前提）。

[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA

oral，出自UCB + FaceBook
motivation：传统方法使用pairwise机制（对每两种模态进行融合、以此类推），且预测时使用分类方法，无法生成多个单词的答案。
method：多模态Transformer，多步指针增强decoder。
训练时：teacher forcing，给定真值，预测下一个值。

[3] Syntax-Aware Action Targeting for Video Captioning

poster，出自陶大程老师的小组
motivation：video captioning应更注重action（interaction）
method：语法感知模块 + 动作引导Captioner

[4] Modality Shifting Attention Network for Multi-modal Video Question Answering

poster
task：视频带有字幕，回答问题需要同时参考视频和字幕。可以分割为两个sub-task：①. video grounding；②. VQA。
challenge：①. 找出所有异质模态中有利于回答这个问题的关键时刻；②. 基于异质模态进行问答；
method：给我的感觉，和video grounding、VQA中的方法差不多。

[5] Graph-Structured Referring Expression Reasoning in The Wild

oral
参考链接

[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

oral
参考链接

总结

[2] 在V&L中使用了Transformer，但是使用方法有些简单，感觉没有发挥出Transformer的优势。
[1][5][6] 三篇文章分别针对VQA、RE、ImageCaptioning三个任务，提出了具有推理能力的方法。[1]从sub-question的一致性出发，将question分为两类，并提出了特定数据集。[5]中考虑referring expression的语言结构，作为reasoing的order。[6]提出了抽象场景图的概念，并适用抽象场景图作为reasoning的order（当然，这篇文章的重点在于抽象场景图带来的细粒度可控性）。由此可见，进行reasoning的形式和方法有很多，应多思考。

2020-07-16 CVPR2020 VL论文讨论（5）笔记相关推荐

2020-06-18 CVPR2020 VL论文讨论（1）笔记
目录 CC J JY S [1] Normalized and Geometry-Aware Self-Attention Network for Image Captioning [2] Cops- ...
2020-07-09 CVPR2020 VL论文讨论（4）笔记
目录 [1] Embodied Language Grounding with 3D Visual Feature Representations [2] Where Does It Exist: S ...
2020-07-02 CVPR2020 VL论文讨论（3）笔记
目录 [1] Bi-directional Relationship Inferring Network for Referring Image Segmentation [2] A Real-Tim ...
【2020/07/16修订】概率论与数理统计（电子科技大学）知识梳理 · 第一版（1到8章 · 度盘）
概率论与数理统计知识梳理 (第一版) 建议先修课程:高等数学(微积分) 配套课程: 1.慕课(MOOC):概率论与数理统计(电子科技大学) 2.教材:概率论与数理统计电子科技大学应用数学学院 ...
2020-07-14 CVPR2020 i3DV论文讨论（4）笔记
目录 [1] MARMVS: Matching Ambiguity Reduced Multiple View Stereo for Efficient Large Scale Scene Recon ...
2020-07-07 CVPR2020 i3DV论文讨论（3）笔记
目录 [1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization ...
2020-07-03 CVPR2020 i3DV论文讨论（2）笔记
目录 [1] Context Prior for Scene Segmentation [2] Deep Stereo using Adaptive Thin Volume Representatio ...
2020.07 学习日记
废话寒假到现在,在家里玩了5个月,来学校又玩了大半个月.以为会做点东西了就什么都懂了,竟然没做准备就投了字节秋招提前批.结果被挂了之后,又被捞起来面试.可以说十分幸运了,但机会都是留给有准备的人 2 ...
【CVPR 2020】CVPR2020 最新论文下载！看计算机视觉2020在研究什么？
公众号关注 "视学算法" 设为 "星标",DLCV消息即可送达! 本文由极市平台整理最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470 ...

2020-07-16 CVPR2020 VL论文讨论（5）笔记

目录

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA

[3] Syntax-Aware Action Targeting for Video Captioning

[4] Modality Shifting Attention Network for Multi-modal Video Question Answering

[5] Graph-Structured Referring Expression Reasoning in The Wild

[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

总结

2020-07-16 CVPR2020 VL论文讨论（5）笔记相关推荐

最新文章

热门文章

2020-07-16 CVPR2020 VL论文讨论（5） 笔记

目录

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA

[3] Syntax-Aware Action Targeting for Video Captioning

[4] Modality Shifting Attention Network for Multi-modal Video Question Answering

[5] Graph-Structured Referring Expression Reasoning in The Wild

[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

总结

2020-07-16 CVPR2020 VL论文讨论（5） 笔记相关推荐

最新文章

热门文章

2020-07-16 CVPR2020 VL论文讨论（5）笔记

2020-07-16 CVPR2020 VL论文讨论（5）笔记相关推荐