目录

  • CC J
  • JY S
    • [1] Normalized and Geometry-Aware Self-Attention Network for Image Captioning
    • [2] Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension
    • [3] Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation
  • CH L

CC J

[1][2][3] 三篇论文均针对当前VQA模型鲁棒性差这一问题,借鉴因果推理中思想生成反事实样本用于模型训练以提高其鲁棒性。三者的区别在于,[1]建立了反事实的框架,通过学习外部变量的分布,并在此分布上进行采样来得到反事实样本,其contribution在于此框架。[2]对图像进行语义编辑生成逼真的反事实图像,所生成的图像一方面可以用于测量模型的鲁棒性,一方面可以用于训练模型以提高模型鲁棒性,其contribution在于语义编辑的方法及相应的数据集。[3]设计了模型无关的反事实样本训练策略,对图像中的critical object,问题中的 critical word 进行屏蔽(mask)以得到反事实样本用于模型训练,其contribution在于此训练策略。下午讨论得到的一个启发是反事实样本生成的思想或许可以用于异常事件检测,通过定位critical object并进行相关干预操作,得到反事实的样本,以帮助模型更好的理解什么是异常,异常和正常的主要区别是什么。
[4] 针对当前视觉注意力数据集视角受限的问题提出了沉浸式问题导向的视觉注意力(Immersive Question-Directed Visual Attention)数据集并对其中的 visual attention 进行了分析。下午讨论得到的启发是,我们在做后续的video QA等任务时,可以从解决 ‘Missing important cues’, ‘Looking, but not seeing’, ‘Wrong timing’ 等问题入手。

[1] Counterfactual Vision and Language Learning.
[2] Counterfactual Samples Synthesizing for Robust Visual Question Answering.
[3] Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing.
[4] Fantastic Answers and Where to Find Them Immersive Question-Directed Visual Attention.

JY S

[1] Normalized and Geometry-Aware Self-Attention Network for Image Captioning

简述
1.做的是image captionning
2.针对的是image captionning里的Self-Att Net
3.要往上加Normalization和Geometry-Aware
存在问题(动机)
1.内部协变量漂移:输入分布会变,(原本的LN只用在SA模块外面)
本文的解决方法:把LN融合进SA模块/把norm放到注意力模块中),即SA->NSA
2.未对几何关系建模:
原因:图像被提取为特征bag后传入自注意网络不能很好地保留几何/位置信息
常见解决方法:往元素上加绝对位置(借鉴对sentence的处理,在1D的句子中做的很好,但是绝对位置不足以反映2D的几何关系)
本文的解决方法:扩展注意力权重:contendbase & geometric bias(几何+内容)
贡献
1.将归一化技术加到了自注意力机制里面
2.显式地利用几何关系和内容信息一同来辅助理解图像
3.这个method是通用的

[2] Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension

简述
一个用于组合式目标指代物理解的新数据集和任务
存在问题(动机)
做V&L问题的动机:需要高水平推理的视觉任务(VQAVD)是实现人工智能的先决条件
做数据集的动机:现在的一些公开数据集并不能很好地检验模型的理解和推理能力。原因:
1.现存数据集通常仅描述对象的一些简单的独特属性,没有复杂的逻辑推理关系;
2.图片中仅包含有限的干扰信息,仅包含一两个和目标区域同类别的区域。
3.数据集bias 有人试图解决,但用的是合成数据集合成数据的缺陷:失去了现实世界语义丰富性。
贡献
本文提出的解决方案:做一个新的数据集
1.新的文本生成引擎:组合各种推理逻辑和丰富的视觉特征,来产生不同的组成复杂度的文本描述。
2.新的测试设置: 在测试过程中添加语义相似的视觉图像进行干扰 目标:把无推理的跨领域对齐的模型(蒙对)的正确概率降到最低

[3] Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

简述
用于联合指向性目标检测和目标分割的多任务协同学习
存在问题(动机)
领域现状:相互独立
虽然有把他们(指向性目标检测(REC)和指向性目标分割(RES))放在一起做的,但其本质是将单任务的网络用后端的MaskRCNN联合。
为什么要联合?RES可以帮助REC实现更好的语言-视觉对齐,同时REC可以帮助RES更好的定位所指对象。这两个任务之间高度趋近且能够互相促进。 这样的多任务尝试在计算机视觉领域已经非常成功,即实例分割(Instance Segmentation)。
联合时的困难:预测分歧。预测分歧其实也会存在于实例分割当中,比如框出来的物体没有被分割出来,但对于任务本身的目的而言,这个问题不会显得那么严重。而这个问题在语言指导下的RES和RE中则会变得不可接受。
贡献
1.提出MCN网络。网络结构:V&L编码器共享,RES&REC推理分支相对分离。
2.解决关键问题(预测分歧)。解决预测分歧的方法: CEM协同能量最大(强迫两个任务在相似的视觉区域进行)、ASNL自适应软非定位区域抑制(根据REC的预测,抑制了RES中不相关区域的响应)
3.极高的性能

CH L

[1][2][3]三篇论文均与video grounding有关,但是面向三个不同的task,三个task分别是Video Grounding(简称VG)、Video Object Grounding(简称VOG)和Video Captioning(简称VC)。
[1]针对VG领域正负样本不均衡问题,仿照目标检测方法FCOS,回归每一帧与ground truth中起始帧和结束帧的距离。在本文方法下,训练过程中可以将起始帧和结束帧之间的所有帧作为正样本,扩充了正样本数据。[1->9]和[1->17]是[1]中的第9篇和第17篇参考文献,分别出自ICCV2017和EMNLP2018。在[1->9]中,VG任务被称作Temporal Activity Localization by Language(简称TALL)。[1->9]和[1->17]中,均将VG问题视为一个选择最优proposal的问题。[1->9]中使用多尺度的滑动窗口对每个视频进行采样,将它们作为输入,并将分数最高的窗口作为预测结果。[1->17]中使用不同的Context moments作为输入,预测它们的分数。[1]与这两篇参考文献的区别在于,抛弃了传统的在video上进行clip得到多个proposal,预测proposal的分数选择最优proposal的方法。直接基于每一帧回归出一个box,再对n(视频帧数)个boxes进行择优选择。既然[1]能够将FCOS移植到VG领域,其实一些关键点检测的方法应该都能适用,但是这一类idea的水平并不高。
[2]针对VOG领域中,模型无法学习object之间的时空关系的问题,通过对比采样和时空连接构造了新数据集ASRL,并基于此数据集提出了VOGNet模型。文中提到,现有方法无法学习object之间的关系,是因为有两点约束不能满足。①是带有object-level标注的大规模视频数据集。②是每个视频应包含同一类别的多个实例,以免模型可以通过简单的detection即可找到referred objects。下午的讨论,受到的一点启发是,在V&L领域,数据集的标注和规模可能还不尽人意,找到数据集存在的问题,并通过一些方法解决问题,才是上上之策,而非针对数据集的问题,构造新的数据集。
[3]针对VC领域现有方法的visual grounding不准确的问题,提出显式建模objects之间的时空关系,并使用知识蒸馏对特征进行去噪。看完本文,一个直观的想法是,显式建模的方法(或矩阵)应有多种,理论上,应存在更好的建模方法。但是,如何证明其他的建模方法是更优的有待思考。这一观点和前段时间与武老师讨论的在V&L中使用流形的思想,如何证明双曲空间比欧式空间更适合V&L任务,有点相似,我觉得这两个问题是类似的。当然,针对[3]而言,一个更好的想法应是,提出一个比本文方法更好的,能够提升visual grounding准确性的方法。

[1] Dense Regression Network for Video Grounding
[1->9] TALL: Temporal Activity Localization via Language Query
[1->17] Localizing Moments in Video with Temporal Language
[2] Video Object Grounding using Semantic Roles in Language Description
[3] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

2020-06-18 CVPR2020 VL论文讨论(1) 笔记相关推荐

  1. 2020-07-16 CVPR2020 VL论文讨论(5) 笔记

    目录 [1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [2] Iterative Answer Pre ...

  2. 2020-07-09 CVPR2020 VL论文讨论(4) 笔记

    目录 [1] Embodied Language Grounding with 3D Visual Feature Representations [2] Where Does It Exist: S ...

  3. 2020-07-02 CVPR2020 VL论文讨论(3) 笔记

    目录 [1] Bi-directional Relationship Inferring Network for Referring Image Segmentation [2] A Real-Tim ...

  4. 2020-07-14 CVPR2020 i3DV论文讨论(4) 笔记

    目录 [1] MARMVS: Matching Ambiguity Reduced Multiple View Stereo for Efficient Large Scale Scene Recon ...

  5. 2020-07-07 CVPR2020 i3DV论文讨论(3) 笔记

    目录 [1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization ...

  6. 2020-07-03 CVPR2020 i3DV论文讨论(2) 笔记

    目录 [1] Context Prior for Scene Segmentation [2] Deep Stereo using Adaptive Thin Volume Representatio ...

  7. 【CVPR 2020】CVPR2020 最新论文下载!看计算机视觉2020在研究什么?

    公众号关注 "视学算法" 设为 "星标",DLCV消息即可送达! 本文由极市平台整理 最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470 ...

  8. CVPR2020最新论文扫描盘点(下)

    CVPR2020最新论文扫描盘点(下) 最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470篇论文被接收,接收率为22%,相比去年降低3个百分点,竞争越来越激烈.这里整理来自Tw ...

  9. 总结 | 2020年TOP 10计算机视觉论文:代码,解读,还有demo视频!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:louisfb01 编译:ronghuaiyang 来源:AI公园 导读 论文,代码,解读,还有 ...

最新文章

  1. 不用GPU,稀疏化也能加速你的YOLOv3深度学习模型
  2. mysql自然连接和等值连接_mysql sql99语法 内连接等值连接
  3. Html5页面和Native App怎么进行交互
  4. redis 服务器/客户端安装与配置
  5. 还在用SELECT COUNT统计数据库表的行数?Out了
  6. Java面试题15牛客 以下关于Integer与int的区别错误的是
  7. rust房屋建造蓝图_都说蓝图,而不是白图、红图,你知道为什么?
  8. python基础自动化测试_Python自动化测试基础之HelloWorld
  9. 动态解析dll及使用类
  10. maven全局配置文件settings.xml详解
  11. yuicompressor java_YUI Compressor使用配置方法 JS/CSS压缩工具
  12. How To Convert DMG To ISO on Mac OSX, Windows and Linux
  13. SVN及VSS下载脚本
  14. 程序小白天天打卡(函数模板)
  15. python读取fits第三方库_如何读取FITS
  16. java inflate deflate_Java中的可迭代gzip deflate / inflate
  17. 物理机ping通Centos虚拟机,但虚拟机ping不通物理机的解决方法
  18. dw中html文档命名标准,dw中的css是什么意思?
  19. EasyCVR实现智慧楼宇道闸控制流程及参考代码分享
  20. php实现国外邮箱,发送电子邮件 · 国外PHP框架Nette官网教程 · 看云

热门文章

  1. [云炬创业基础笔记] 第四章测试13
  2. 云炬创业政策学习笔记20210113
  3. 科大星云诗社动态20210823
  4. 单列表_正态分布检验(单样本K-S检验)
  5. 如何使用python批量压缩图片_Python实现批量压缩图片
  6. 透彻理解RPN: 从候选区域搜索到候选区域提取网络
  7. c++/cli之我见
  8. 利用Sql Server2005发送邮件
  9. 23种设计模式C++源码与UML实现--外观模式
  10. python函数—— .items()