**本文内容仅代表个人理解,如有错误,欢迎指正**

*****(原论文在方法部分写得有点套娃的意思,实在是有点乱,内心os:心平气和心平气和)

1. Problems

- 这篇论文主要提出两个问题:

1) 用一个向量来对Query进行表示,没有对Query当中丰富的物体关系进行推理,即没有有效地利用Query中的信息。

2) 采用特征金字塔提取图像不同层级的特征,得到不同尺度的特征图。分别在不同尺度的特征图上对目标物体进行框选,忽略了处于不同尺度特征图上的物体之间的相关性。

2. Points

1. 提出Entity Relation Fusion Network (ERFN)模型

2. 提出Language Guided Multi-Scale Fusion (LGMSF)模型,以语言为指导,将不同尺度特征图上的物体表示融合为一张特征图。

“Language Guided Multi-Scale Fusion(LGMSF) model for extracting different visual featureof objects with different scales on one feature map. ”

3. 提出Relation Guided Feature Fusion (RGFF)模型,在自注意力的基础上,通过从Query中提取出实体信息来增强特征图中目标的特征表示,通过从Query中提取物体之间的关系来指导物体特征融合。

“Relation Guided Feature Fusion(RGFF) model extracts entities in the language expression toenhance the referred entity feature in the visual object feature map, and further extracts relations to guide object feature fusion basedon the self-attention mechanism.”

* 基本上,这篇论文想实现的功能如图一所示。

图一

3. Main Components

- 如Figure 2所示,ERFN模型主要可以分为三个部分,其中特征提取部分与预测部分属于常规操作,这里不多赘述,主要介绍LGMSF模型与RGFF模型。

1)特征提取部分:利用CNN backbone+FPN提取不同尺度的feature maps,利用RNN提取textual features。

2)LGMSF模型与RGFF模型:

3)预测部分:预测目标物体的位置。

3.1 Language Guided Multi-Scale Fusion (LGMSF)模型

- LGMSF model主要工作:在query的指导下,将图片输入CNN backbone+FPN得到的多个不同尺度的特征图融合为一个特征图,并且融合后的特征图包含了query中包含的所有物体的特征。

- 具体步骤:

1) 首先是将不同尺度的特征图采样到一个特定的大小,并分别用两个卷积层与MLP层对visual feature和language feature的通道数进行调整,得到

2) 计算每个特征图上每个位置的visual feature与language feature之间的匹配程度(类似于计算相关性),得到。其中,是在k特征图上在每个位置(i, j)上的特征。然后将过一层softmax函数得到语言指导下的注意力权重,再分别利用权重与相对应层的特征图进行Element-wise Dot,可以得到语言指导下注意力后(原属于不同层级的)特征图,最后将这三张特征图进行element-wise Addition,得到融合的特征图

3.2 Relation Guided Feature Fusion (RGFF)模型

- RGFF model主要工作:增强【query中涉及到的实体】的特征,并在【query中涉及的物体关系】指导下融合物体特征。

- 具体步骤:

1) 首先利用一个Word Classfier,对word features进行分类,提取出属于Entity和Relation的feature。简单来说就是,去预测query中每个词的类别,然后得到属于Entity和Relation的representation。("To predict the category of each word in the language expression to get the entity and relation representations in language expression.")

2) 利用entity representation与LGMSF得到的fused feature map做attention,得到注意力后的weighted visual features,再将这个注意力后的weighted visual features与fused feature map相加,得到enhanced entity features。(其实就是在特征图里突出实体特征)

3) 对position embeddings、relation language features和enhanced entity features进行融合,得到fused features。进行自注意力操作,即Q、K都来自fused features,V来自enhanced entity features。自注意力操作后,得到self-attention fused features,将其与enhanced entity features相加作为最终relation guided fused features。

**最后grounding module的输入一共有三个,第一个是language representation;第二个是relation guided fused features;第三个是position embedding。

4. Experimental Results

- 总体实验效果差强人意,一阶段模型的比较不够充分。

- 官方解释:"Features of objects with large scale can be suppressed by other objects with smaller scales from other layers." 所以在RefCOCO和RefCOCO+的test A中表现不好(因为testA中gt基本都是人,属于大物体)?但在testB中表现良好,因为testB中大多gt都非人?(WHY?)

- 消融实验

- 其中,L表示LGMSF,s表示self-attention,e表示entity enhancement feature,r表示relation feature,p表示position embedding。

- 可视化结果

- entity attention还能看出点什么东西,即确实突出了实体的特征;但是relation attention就完全迷惑了,不知道作者想体现什么,就跟RGFF里relation操作一样,不明所以。

Entity Relation Fusion for Real-Time One-Stage Referring Expression Comprehension 2021相关推荐

  1. 【CVPR2019】论文完整列表一

    CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...

  2. 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(一)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-01-22     2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...

  3. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  4. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  5. CVPR 2018 paper list(论文列表)

    原文链接:http://cvpr2018.thecvf.com/program/main_conference 52 Embodied Question Answering Abhishek Das ...

  6. CVPR 2018 paper ---object detection

    转载:https://blog.csdn.net/qq_34848537/article/details/82968217 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 20 ...

  7. 图卷积网络、图神经网络必读论文

    Content 1. Survey 2. Models  2.1 Basic Models  2.2 Graph Types  2.3 Pooling Methods  2.4 Analysis  2 ...

  8. CVPR2018下载+CVPR2018论文百度云+2018CVPR论文下载+2018CVPR百度云

    目录 CVPR2018所有文章列表 CVPR2018百度云链接 所有论文百度云链接 CVPR2018所有文章列表(篇幅有限,只放一部分) Paper ID Type Title 5 Poster Si ...

  9. CVPR 2018 paper

    CVPR 2018 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 2018 open access Paperlist Embodied Question Answering ...

最新文章

  1. SQLServer 事务的隔离级别
  2. 【AC自动机】【数据结构】【树】【Aho-Corasick automation】AC自动机理解(入门)...
  3. 史上最快! 10小时大数据入门(一)-大数据概述
  4. 怎样对待一个延期的项目
  5. 小白设计模式:责任链模式
  6. .net登录界面_JAVA实现简单的用户登录客户端
  7. python 快速排名发包_SEO快速排名发包技术及原理
  8. Bejson上线 在线png、jpg图片转svg功能
  9. csdn官网(csdn官网免费下载)
  10. Java 技巧篇-IntelliJ IDEA快捷键设置,格式化代码快捷键
  11. 剑指offer17--旋转的方式打印矩阵
  12. 网工必备工具软件——一看就懂,一听就会,一做就废
  13. 区块链如何确认记账权?
  14. SLAM④----李群与李代数
  15. 用户如何向计算机安装软件,按计算机安装同步应用
  16. 【SEED Labs 2.0】V*N Tunneling Lab
  17. 编程乐趣:获取12306的所有车站电报码
  18. MATLAB中的直方图阈值处理
  19. 企业发放的奖金根据利润I提成
  20. 计算机网络第七版4-46题答案,计算机软考网络管理员考试题及答案(44-46)

热门文章

  1. swagger easyExcel导出Excel文件打不开,文件损坏
  2. 数字时钟程序c语言,C语言实现电子时钟程序
  3. 链接库问题:LD_LIBRARY_PATH(找不到共享库)
  4. 如何成为小型咖啡店的优秀老板?需具备这6个特质
  5. SSH登录异常(someone is doing something nasty)
  6. Python 简介及开发环境搭建
  7. 计算机与信息科学书刊,第五届信息科学、计算机技术与交通运输国际学术会议(ISCTT 2020)...
  8. Android使用HttpURLConnection访问网络
  9. 充电IC和电量计的驱动调试
  10. python 中m op n运算_nltk语言模型(ngram)计算上下文中单词的prob