这篇论文的思想也挺简单的:目标检测网络+box attention input

对于上面这幅图来说,如果attention map是空的,那么模型会检测出图像中所有的主语,如果attention map注意到右边的人,那么模型会找出与这个attention map所表示的主语产生交互的宾语(bbox和类别),和谓语(类别)。如果attention map注意左边的人同理。

那么,attention map又是什么呢?
attention map是与原图像大小相同,channel为3的二值图,第一维channel表示的是图像上的主语bbox。如果第一维是empty,第二维就是全1,第三维就是全0。如果第一维不是empty就倒过来。

把attention map加到目标检测网络也很简单:

训练时:
如果一张图片里有k个主语,那么首先把这张图片复制k份,每一份附上主语的attention map,同时与这个主语相关的宾语及谓语作为gt,这是k个训练样本。再把这张图片复制一份,附上empty attention map,同时全部主语作为gt,这是第k+1个训练样本。

测试时:
先输入图片和empty attention map到模型中,输出主语bbox和主语类别。再从主语bbox中提取attention map,再输入一次模型,就得到与主语相关的宾语的bbox、宾语和谓语类别。然后将主谓宾三者的置信度相乘,分数最高就是最终的结果了。

------------------------------------一些碎碎念---------------------------------------
今天大师兄已经回实验室了QAQ
我不想那么早回去
我还想再苟苟嘤。

后天去看这个杀手不太冷静
这总不能踩雷了吧。

---------------------------2022.02.14-------------------------
补个影评 真的好好看
学校延迟返校了
现在心情就是比较纠结
又想早回又不想早回。

论文阅读:Detecting Visual Relationships Using Box Attention(ICCV19)相关推荐

  1. Detecting Visual Relationships with Deep Relational Networks(阅读笔记)

    Detecting Visual Relationships with Deep Relational Networks(阅读笔记) 原文链接:https://blog.csdn.net/xue_we ...

  2. 论文阅读笔记:MGAT: Multi-view Graph Attention Networks

    论文阅读笔记:MGAT: Multi-view Graph Attention Networks 文章目录 论文阅读笔记:MGAT: Multi-view Graph Attention Networ ...

  3. 论文阅读:Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios

    题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...

  4. 论文阅读:Detecting Visual Relationships with Deep Relational Networks

    DR-Net(CVPR2017) 文章   代码也是先用检测器将roi准备好,然后以这些roi为输入,与其他方法不同的是,该方法还需要记住roi的类别,文章提出jointly recognition, ...

  5. 论文阅读:Visual Relationship Detection with Language Priors

    Visual Relationship Detection with Language Priors(ECCV2016) 文章   尽管大多数的relationship并不常见,但是它们的object ...

  6. VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

    论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院 源码: Github ...

  7. attention综述论文阅读:An Overview of the Attention Mechanisms in ComputerVision

    1. Introduction 注意机制起源于对人类视觉的研究.在认知科学中,由于信息处理的瓶颈,人类只能注意到所有可见信息的一部分.受这种视觉注意机制的启发,研究者们试图寻找视觉选择性注意模型来模拟 ...

  8. 论文阅读:Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

    Softer-NMS 文章   和之前同样出自Megvii的一篇论文IoU-Net一样,这篇论文的出发点也是,two-stage detector进行NMS时用到的score仅仅是classifica ...

  9. 【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

    Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval 介绍 模型 跨膜态特征表 ...

最新文章

  1. Win 10 UWP开发系列:设置AppBarButton的图标
  2. 如何查看本机端口_怎样查看Mac的端口号以及占用情况
  3. BPM助力先声药业优化流程管理
  4. 抄作业了!6 大 Flask 开源实战项目推荐
  5. Python数据库连接池DBUtils
  6. phpexcel删除行_使用PHPExcel删除行
  7. sharepoint 列表查询范围
  8. Linux x86_64内核中断初始化
  9. verilog学习 (二)
  10. wordpress提高访问速度
  11. gliffy UML破解工具
  12. 防火墙阻止软件联网方法
  13. 电脑使用者必备的文本编辑器,哪款适合你?
  14. 全球500强的网站只有500个!强者生存!
  15. 时尚内容短视频制作素材AE模板 Stylish Fashion Opener
  16. Revit导入CAD图纸,要提前优化图纸,你做到了吗?
  17. 基于HTML家乡旅游主题项目的设计与实现——少林寺(5页)HTML+CSSS
  18. Android Studio安装遇到的问题(最全)
  19. mysql修改初始密码/ 重置默认密码 You must reset your password using ALTER USER statement
  20. 智能机器人的核心技术和技术指标总结

热门文章

  1. AssemblyBuilder以及Activator双剑合璧
  2. 2022年3月份合肥教师考编报名(报名数学学科)
  3. Java_B_Province测试次数
  4. 计算机软件 大shen
  5. webpack的基本使用03
  6. 局域网的基本概念与体系结构
  7. 硬件行业知识体系概要【转】
  8. 解决pdf不能打印,不能注释,不能修改,不能保存等文档限制
  9. php中import什么意思,Thinkphp中import的几个用法详细介绍
  10. maven打包时本地的jar包打不进去