Attention Correctness in Neural Image Captioning

这篇论文在attention上做足了文章,分别建立了一个有监督attention训练机制,和新的评价标准,Attention Correctness。

  1. Supervised attention model

在attention机制中,是以 来表示t时刻在视觉块a上的关注度,具体如下。

在这个参数的训练过程中,我们本可以有一些已经具有bound box标签的样本,来修正 ,使它变现的更好,但这之前一直没有人这么用。(通俗的来讲,就是中标注出来的方框位置ground truth和attention自动识别的区域是不是一样)

对于t时刻的词语 ,根据bounding box获得的权重参数为 (它用来标识标注的真实区域),此时作者做了一个很有技巧的事,对于L个视觉区域,参数 的和为

这样, 就可以看作是两个概率分布,交叉熵(衡量两个分布的相似性)便可以用来衡量这两个参数的相似度,也就是attention关注的视觉区域和实际标注区域的一致性。此外,作者将与图片没有alignment的词语所对应的交叉熵直接设为0(这里不是表示相似度为0,设为常数表示对这个词的相似度,也可以设其他常数)。

于是要优化的目标函数loss如下,其中前面那个部分是概率似然函数。

剩下的任务就是,如何从带有标注的图片里构建有效的 了。

  1. 强监督

这里需要针对文本描述有专门的对齐的标注(Alignment Annotation),而这是十分难以获取的语料。这里首先针对224*224的图像,构建一个参数

构建的方法就是,将 所对应的bounding box 对应的像素前去标识为1。

此后,再将这个区域进行resize,大小和 相同,并进行归一化。也就是要的 了。

1)弱监督

Ground truth alighment标签的获取是十分的昂贵的,这里可以使用目标分类的bounding box的标签来完成这个任务。对于图片中出现的所有object bounding box,首先将物体类别标签取出来,然后可以求出 与标签的相似度(使用词向量)。具体如下:

2)Attention Correctness

这是为了衡量attention的 参数好坏的标准。

如图,首先是将 矩阵resize到训练图片的大小,然后归一化为 。此后在对应的bounding box框框中的参数和作为最后的真实得分。

这个标准针对的是测试阶段,所以就出现一个问题,生成的句子并不是和ground truth sentence是一样的,这样的话就无法使用ground truth标注好的bounding box了。因此,设计了以下两种策略:

  1. Ground Truth Caption:每次输入选用的不是上一个timestep生成的词,而是直接使用上一个timestep中ground truth caption的词,强制输出生成ground truth caption。(这样的话,这个测试过程只能单独用来测试Attention Correctness了)
  2. Generated Caption:先进行词性标注,找到两个词语的生成句子和ground truth中重叠的名词短语进行评价。如“A dog jumping over a hurdle”与“A cat jumping over a hurdle”,重叠的名词短语就是“a hurdle”。

参考文献:
Liu C, Mao J, Sha F, et al. Attention Correctness in Neural Image Captioning[J]. 2016.

论文笔记:Attention Correctness in Neural Image Captioning相关推荐

  1. 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

    这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...

  2. 【论文笔记8】Tree-Structured Neural Topic Model (分层神经主题模型 / TSNTM)

    Tree-Structured Neural Topic Model 树结构的神经主题模型 论文概述 题目:Tree-Structured Neural Topic Model 作者:Masaru I ...

  3. AI医药论文笔记DeepDDS: deep graph neural network with attention mechanism to predict synergistic drug....

    DeepDDS:具有注意机制的深度图神经网络预测协同用药 文章目录 DeepDDS:具有注意机制的深度图神经网络预测协同用药 一.模型? 二.具体方法? 三.实验结果? 一.模型? DeepDDS : ...

  4. 论文笔记 EMNLP 2020|Resource-Enhanced Neural Model for Event Argument Extraction

    文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介 论文题目:Resource-Enhanced Neural Model for Event Argument Extrac ...

  5. 【论文笔记】ANR: Aspect-based Neural Recommender 基于方面的神经网络推荐系统

    [大概记录一下这篇论文和思考] ANR: Aspect-based Neural Recommender 基于方面的神经网络推荐系统 作者大大:Jin Yao Chin,Kaiqi Zhao,Shaf ...

  6. 【论文笔记】K-plet Recurrent Neural Networks for Sequential Recommendation

    原文:K-plet Recurrent Neural Networks for Sequential Recommendation (本文只是略读,所以笔记只记录了主要的思想,更多的细节还需看原文) ...

  7. [深度学习论文笔记][Adversarial Examples] Deep Neural Networks are Easily Fooled: High Confidence Predictions

    Nguyen, Anh, Jason Yosinski, and Jeff Clune. "Deep neural networks are easily fooled: High conf ...

  8. 论文笔记:Federated Graph Neural Networks: Overview, Techniques and Challenges

    论文地址:https://arxiv.org/pdf/2202.07256.pdf 目录 一.摘要 二.引言 三.3层FedGNN分类方法 1.分类方法简述 2.客户端通过图拓扑进行关联 2.1.有中 ...

  9. 论文笔记:Geo-Neus: Geometry-Consistent Neural Implicit Surfaces Learning for Multi-view Reconstruction

    文章目录 贡献 方法 理论分析:有偏的颜色渲染 SDF网络的显式监督 遮挡处理 视角感知的SDF损失 带有多视约束的几何一致性监督 遮挡感知的隐式表面抓取 几何一致性损失 损失函数 贡献 论述说明体渲 ...

最新文章

  1. Apache的Commons Lang和BeanUtils
  2. 为什么用U盘做启动盘
  3. python 读取鼠标选中文本_python怎么读取文本文件
  4. power bi 参数_参数化Power BI报表入门
  5. 最新计算机操作员高级试题,计算机操作员高级考试试题
  6. 三朵云 华为_【创业前沿】华为突然传来大消息!对不起,我要辞职了!
  7. OFFICE与VISIO安装tips:版本不能并行、visio安装错误
  8. 最新ApkIDE少月版+JAVA环境变量一键配置软件合集
  9. 系统集成项目管理工程师(中级)考试心得经验
  10. PS(Photoshop)常用快捷键使用大全
  11. 团队价值观五个字_一个优秀的团队应该具有的价值观
  12. #pragma comment
  13. python编程题:天天向上的力量
  14. Vue项目-手机app瑞幸咖啡详解(全网最细) 从脚手架搭建到前后端数据交互(二)
  15. 央视新闻30分:开心网流行背后存在的隐忧
  16. 网络路由交换 -- 静态路由 和 缺省路由
  17. 用Qt写一个简单的音乐播放器(三):增加界面(播放跳转与音量控制)
  18. 有了这个库,这些爬虫都不用亲自写了
  19. A计划(三维dfs)
  20. 《那年花开月正圆》热播 让人深觉安防重要性

热门文章

  1. DevpTips_开启猎豹wifi的win7主机断网后恢复网络,笔记本连不上猎豹wifi
  2. React项目创建以及结构
  3. 杆梁单元及其坐标变换(工程有限元方法(曾攀))
  4. Java线程池的原理
  5. 舆情分析热点关键词如何提取的方法
  6. 利用LSTM作多元回归预测
  7. 2022秋招,算法岗最全面试攻略,吃透28个必问题直接速通大厂
  8. [IOS]如何让手上的 iPhone 或 iPad 进入 DFU 或 Recovery 模式
  9. Android 接入udesk SDK实现IM
  10. 浏览器控制台接口学习