论文笔记:Attention Correctness in Neural Image Captioning
Attention Correctness in Neural Image Captioning
这篇论文在attention上做足了文章,分别建立了一个有监督attention训练机制,和新的评价标准,Attention Correctness。
- Supervised attention model
在attention机制中,是以 来表示t时刻在视觉块a上的关注度,具体如下。
在这个参数的训练过程中,我们本可以有一些已经具有bound box标签的样本,来修正 ,使它变现的更好,但这之前一直没有人这么用。(通俗的来讲,就是中标注出来的方框位置ground truth和attention自动识别的区域是不是一样)
对于t时刻的词语 ,根据bounding box获得的权重参数为 (它用来标识标注的真实区域),此时作者做了一个很有技巧的事,对于L个视觉区域,参数 的和为
这样, 和 就可以看作是两个概率分布,交叉熵(衡量两个分布的相似性)便可以用来衡量这两个参数的相似度,也就是attention关注的视觉区域和实际标注区域的一致性。此外,作者将与图片没有alignment的词语所对应的交叉熵直接设为0(这里不是表示相似度为0,设为常数表示对这个词的相似度,也可以设其他常数)。
于是要优化的目标函数loss如下,其中前面那个部分是概率似然函数。
剩下的任务就是,如何从带有标注的图片里构建有效的 了。
- 强监督
这里需要针对文本描述有专门的对齐的标注(Alignment Annotation),而这是十分难以获取的语料。这里首先针对224*224的图像,构建一个参数
构建的方法就是,将 所对应的bounding box 对应的像素前去标识为1。
此后,再将这个区域进行resize,大小和 相同,并进行归一化。也就是要的 了。
1)弱监督
Ground truth alighment标签的获取是十分的昂贵的,这里可以使用目标分类的bounding box的标签来完成这个任务。对于图片中出现的所有object bounding box,首先将物体类别标签取出来,然后可以求出 与标签的相似度(使用词向量)。具体如下:
2)Attention Correctness
这是为了衡量attention的 参数好坏的标准。
如图,首先是将 矩阵resize到训练图片的大小,然后归一化为 。此后在对应的bounding box框框中的参数和作为最后的真实得分。
这个标准针对的是测试阶段,所以就出现一个问题,生成的句子并不是和ground truth sentence是一样的,这样的话就无法使用ground truth标注好的bounding box了。因此,设计了以下两种策略:
- Ground Truth Caption:每次输入选用的不是上一个timestep生成的词,而是直接使用上一个timestep中ground truth caption的词,强制输出生成ground truth caption。(这样的话,这个测试过程只能单独用来测试Attention Correctness了)
- Generated Caption:先进行词性标注,找到两个词语的生成句子和ground truth中重叠的名词短语进行评价。如“A dog jumping over a hurdle”与“A cat jumping over a hurdle”,重叠的名词短语就是“a hurdle”。
参考文献:
Liu C, Mao J, Sha F, et al. Attention Correctness in Neural Image Captioning[J]. 2016.
论文笔记:Attention Correctness in Neural Image Captioning相关推荐
- 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...
- 【论文笔记8】Tree-Structured Neural Topic Model (分层神经主题模型 / TSNTM)
Tree-Structured Neural Topic Model 树结构的神经主题模型 论文概述 题目:Tree-Structured Neural Topic Model 作者:Masaru I ...
- AI医药论文笔记DeepDDS: deep graph neural network with attention mechanism to predict synergistic drug....
DeepDDS:具有注意机制的深度图神经网络预测协同用药 文章目录 DeepDDS:具有注意机制的深度图神经网络预测协同用药 一.模型? 二.具体方法? 三.实验结果? 一.模型? DeepDDS : ...
- 论文笔记 EMNLP 2020|Resource-Enhanced Neural Model for Event Argument Extraction
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 3 实验 1 简介 论文题目:Resource-Enhanced Neural Model for Event Argument Extrac ...
- 【论文笔记】ANR: Aspect-based Neural Recommender 基于方面的神经网络推荐系统
[大概记录一下这篇论文和思考] ANR: Aspect-based Neural Recommender 基于方面的神经网络推荐系统 作者大大:Jin Yao Chin,Kaiqi Zhao,Shaf ...
- 【论文笔记】K-plet Recurrent Neural Networks for Sequential Recommendation
原文:K-plet Recurrent Neural Networks for Sequential Recommendation (本文只是略读,所以笔记只记录了主要的思想,更多的细节还需看原文) ...
- [深度学习论文笔记][Adversarial Examples] Deep Neural Networks are Easily Fooled: High Confidence Predictions
Nguyen, Anh, Jason Yosinski, and Jeff Clune. "Deep neural networks are easily fooled: High conf ...
- 论文笔记:Federated Graph Neural Networks: Overview, Techniques and Challenges
论文地址:https://arxiv.org/pdf/2202.07256.pdf 目录 一.摘要 二.引言 三.3层FedGNN分类方法 1.分类方法简述 2.客户端通过图拓扑进行关联 2.1.有中 ...
- 论文笔记:Geo-Neus: Geometry-Consistent Neural Implicit Surfaces Learning for Multi-view Reconstruction
文章目录 贡献 方法 理论分析:有偏的颜色渲染 SDF网络的显式监督 遮挡处理 视角感知的SDF损失 带有多视约束的几何一致性监督 遮挡感知的隐式表面抓取 几何一致性损失 损失函数 贡献 论述说明体渲 ...
最新文章
- Apache的Commons Lang和BeanUtils
- 为什么用U盘做启动盘
- python 读取鼠标选中文本_python怎么读取文本文件
- power bi 参数_参数化Power BI报表入门
- 最新计算机操作员高级试题,计算机操作员高级考试试题
- 三朵云 华为_【创业前沿】华为突然传来大消息!对不起,我要辞职了!
- OFFICE与VISIO安装tips:版本不能并行、visio安装错误
- 最新ApkIDE少月版+JAVA环境变量一键配置软件合集
- 系统集成项目管理工程师(中级)考试心得经验
- PS(Photoshop)常用快捷键使用大全
- 团队价值观五个字_一个优秀的团队应该具有的价值观
- #pragma comment
- python编程题:天天向上的力量
- Vue项目-手机app瑞幸咖啡详解(全网最细) 从脚手架搭建到前后端数据交互(二)
- 央视新闻30分:开心网流行背后存在的隐忧
- 网络路由交换 -- 静态路由 和 缺省路由
- 用Qt写一个简单的音乐播放器(三):增加界面(播放跳转与音量控制)
- 有了这个库,这些爬虫都不用亲自写了
- A计划(三维dfs)
- 《那年花开月正圆》热播 让人深觉安防重要性