论文链接https://arxiv.org/abs/2004.00849
本文是使用transformer进行图片文本跨模态学习的一篇论文。
摘要
本文主要是针对如果只对个别特征进行提取,提取不全面的情况下,就无法对某一对象的具体行为进行识别 这样的问题提出解决方法。
1、介绍
本文提出Pixel-bert学习基于CNN的视觉编码器和深度多模态变压器组成,将图像像素与文本对齐,以在视觉和文本信息之间建立更彻底的语义嵌入。Pixel-BERT由三个部分组成:以图像像素作为输入的全卷积神经网络(CNN),基于BERT的单词级标记嵌入,以及用于视觉和语言嵌入的多模态转换器。
通过预训练模型对视觉、语言任务学一个统一表示,该模型使用图像-句子对 数据集,使用两个预训练任务和一个预训练机制。其中语言数据使用掩蔽语言模型(MLM),视觉数据随机像素采样机制,从而可以预测像素级特征。视觉语言交互使用图像文本匹配(ITM)。
2相关工作
2.1预训练机制
现有的跨模态研究根据网络结构分为两种,一种利用transformer双流神经网络分别处理视觉、语言信息,然后通过另一个transformer层将二者融合。一种是单流神经网络,使用 BERT [9] 来学习检测边界框特征和句子嵌入特征的双向联合分布。区别在于训练方法、损失函数和数据集。 Pixel-BERT 被归为第二类,而我们的视觉嵌入方式与所有这些方法不同。
2.2视觉语言任务中的视觉特征嵌入
跨模态任务,现在常用的是从对象检测模型中提取基于区域的视觉特征,但这样的视觉特征受到视觉基因组检测类别的限制。语言包含更多语义信息。本文采用视觉语义嵌入法,将视觉编码器表示学习网络结合到一个框架中,并输入源图像作为视觉输入。获取的信息更全面。
3方法
Pixel-BERT :端到端框架,基于cnn的视觉编码和用于视觉和语言嵌入学习的跨模态transformer,图像-句子对作为输入 产生联合嵌入特征。整个网络可以通过MLM和ITM任务进行端到端的预训练。Pixel-BERT:该模型包含一个视觉特征嵌入模块、一个句子特征嵌入模块和一个跨模态对齐模块。 Pixel-BERT 以图像-句子对作为输入,输出每个输入元素的注意力特征。 图像被逐个像素地传递到像素特征嵌入模块中,句子被逐个标记地输入到句子特征嵌入模块中。 该模型可以通过 MLM 和 ITM 任务进行预训练,并且可以灵活地应用于下游任务(例如 VQA、检索等)。本文建议通过 Transformer 在域内(即图像-图像、句子-句子)和域间(即图像-句子)之间建立密集连接。
3.1回顾Transformer
Pixel-BERT 采用 BERT [9] 作为跨模态对齐模块。 BERT 是一种多层双向 Transformer 编码器,能够对所有输入元素的依赖关系进行建模。
回顾transformer的结构,就是Q、V、K通过输入矩阵乘相应权重得到,然后Q乘K,并对规划的结果进行softmax,得到score A,接着A乘V得到自注意的结果,最后对该结果使用前馈网络(该前馈网络FFN 由一组具有 ReLU 激活功能的全连接层组成)进行计算,得到输出。
在跨模态任务中,输入元素来自视觉和语言领域。本文建议通过Transformer在域内 (即图像图像,句子句子) 和域间 (即图像句子) 之间建立密集的连接,
3.2模型框架
将句子中的每个单词标记化,并将每个标记嵌入到向量中。视域的输入通常是图像,如Faster R-CNN,基于区域特征表示,与语言理解间有鸿沟(噪声背景干扰,失去形状、空间信息)。Pixel-Bert,端到端。
3.2模型框架
将句子中的每个单词标记化,并将每个标记嵌入到向量中。视域的输入通常是图像,如Faster R-CNN,基于区域特征表示,与语言理解间有鸿沟(噪声背景干扰,失去形状、空间信息)。Pixel-Bert,端到端。
句子特征嵌入:Bert,句子——>单词,WordPiece将每个单词标记为token,将其表示为W矩阵,长度为单词数n,维度为d。并将每个单词的单词信息,位置信息,语义嵌入信息通过归一化函数表示成一个新的向量。(由于位置和语义嵌入的总和是一个嵌入的数学等价,本文将在实现中省略 sw 项。)
图像特征嵌入:
最近的视觉和语言方法遵循自下而上和自上而下的注意[2],通过在视觉基因组数据集上训练的 Faster R-CNN [24] 提取视觉特征。 检测器通过首先检测预定义类别下的区域来提取区域特征,然后将最终分类器之前的特征作为输出。 这种提取特征的表示能力将仅限于检测类别。
像素特征由 CNN 视觉骨干(如 ResNet[13])学习。CNN提取特征,并沿空间维度对特征进行平整。将该扁平特征表示为矩阵V,k行d列,k:像素数量,d:维度。视觉嵌入 特征由每个像素向量加sv(用来区分语言嵌入差异的语义嵌入向量。)sv被视偏移项。Resnet或ResNeXt作为主干,加2×2最大池化层降低视觉特征图的空间维度。输入图像 I 的空间大小将总共下采样 64 倍。
跨模态模型:transformer学习图像像素与语言表示间的跨模态注意,将特征向量组合起来,加上[CLS]、[SEP]两个标记(指定标记长度)构造输入序列,学习联合分类特征。输入序列:CNN:视觉。Transformer:语言。端到端。当我们对 Transformer 的输出应用学习监督时,梯度可以回溯到 CNN 主干,因此通过打破视觉和句子域之间的域差距,学习到的视觉特征将更适合目标任务学习。
3.3预训练
使用self-attention预训练模型,包括MLM(掩码语言建模)和ITM(图像文本匹配)。
MLM以0.15概率随机屏蔽语言token,并要求模型基于其他非屏蔽标记和视觉标记预测屏蔽标记。学习目标

其中,wm表示屏蔽令牌,θ表示模型参数,P表示似然生成函数。与bert单模态任务相比,pixel-Bert可从视觉标记中推断掩码标记。
ITM:增强跨模态匹配。在训练期间,本文对数据集提供的所有图像-句子对进行采样,并将它们视为正样本。本文还随机调整数据集,将不匹配的图像-句子对视为负样本。为了防止学习偏差,我们采用相同数量的正样本和负样本。本文在 [CLS] token的联合嵌入特征上应用二进制分类器来分类输入图像和句子是否匹配。ITM任务由以下损失函数驱动
其中,y ∈ {0, 1} 表示图像和句子是否匹配,S 表示分类得分生成函数。

像素随机抽样:在预训练期间随机采样特征像素。 在每次迭代中,提取像素特征后,从其中随机抽取一部分输入到 Transformer 中。 首先,它可以鼓励模型从不完整的视觉输入中学习语义知识,从而增强鲁棒性。 其次,它减少了输入元素的数量,从而可以降低计算成本并加快训练进度。 在我们的实验中,我们将为每个输入图像从特征图中随机抽取固定数量的 100 个像素。
仅被用于预训练阶段。

第一个原因是下游任务中的随机抽样可能会导致信息丢失,因为微调阶段只持续几个时期,另一个原因是我们需要确保下游任务培训和测试的输入是一致的。
4 实验
使用MS-COCO [20]、Visual Genome [16]数据集。

Pixel-Bert论文阅读相关推荐

  1. BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...

  2. Google BERT 论文阅读

    BERT: Bidirectional Encoder Representations from Transformers. 摘要 论文引入了一种称为BERT的语言表征新模型,它支持transform ...

  3. bert 论文阅读笔记

    论文:https://arxiv.org/pdf/1810.04805.pdf 1.每个序列的第一个标签为[CLS].句子中间用[SEP]来分割 用A.B 来表示前后两个句子 Masked LM(Ma ...

  4. BERT论文阅读(二): CG-BERT:Conditional Text Generation with BERT for Generalized Few-shot Intent Detection

    目录 The proposed method Input Representation The Encoder The Decoder fine-tuning discriminate a joint ...

  5. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

  6. 《论文阅读》RoBERTa: A Robustly Optimized BERT Pretraining Approach

    <论文阅读>RoBERTa: A Robustly Optimized BERT Pretraining Approach 简介 想法来源 数据集的选择 创新点 总结 期刊:arxiv 2 ...

  7. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](2)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](2) Graphs and where to find them 图以及在 ...

  8. Transformer系列论文阅读

    这是博主在五一期间对Transformer几篇相关论文阅读的小笔记和总结 也借鉴参考了很多大佬的优秀文章,链接贴在文章下方,推荐大家前去阅读 该文章只是简单叙述几个Transformer模型的基本框架 ...

  9. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  10. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

最新文章

  1. antlr.collections.AST.getLine()I问题的起因及解决
  2. Java对象表示方式2:XStream实现对对象的XML化
  3. 北斗导航 | ION GNSS+ 2021、 ION GNSS+ 2020会议论文下载:ION 美国导航学会
  4. Java集合面试问题
  5. 前端工程师技术精进路上,你被卡在哪里了?
  6. linux 时间怎么求差值_linux 时间戳及时间差计算
  7. zabbix 接触这段时间的感悟
  8. 网页上嵌入一个类似与百度文库的Flash
  9. 为什么我一直强调大家要两条腿走路?
  10. Java的测试方法有哪些?自动化测试让Java测试变得更简单!
  11. 【Linux】修改镜像源
  12. 保存网页文章为PDF文件
  13. 离散数学期末复习—学习笔记
  14. 包包各部位名称图解_背包学问知多少 新手背包各部分功能详解
  15. pdf文件旋转后怎么完整保存
  16. python读取图片的exif信息
  17. 小程序生态助力挖掘自有App流量
  18. LAMP(CentOS)环境详细配置步骤
  19. paper 94:视觉领域博客资源1之中国部分
  20. SQL根据身份证,统计用户的省份

热门文章

  1. hibernate3 与hibernate4的一处不同
  2. 编译qt指定glibc_glibc 编译安装
  3. ssdb java客户端_Redis 替代品SSDB Java客户端
  4. 顺风车发生交通事故 乘客诉嘀嗒出行索赔3.7万元
  5. 阿里巴巴JAVA岗发布+内部面试题(含P5-P7)
  6. Android 页面或文件或网络请求时的加载动画
  7. 常用的安全算法-数字摘要、对称加密、非对称加密详解
  8. 软件测试理论基础知识详解(新手入门必看)
  9. R语言错误信息及相关解决方法
  10. 用JPG转PDF转换器把图片制作成PDF格式文档