idea

受无监督机器翻译的启发,作者旨在研究在没有成对的image-caption语料库的setting下通过无监督预训练学习一个更强的视觉语言特征模型

作者提出了一种mask-and-predict预训练方法在只有文本和只有图像的语料库中,并且引入了目标检测模型来检测目标标签来连接两个模态

Method

作者受multi-lingual contextual language models的启发,将图像作为一个区域集合,并且将每一个区域作为一个token

作者使用VisualBERT,将此应用于无监督预训练中,得到Unsupervised VisualBERT (U-VisualBERT).该模型是由一个Transformer组成的,可以接受两种模态的输入(参数共享)。

给定一个文本语料库DT和一个图像语料库DI,在预训练过程中,随机采用一批文本或者一批图像(注意:图像和文本是没有对齐关系的)

当提供文本输入时,该模型用来训练预测masked的文本单词

当提供图像输入时,该模型用来训练预测masked的图像区域的属性

预训练后,模型在下游监督任务中微调

--------------------------------------------------------------------------------------

之前的模型是给定一个图像文本对来自一个对齐的数据集D,然后随机mask掉一些图像、区域,和tag

--------------------------------------------------------------------------------------

为了进一步鼓励跨模态融合,作者利用通过目标检测器得到的tag作为”anchor points“,对于每一个object,都将其检测到的tag作为一个单词添加到视觉输入中,通过此来进一步促进区域单词对齐,作者添加了坐标嵌入到tag中,使得模型可以分辨出不同区域的tag,tag在预训练和微调时都使用了,在预训练期间,一些tag被mask掉,来训练模型阿里预测mask掉的tag,tag和text的单词预测的softmax层共享参数


EXP

通过这个可视化可以进一步探究tag是如何帮助对齐这两种模态的

右图中,没有tag的模型,可以看出来,视觉和文本特征基本上是分开的,如两个分开的红色框

U-VisualBERT,进一步还可以发现,红色框中和蓝色框中的类别都是语义很接近的,并且他们距离也很近

最后作者还在半监督下进行了预训练

《Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions》论文阅读相关推荐

  1. 《基于卷积神经网络的深度迁移学习,用于燃气轮机燃烧室的故障检测》论文阅读

    目录 突出 抽象 引言 1.1动机 1.2文献综述获得的结论 1.3贡献 1.4组织 2方法 2.1燃汽轮机组故障知识共享 2.2迁移学习 2.3 基于卷积神经网络的深度迁移学习 2.4用于燃气轮机燃 ...

  2. 基于卷积神经网络和投票机制的三维模型分类与检索 2019 论文笔记

    作者:白静 计算机辅助设计与图形学学报 1.解决的问题 由于三维模型投影得到的视图是由不同视点得到,具有相对独立性,这种像素级的融合运算并没有直接的物理或者几何意义,更有可能造成图像有益信息淹没和混淆 ...

  3. TextCNN——基于卷积神经网络的文本分类学习

    1.CNN基础内容 CNN的全称是Convolutional Neural Network,是一种前馈神经网络.由一个或多个卷积层.池化层以及顶部的全连接层组成,在图像处理领域表现出色. 本文主要学习 ...

  4. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  5. 一种基于卷积神经网络的图像去雾研究-含matlab代码

    目录 一.绪论 二.去雾卷积网络 2.1 特征提取 2.2 多尺度映射 2.3 局部均值 2.4 非线性回归 三.实验与分析 四.Matlab代码获取 一.绪论 雾是一种常见的大气现象,空气中悬浮的水 ...

  6. 机械臂论文笔记(一)【基于卷积神经网络的二指机械手 抓取姿态生成研究 】

    基于卷积神经网络的二指机械手 抓取姿态生成研究 论文下载 摘要 第1章 绪论 1.1 抓取生成国内外研究现状 1.1.1已知物体抓取生成 1.1.2相似物体抓取生成 1.1.3 未知物体抓取生成 1. ...

  7. 毕业设计 - 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

    文章目录 1 前言 2 前言 3 数据集 3.1 良性样本 3.2 病变样本 4 开发环境 5 代码实现 5.1 实现流程 5.2 部分代码实现 5.2.1 导入库 5.2.2 图像加载 5.2.3 ...

  8. 基于卷积神经网络与迁移学习的油茶病害图像识别

    基于卷积神经网络与迁移学习的油茶病害图像识别 1.研究思路 利用深度卷积神经网络强大的特征学习和特征表达能力来自动学习油茶病害特征,并借助迁移学习方法将AlexNet模型在ImageNet图像数据集上 ...

  9. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

  10. 基于卷积神经网络实现图片风格的迁移 1

    卷积神经网络详解 一.实验介绍 1.1 实验内容 Prisma 是最近很火的一款APP,它能够将一张普通的图像转换成各种艺术风格的图像.本课程基于卷积神经网络,使用Caffe框架,探讨图片风格迁移背后 ...

最新文章

  1. HTML基础_Day01
  2. java.lang包—类加载器ClassLoader类
  3. 猪年看猪,猪男猪女一共十个。
  4. redis哈希表的rehash分析
  5. python 深度 视差 计算_2,Learn about Parallax(视差贴图)
  6. java servlet init方法_Java HttpServlet.init方法代码示例
  7. java Socket编程
  8. 《最新黑客攻防实战从入门到精通(第2版)》.(武新华, 孙振辉 ).[PDF]ckook
  9. 编辑邮件时去掉回车光标跟随
  10. 阿里云 银行卡 信息 四要素 验证
  11. Flutter Image 参数详解
  12. 技能get:找到连接WIFI设备的IP地址
  13. 使用mac 终端登录腾讯云服务器
  14. DNF【地下城】修改IP降低延迟方法防封号方法
  15. 2022-12-03:部门工资最高的员工。以下数据Max 和 Jim 在 IT 部门的工资都是最高的,Henry 在销售部的工资最高。sql语句如何写? 输出结果如下: department emp
  16. DP之钢管切割,最长回文字符串,最长公共子串
  17. Linux下使用GPIO模拟I2C IIC驱动(PCF8563)
  18. 618新手必看:电视盒子哪个好?热销网络电视盒子排行榜
  19. %lf 和 %f 、%ld和%d
  20. 认真聊聊中断(软中断)

热门文章

  1. ThinkPhp6+Vue智慧医疗后台管理系统
  2. jQuery绑定enter事件
  3. 浅析LRU(K-V)缓存
  4. 天嵌i.mx6q开发板android4.3编译问题
  5. 消除笔软件哪个好?这些软件可以无损涂抹图片
  6. 【其他】手机bilibili的视频文件在哪个目录
  7. filedownload实现
  8. 山东开票系统服务器地址是什么,山东省增值税发票综合服务平台网址
  9. 中级财管电脑操作不会用计算机,很全面!2018年中级无纸化考试财管公式输入方法及计算器操作说明...
  10. 精简系统登录页模板html+vue+elementui