关注公众号,发现CV技术之美

今日分享论文『MURAL: Multimodal, Multitask Retrieval Across Languages』,由 Google 提出跨语言的多模态、多任务检索模型《MURAL》消除预训练模型的语言限制!

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2109.05125v1

  • 项目链接:未开源

导言:

图像标题对和翻译对都提供了学习语言表示和语言之间联系的方法。作者在 MURAL(MUltimodal, MUltitask Representations Across Languages,跨语言的多模式的多任务表示)中使用这两种类型的对来解决两个任务:1)图像文本匹配 2)翻译对匹配 。

通过聚合数十亿个翻译对,MURAL扩展了ALIGN模型[1]的性能和泛化性。当使用相同的编码器时,MURAL在多个数据集上的跨模态检索性能超过ALIGN。

更重要的是,MURAL大大提高了资源不足的语言的性能,这表明文本-文本学习可以克服这些语言缺乏的图像-标题样本的问题。例如,在Wikipedia Image-Text数据集上,基于8种资源不足的语言,MURAL-Base平均提高了8.1%,在微调时平均提高了6.8%。

      01      

Motivation

图像的多语言字幕提供了语言之间间接但有价值的关联,为了促进这一领域的发展,作者提出了一个MURAL预训练模型。之前的工作大多是训练一个具有多任务训练目标的交叉编码器模型,但是这样做其实并不高效,并且需要平衡模型中的各个loss。相比之下,多模态对偶编码器可以直接在有噪声的、大量的图像标题数据集上学习,并使用基于双向检索的简单损失。

本文提出的MURAL结构如上图所示,通过结合图像-文本匹配和文本-文本匹配任务,同时学习语言和图像的编码器,并使用对比损失来训练双编码器模型。提高资源不足的语言的性能,在之前是不可行的,因为之前的多语言图像文本数据集(如:Multi30k,STAIR),只支持资源充足的语言 。然而,最近涵盖了108种语言的Wikipedia Image-Text (WIT)数据集的提出,解决了这一问题。

MURAL提高了在资源充足的语言上的Zero-shot图像-文本检索性能,并且显著提高了在资源不足的语言上的性能。对于XTD数据集,MURAL在recall@10指标上平均提高了4%。在WIT zero-shot中,MURAL对9种资源充足的语言的recall平均提高了1.7%,对8种资源不足的语言的recall平均提高了8.1%。

通过实验,作者表明,双编码器模型可以远远超过交叉编码器baseline模型。在Multi30k数据集中,本文最大的模型MURAL-Large比M3P模型,在4种语言上的平均召回率提高了47.7%。在微调设置下,基于Multi30k数据集,MURAL-Large比UC2的平均召回率提高了5.9%。

      02      

方法

ALIGN是一个多模态双编码器(如上图所示),它在一个共享的embedding空间中学习图像和文本表示。ALIGN的编码器通过normalized softmax loss在图像文本对上从头进行训练。这种损失函数使得模型拉近正图像-文本对,同时拉远负图像-文本对之间的距离。

ALIGN在多个数据集上实现了SOTA的性能;然而,训练它的Alt-Text数据严重倾向于资源充足的语言(如上图所示)。这种不平衡降低了资源不足的语言的对齐表示能力;因此,作者在本文中通过使用文本-文本翻译对来解决这个问题。

2.1 MURAL

MURAL具有多任务对比学习目标,为图像文本增加文本对比损失。MURAL通过两个任务来训练:图像-文本(i2t)匹配 和文本-文本(t2t)匹配 。文本编码器在这两个任务之间共享,使得多语言学习从文本-文本任务转移到跨模态表示。损失函数是这两个任务的损失的和。

Weighting of i2t and t2t tasks

在损失函数中对i2t和t2t任务进行加权可以使任务保持平衡。作者进行了对这两个任务进行不同的权重的实验;本文的主要重点是跨模态检索,所以图像-文本任务的权重需要高于文本-文本任务。损失函数设置如下:

上面式子中的每个损失函数计算如下:

其中,τ在实验中设为0.01;为余弦相似度,计算如下:

Task-specific projection heads

在计算输入之间的余弦相似度之前,对编码器表示进行转换的特定于任务的投影head可以改进对比性学习的性能。在MURAL中,作者在文本编码器上使用两个单层的、特定于任务的投影head:一个转换的embedding用于图像-文本对比损失,另一个转换的embedding用于文本-文本对比损失

Fine-tuning: single-task vs. multi-task

MURAL的主要目标是通过学习图像-文本和文本-文本对来提高Zero-Shot的性能。然而,微调对任何给定数据集的性能都有很大的影响。经过初步实验,作者发现使用图像-文本对的单任务微调的性能略优于使用联合字幕的多任务微调的性能。

2.2 Model variants

在 MURAL-BASE上,对于图像编码器,作者选用了EfficientNet-B5;对于文本编码器,作者选用了BERT-Base。在 MURAL-LARGE上,对于图像编码器,作者选用了EfficientNet-B7;对于文本编码器,作者选用了BERT-Large。

2.3 Baseline Strategies

Translate-train

为了减少对英语的严重bias,并支持其他语言对图像-文本对进行模型训练,作者使用NMT系统将英语文本翻译成其他语言来人工创建了图像-文本对。然后,这些额外的对被用来训练模型。

Translate-test

另一种策略是训练一个高性能的英语模型,然后将非英语输入转换为英语,然后进行编码,在测试时进行跨模态检索。这两种策略都高度依赖于NMT系统的质量,它所支持的语言,同时也会带来额外的成本和复杂性。

      03      

实验

3.1. Multi30k and MSCOCO

上表比较了本文方法和其他方法在两个数据集上的性能。

3.2. Wikipedia Image Text Results

上表显示,在资源充足的语言上,与ALIGN-BASE相比,MURAL-BASE获得了更好的Zero-Shot性能,在代表性不足的语言上也取得了很大的提升。

3.3. XTD

如上表所示,ALIGN和MURAL都获得了巨大的性能增益。

3.4. Crisscrossed Captions

在CxC图像文本数据集上,ALIGN和MURAL都取得了不错的性能。

CxC图像文本数据集上的相关性结果如上表所示。

3.5. Embedding Visualization

上图展示了LaBSE和MURAL两个模型在二维空间中的embedding图。

      04      

总结

英语为学习多语言表示提供了一个起点,因为相比于其他语言,英语使用更为广泛,英语与其他语言配对也更容易收集。作者利用这些翻译对来改进跨模态表示中多语言输入的处理。

通过对比学习在大规模数据集上训练简单的双编码器模型,本文的模型在所有语言中获得了更强大的检索性能——特别是资源不足的语言。本文的错误分析还表明,MURAL有助于增加检索实例的文化特异性和多样性。在CxC的结果也表明,MURAL的改进可能来自于在不同的任务学习过程中更好的校准。

参考文献

[1]. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「图像字幕交流群

MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL...相关推荐

  1. 论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

    笔记整理:谭亦鸣, 东南大学博士生 来源:NAACL'21 链接:https://aclanthology.org/2021.naacl-main.465/ 概述 为了扩展多语言知识图谱问答的应用,Z ...

  2. 直播 | ACL 2021论文解读:低资源语言场景下的跨语言文本摘要

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  3. G.2 NLP领域任务如何选择合适预训练模型以及选择合适的方案【规范建议】【ERNIE模型首选】

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...

  4. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

    作者 |‍ Chilia  ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...

  5. 零样本迁移?全新多语言预训练模型DeltaLM!

    作者 | 马树铭 MSRA 研究员 整理 | DataFunSummit 目前,多语言神经机器翻译受到越来越多的研究人员的关注,多语言预训练模型对神经机器翻译可以起到非常重要的作用.预训练模型自身的跨 ...

  6. LIVE 预告 | 哈工大微软:多任务、多语言、多模态的预训练模型 | CVPR21系列

    国际计算机视觉与模式识别会议(CVPR)是计算机视觉领域三大顶会之一(另外两个分别为ICCV.ECCV).作为计算机视觉领域一年一度的盛会,CVPR每年接收论文的情况,基本可以代表一年中计算机视觉领域 ...

  7. 微软亚研提出VL-BERT:通用的视觉-语言预训练模型

    机器之心发布 作者:Weijie Su.Xizhou Zhu.Yue Cao.Bin Li.Lewei Lu.Furu Wei.Jifeng Dai 来自中科大.微软亚研院的研究者们提出了一种新型的通 ...

  8. 跨越语言障碍!哈工大联合MSRA提出多任务、多模态、多语言的统一预训练模型M3P (CVPR 2021)...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了M3P,一个多任务.多语言.多模态预训练模型 ,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中.M3P的目标是学 ...

  9. 周明:预训练模型在多语言、多模态任务的进展

    2020-09-12 15:34:16 作者 | 周明 编辑 | 陈彩娴 8月29日至30日,由中国科学技术协会.中国科学院.南京市人民政府为指导单位,中国人工智能学会.南京市建邺区人民政府.江苏省科 ...

最新文章

  1. 记一次信息泄露(被美团泄露出去的)和被诈骗经历
  2. 【BFS宽度优先搜索】
  3. [异常特工]android常见bug跟踪
  4. Dw序号列表如何通过html语言加,html标签属性大全
  5. 区块链BaaS云服务(40) 泰岳联盟链
  6. 让僵冷的翅膀飞起来—从实例谈OOP、工厂模式和重构[by Wayfarer]
  7. 淘宝网架构分享总结[转]
  8. Java 获取项目文件路径
  9. 3.nginx 的基本配置与优化
  10. C语言的那些小秘密之【内存分配】
  11. linux下组态软件,linux组态软件入门使用
  12. 菁搜FTP搜索引擎 photo
  13. 如何下载互联网上的所有网页
  14. 常数除以0的极限是什么_【高数总结求极限方法】百度作业帮
  15. 虚拟机无法获取IP地址
  16. 十分钟用Django创建一个简单的职位管理系统
  17. RabbitMQ的两种不同写法
  18. python 画心_python画心性线
  19. 微信小程序使用MQTT远程控制单片机——阿里云物联网平台
  20. 强连通分量/点双连通分量/边双联通分量 总结

热门文章

  1. 卡尔曼滤波估算车辆质量——matab simulink仿真
  2. 基于射影不变量的视野分界线划分算法
  3. python静默打印pdf_前端静默打印实现 html pdf集合
  4. 累计增量备份策略_数据安全与备份解决方案ZDLRA快速恢复
  5. java将生成数据写入文件_JAVA-将内容写入文件并导出到压缩包
  6. python输入姓名 性别身高_python简单实现学生管理系统
  7. 武汉大学计算机控制考试卷子,武汉大学计算机学院微机接口0809试题及答案.doc...
  8. php 数组处理函数,PHP数组处理函数举例
  9. oracle半角全椒_Oracle全角和半角处理函数
  10. php curl 发送post请求带参数