博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,想象一个外国人面前摆了句「金石迸碎荡尘埃,磐山纡水尽为开」。

除了痛苦地死抠复杂单词和长难句语法,他还能怎么去理解这句话呢?

——想象

想象这句诗词中的“金石”、“尘埃”、“山水”各个词汇的意象,再将意象汇聚成一个具体的画面或场景。

而这时就有研究者灵机一动:

人类不是能根据非母语文本脑补画面,进而做到更深入的理解吗?

那机器是不是也能根据输入文本脑补图像,最终实现更好的翻译呢?

于是,一个以视觉想象为引导的机器翻译模型ImagiT就诞生了。

已被NAACL 2021收录。

论文作者来自南洋理工大学和字节跳动人工智能实验室。

缺少图片也能利用视觉

提到“利用视觉”,我们首先会想到多模态机器翻译

比起纯文本的机器翻译,多模态机器翻译能够利用语音、图像这样的模态信息来提高翻译质量。

多模态机器翻译的输入:源语言+标注的图片

但多模态机器翻译的质量是和数据集的可用性直接挂钩的。

换句话说就是标注图片的数量和质量会非常影响模型翻译的有效性。

但偏偏人工图片标注的成本又不低……所以现阶段的多模态机器翻译大都应用在Multi30K,一个包含了3万张图片标注的数据集上。

而新提出的ImagiT翻译模型呢?

它在推理阶段不需要标注图片作为输入,而是通过想象的方式利用视觉信号,在训练阶段将视觉语义蕴含到模型内部。

多模态机器翻译的输入:源语言

做到了在缺少图片标注的情况下也能利用视觉信息。

基于想象的翻译模型到底什么样

这是一个端到端的对抗学习架构。

架构左右端是我们熟悉的transformer的编码器和解码器,而中间则是这一框架独特的生成想象网络

这一生成想象网络主要由两个转化器和一个注意力层组成,具体做转化时:

一、源文本通过F0输入

F0包含一个全连接层和四个去卷积层。

基于GAN的思想,句子特征与噪声拼接后会通过F0转化成视觉表征。

二、将注意力放在词层面

在注意力层关注源文本中的相关词汇,并生成图像不同子区域的细粒度细节,让图像特征的子区域与词对应。

最终得到更加语义一致的视觉表征。

三、视觉表征通过F1输出

F1包含两个全连接层和一个去卷积层,以及一个残差层。

通过这一转化器,捕捉多层次(词级和句级)的语义,输出生成的视觉特征f1。

四、多模态聚合

把原本的文本模态和新合成的视觉特征聚合在一起。

五、翻译

模型的学习目标结合了文本到图片的生成,以及逆任务的图像字幕和翻译。

其中鉴别器源文本、生成图像和真实图像作为输入,用来评估合成图像是否与真实图片一致。

同时,也会使用条件对抗损失来评估合成的图像是否与源语言具有相同的语义。

“脑补”如何帮助翻译?

研究者使用了一种退化策略,即用特殊字符替换源语言文本中的重要词语,来观察模型的翻译表现会下降多少。

在这这种情况下,纯文本的翻译模型只能通过丢失词语的上下文和偏置来推理句子的翻译。

多模态机器翻译则会利用标注的图片进行翻译。

ImagiT在缺少图片标注的情况下,还能根据退化的文本想象并恢复丢失的信息。

通过这一特殊的探索实验,可以看到ImagiT能在训练阶段学习特定词语(色彩,可被具象化的实体词等)与其他词语之间相关性和共现。

将源语言文本中所有的色彩词全部替换为特殊字符。

而对比纯文本翻译,通过想象恢复被替换文本的ImagiT模型在翻译质量上下降的幅度也最少

效果如何?

由于ImagiT不需要图片作为输入,所以在测试时选用纯文本的transformer模型作为baseline。

在Multi30K的英法、英德Test2016,Test2017上进行测试时,ImagiT得到了与SOTA多模态翻译系统相当的表现:

而在Ambiguous COCO上也展现出了不错的测试结果:

论文地址:
https://arxiv.org/abs/2009.09654

这年头,机器翻译都会通过文字脑补画面了 | NAACL 2021相关推荐

  1. 给 AI 讲故事,如何教它脑补画面?

    阿里妹导读:视觉想象力是人与生俱来的, AI 能否拥有类似的能力呢?比如:给出一段故事情节,如何让机器展开它的想象力,"脑补"出画面呢?看看阿里AI Labs 感知实验室的同学们如 ...

  2. DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在教会AI脑补.理解周围的环境之后,还能往什么方向努力? "人工智能梦之队"DeepMind给出了非常多的例子. 继De ...

  3. “脑补”的科学依据:眼前的黑不是黑,靠得是你的大脑

    一个在眨眼的婴儿 | 图片来源:Leungcho Pan/Shutterstock 撰文:Mindy Weisberger 来源:科研圈 编译:向菲菲 人们常说:"别眨眼,精彩稍纵即逝.&q ...

  4. AI学会了视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

    李林 发自 凹非寺 量子位 出品 | 公众号 QbitAI 人类有一种非常强大的能力:脑补. 这张照片在人类眼中,左下角的一小片棕黄黑灰就是一匹活生生的马--这个姿势和场景,当然是骑马啦! 但对于大部 ...

  5. python turtle怎么画海绵宝宝_画师绘制海绵宝宝性转拟人,派大星变小帅哥,又脑补一出甜蜜大戏...

    我已经工作了有一段时间了,但是我依然很喜欢看<海绵宝宝>这部动漫,每次看的时候都会笑得没心没肺,十分欢乐. 好羡慕海绵宝宝和派大星他们啊,海绵宝宝还要上班,有自己的理想和工作,派大星真的是 ...

  6. CVPR2022 | 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  7. 陈道明还原度最高!AI 脑补宋明清皇帝长相,四大模型构想真实五官

    来源:  hyperAI超神经 本文约1900字,建议阅读5分钟 本文为你介绍了AI修复古老视频.还原历史人物. 近期AI 修复古老视频.还原历史人物的风潮在国内外格外流行,让广大网友都过足了穿越瘾. ...

  8. 用「我的世界」自动生成「现实世界」:英伟达展示AI脑补新技术

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 Minecraft 里面自建像素风世界不够过瘾?英伟达:那就让 AI ...

  9. 【CVPR 2022】只用一张图+相机走位,AI就能脑补周围环境

    来源:量子位 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染出的图像通通都是高保真效果,仿佛是用真相 ...

最新文章

  1. 剑指offer:和为S的连续正数序列
  2. ADO.NET复习总结(4)--访问SqlServer的类
  3. 高晓松侃5G!2019开年大讲揭示运营商的秘密
  4. 【Elasticsearch】如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 3 部分:语言检测工具
  5. 数据库与MySQL基本知识
  6. Windows下Node.js安装Canvas插件
  7. python 爬虫生成csv文件和图_Python简单爬虫导出CSV文件的实例讲解
  8. MAPGIS与ARCVIEW之间的文件转换技巧。(转载自当当吧网络驿站)
  9. 计算机怎么剪切音乐然后合在一起,电脑怎么剪辑合并音乐
  10. pic系列单片机c语言编程与应用实例,PIC单片机C语言编程实例
  11. 摄影用光、构图基础知识
  12. 2005 马蹄铁(dfs)
  13. 2021-05-13
  14. 【转】乔布斯演讲黄金法则
  15. 单片机成长之路(51基础篇) - 023 N76e003 系统时钟切换到外部时钟
  16. 计算机只存在于计算机硬盘上,计算机病毒只存在于计算机硬盘上。
  17. Unity引擎源代码开源地址
  18. Ansible主机清单inventory
  19. 古学今用——不要那么直白了
  20. Arduino系列之米思齐旋钮控制LED灯亮度

热门文章

  1. 为什么我可以在Java中抛出null? [重复]
  2. 一种用户体验-显示对话框时灰化你的主窗体
  3. 分享Hadoop处理大数据工具及优势
  4. request.servervariables参数
  5. JOGL   java调用openGL
  6. ios 团购信息客户端demo(三)
  7. JS验证框架的使用方法
  8. html 怎么播放avi视频,iPhone4S视频格式播放巧用苹果转换器
  9. 余额 微信钱包图片_微信储值会员卡小程序,微信会员卡功能系统。
  10. irobot擦地机器人故障_自己动手修复 iRobot braava380t 电机故障