点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送达

来自:新智元
【导读】小孩儿是怎么学多种语言的?只通过观察,就同时掌握了不同语言。如何让DL也做到这一点?Deepmind团队开发出了一个无监督的单词翻译多模态模型,只通过视觉就学习语言翻译!「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

儿童是如何同时学习多种语言的?

儿童可以通过观察自己的环境并与他人互动来学习多种语言,而无需任何明确的监督或指导。他们在观察相同情况时不会同时听到一个句子及其翻译;

相反,他们通过视觉上的相似性来沟通多种语言:星期一听到“狗在吃东西”、与星期五听到“dog is eating”时看到的东西相似,那么小孩就知道,这两句话是同一个意思。

虽然世界范围内对“狗”的称呼有成百上千种语言,但是在视觉领域,它们所指代的是同样的一只狗。

这就启发了我们可以如何训练深度学习:直接让算法“听”和“看”,从相似的场景中学习不同语言之间是如何翻译的。

学名叫做:“无成对语料库的、基于视觉的无监督多模态翻译系统”

近日,来自DeepMind、牛津大学以及卡内基梅隆的研究者合作发表了论文《Visual Grounding in Video for Unsupervised Word Translation》,用视觉基础改善无监督的单词映射。

已有工作的不足:基于文本,成对语料库不普适

已有的各种无监督的基于文本的单词对齐方法,有自身的问题。他们使用相同的视频或图像与多种语言的字幕相关联,也就是说,他们利用了成对的语料库。

这种思路有两个问题:一是制作大量的成对语料库成本高昂,二是当语言(或其训练语料库)区别更大时,比如说在对越南语和德语、而不是英语和德语进行词意配对时,它们就不够鲁棒。

怎么模仿儿童学语言?我们给算法看视频

视频里,来自不同国家/地区的人们在做某种工作,同时用母语解释自己在干什么。比如,我们可以让算法在Youtube上观看韩语或英语的榨橙汁的视频。

教学视频在视觉上往往看起来相似,并且所讲的基本概念通常是相同的。我们对这类视频使用自动语音识别,获得了大量的相应字幕。

如上图所示,我们提出了一个模型,该模型通过视频映射两种语言。对于英语和法语,该模型仅通过观看视频即可正确翻译28.0%的常见单词和45.3%的视觉单词。与此相比,基于检索的基线(不共享视觉表示)对于普通单词和视觉单词只有12.5%和18.6%。也就是说,新模型把翻译成功率提高了两倍以上。

这种方法的困难:Up主经常在视频里瞎聊

通过教学视频映射语言的方法也面临挑战:YouTube博主经常谈论与当前图像没有关联的随机主题,比如用户数量,还有和观众的互动。

因此,视频中的语音与场景只有松散的联系。两种语言的视频都是这样,这使得错误更加复杂。

此外,视觉上相似的视频在语义上可能并不相似。

通过使用视频的相似性来构建平行文本语料库无法解决这一挑战。视频检索基准的两种常见故障示例如下:

在第一行中,两个视频在视觉上相关,都是在编织,但他们正在说的话并不匹配,左边在说“针脚有色彩的顺序”,右边在说“我们把小绒球加进去”,所以没法做词意匹配。

在下面两幅图中,视频都是关于食物的,但左边字幕与视觉内容无关,在说“谢谢观看,再见”。

实验结果:新模型受数据量影响小,更鲁棒

新模型翻译质量如何?与Random Chance和Video Retrieval这两个基线相比有极大提升,且比基础模型也有很大提升

表1:在英法词典和简单词汇(Simple Words)上,该模型(MUVE)和基准的性能(如Recall @ 1)。

那基于文本的单词翻译方法,新模型能否提升呢?使用了在HowToW-Text上训练的单词嵌入方法,作者实验了三种无监督方法和一种有监督方法。对比英语和法语、韩语和日语之间的翻译结果,本文提出的MUVE方法最优

表2:MUVE和基于文本的方法在不同语言对中的性能。MUVE在词典数据集上报告Recall @ 1。所有方法都使用在HowToW-Text上针对其各自语言训练的词嵌入。

这些结果证实了先前的研究结果,即基于文本的方法更适合于类似的语言(如英语和法语),并表明在这种情况下,在视觉域中的逐字翻译是特别有效的

表3:不同方法对训练语料库的相似性的鲁棒性。

结果显示,当语料库相似时(比如英语和法语),所有的方法都表现良好。当语料库不相似时,MUVE明显优于其他方法,也更加鲁棒

表4:在给出英语查询的情况下,Human Queries数据集上法语排名前2的检索结果。

研究人员测试了不同训练数据量模型的表现,分别为100%、10%、1%数据训练,当训练语料不足时,MUVE表现更好

图5:MUSE、VecMap和MUVE不同数量数据在英法字典中的Recall@10。

当单词量变化时,MUVE性能没有明显下降,其他方法受影响较大:

图6:测试英语和法语预先训练的单词嵌入,单词量急剧减少时,MUVE仍然更鲁棒。

图7:左:视频中的一帧,模型选择与英语查询最相关。右:以视频为条件的法语排名前2位的预测。视觉基础为翻译提供了一个微弱但有用的信号。

结论:基于视觉比基于文本的方法更优

新模型对以下三个方面比较敏感:

1.两种语言不同的程度(例如,相比于朝鲜语,英语更像法语),

2.两种语言的训练语料库的差异(例如,英语和法语的维基百科非常相似),

3.训练量数据。

本研究贡献有三个方面:

1.提出了一种新方法:仅使用未配对的教学视频在视觉域中映射语言

2.证明了新方法可有效地以无监督的方式通过视觉将不同语言的单词连接起来

3.它可以作为现有单词映射技术的良好初始化,解决了基于文本的方法的许多缺点

论文地址:

https://arxiv.org/pdf/2003.05078.pdf

欢迎关注我们,看通俗干货

模拟儿童学习多语言,Deepmind让DL看视频就学会翻译相关推荐

  1. 为什么学习C语言这么久,看的懂代码,做不出题,写不出来项目?

    前言 我看得懂别人的程序,可是我自己却写不出来,我应该怎么办啊? 你了解这些嘛? 你只是能从别人书写的代码知道每一步都做些什么吧? 你明白别人的解题思路吗? 你知道别人为什么要用那样的算法吗? 如果你 ...

  2. LBM模拟方法学习篇2:安装VSCode看代码

    为了方便学习LBM代码,下一个VSCode~ 参考了网上的教程,看着很简单,Micrisoft自家的软件,Windows系统里装起来全无压力 1.官网下载安装包 Download Visual Stu ...

  3. 最近学习C语言开发,为音视频打基础

    本人安卓开发,最近在学习音视频开发,在学习音视频之前,需要一些c c++的基础,所以就开始学习C了,有没有一起学习的,可以一起来研究一下指针. 有个社区一起学习,岂不是跟快乐? 第一堂课学习了C的运行 ...

  4. 新手学习c语言的方法,学习C语言方法“新手必看”

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 1.多看代码 在有一定基础以后一定要多看别人的代码. 注意代码中的算法和数据结构. 毕竟学C之后的关口就是算法和数据结构.提到数据结构,指针是其中重要的一 ...

  5. 学c语言方法,学习C语言方法“新手必看”

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 1.多看代码 在有一定基础以后一定要多看别人的代码. 注意代码中的算法和数据结构. 毕竟学C之后的关口就是算法和数据结构.提到数据结构,指针是其中重要的一 ...

  6. 用最酷的方法学习R语言

    1. 看大神怎么说 前几天去新疆培训,制作了R语言的基础教程,在翻阅资料时,看到了知乎张敬信关于R学习的观点,很是赞同. 张敬信老师写了一本书<R语言编程–基于tidyverse>,网址: ...

  7. 漫谈C语言及如何学习C语言(转)

    云风最近写了一篇博客<C语言的前世今生>.作为长期使用C语言开发网络游戏服务器的程序员,云风是有理由写这样一篇文字,不过还是感觉谈的不够深入,C语言在业界使用的现状没有怎么描写,有些意犹未 ...

  8. 初学者怎么高效率学习c语言?

    想学C语言我们首先的了解C语言是什么?它是一门面向过程的.抽象化的通用程序设计语言,广泛应用于底层开发.C语言能以简易的方式编译以及处理低级存储器.C语言是仅产生少量的机器语言以及不需要任何运行环境支 ...

  9. 漫谈C语言及如何学习C语言

    漫谈C语言及如何学习C语言 云风最近写了一篇博客<C语言的前世今生>.作为长期使用C语言开发网络游戏服务器的程序员,云风是有理由写这样一篇文字,不过还是感觉谈的不够深入,C语言在业界使用的 ...

最新文章

  1. 201602021344_《Javascript柯里化uncurrying()(将内置方法独立成为一个通用方法)》
  2. 垂直梯形校正画质损失多少_投影仪梯形校正会影响画质吗?投影仪梯形校正调不正怎么办?...
  3. NgRx 里 first 和 take(1) 操作符的区别
  4. oracle导入视图报错,exp/imp 报错处理(EXP-00003 / IMP-00019 / IMP-00058)
  5. c语言遍历文件内容_C/C++编程笔记:C语言开发电脑益智游戏【扫雷】(源代码分享)...
  6. c++读取文件夹下特定文件
  7. 培训前5分钟时间写的抽查考试的程序
  8. 10、斐波那契数列,跳台阶问题(Python)
  9. Java后台调用第三方支付接口(易宝支付)
  10. c语言求正弦余弦正切,公式( 正弦 余弦 正切 余切 正割 余割 )
  11. WhatsApp营销工具有哪些?
  12. InputDispatcher: Untrusted touch due to occlusion by
  13. 麻将 java_java麻将游戏算法
  14. Wireshark 用户使用手册 ———— 配置与属性
  15. 深入理解机器学习——类别不平衡学习(Imbalanced Learning):常用技术概览
  16. 计算机中的一些基本概念(速度,比特,门,电路图)
  17. upupoo视频使用Java代码下载
  18. 2023年节假日JSON
  19. Cadence Virtuoso 原理图仿真报错问题解决
  20. 数字图像处理学习笔记(十五)——图像复原与重建

热门文章

  1. 我在车间写代码:我的代码能省1个亿
  2. 关系数据库范式(1)
  3. web前端,我的新开始
  4. 在线代码格式化,在线JSON校验格式化
  5. 计算机的编译原理pdf,计算机编程基础--编译原理.pdf
  6. 宜春学院计算机专业好就业吗,宜春学院毕业生良好就业前景的背后
  7. 2021年3月9日 北京快手Java开发–用户增长方向 实习面经(一面)
  8. pandas dataframe调整列的位置
  9. RandomUnderSampler 中的fit_resample 是 imblearn.base.py中调用output = self._fit_resample(X, y)
  10. np.logic_and/or/not用法