来源:图灵人工智能

作者:Glaciohound

编辑:陈彩娴

能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因。那么,人工智能是否也能如此?最近,来自字节跳动和UIUC的研究人员借鉴这一思路,设计了一个跨模态的翻译模型——Chimera(奇美拉)。它不仅在一项标杆性语音翻译任务中获得高分,其可视化结果也证实了这一机制能更好地理解人类语言。

论文:Learning Shared Semantic Space for Speech-to-Text Translation / 在语音翻译任务中学习共享的语义空间 (ACL Findings 2021)

Arxiv链接: https://arxiv.org/abs/2105.03095

Codes: https://github.com/Glaciohound/Chimera-ST

1

研究背景:人脑对语音和文本的统一理解

你在看书打字的时候,是不是也喜欢来点音乐?那你可曾思考过,文字工作时最适合的 BGM 是什么?科学家们会告诉你,是不带词的纯音乐[1]。你肯定也常常有这种感觉:你欣赏着优美的歌词和富有磁性的嗓音,结果半天一个字也看不进去。

先别急着埋怨自己,这其实是你大脑的锅。科学家们早就意识到,语音和文字信号进入大脑后,会共享一部分处理路径,所以听歌词很容易干扰你的阅读。而相关的探索,可以追溯到一百多年前一个年轻人的意外发现。

韦尼克-格施温德语言模型

图1:卡尔·韦尼克,图源:维基百科

1874年,卡尔·韦尼克(Carl Wernicke)正在著名神经病理学家西奥多·梅内特(Theodor Meynert)手下学习。他记录下两位奇特的病人。他们好像患有某种语言表达障碍,但症状和典型的表达性失语症截然不同:他们说话写字其实都很流畅,但净是些胡言乱语。比如一位病人这样表达他的病况[2]:

"What's wrong with me was because I ... was myself until the taenz took something about the time between me and my regular time in that time and they took the time in that time here and that's when the the time took around here and saw me  ..."

……不能说是胡说八道,只能说是毫无意义。韦尼克最终试着将这种症状(现称感觉性失语症)归因于颞叶后部和顶部(现称韦尼克区 Wernicke's Area)的脑损伤。它破坏了病人的语言理解能力,所以患者常常说着写着就忘了:“我要说啥来着?”

受此启发,韦尼克提出了早期的神经学语言理论 Wernicke-Geschwind 模型(图2)。他猜测,语音和文本在大脑中先被分开识别,然后在韦尼克区完成统一的理解。感觉性失语症就是因为病人韦尼克区的理解出了毛病,而表达功能却完好无损。

图2:经典的 Wernicke-Geschwind 语言模型,图源:维基百科

这个模型现在早已过时,但它从此激励着后世研究者去探索大脑中语音和文本的关系。

来自认知神经学的证据

自从神经影像学兴起,科学家们能更加细致地观察大脑活动。近几十年的众多研究都佐证了大脑中语音-文本“汇合区”的存在,这些区域同时负责着对语音和文本的理解。

如2013年,Christopher J. Honey 等人邀请38名志愿者听或看一个小故事《酪饼侠》[3]。MRI结果精确地指出,在颞上回(韦尼克区附近)和楔前叶的一些区域对语音和文本都有响应(图3B)。更令人惊异的是,语音和文本引起响应的时间模式也非常相似(图3A),这和古老的猜想不谋而合。

图3:语音和文本信号在大脑中的时空相关性 [2]

另一些研究通过对比不同人的阅读测验分数和汇合区的面积,又证明了这二者呈正相关[4]。在2018年,Wilson等人更是发现这些汇合区的确对语言有理解能力:它们可以分辨句子的句法,而对没有意义的内容则不作响应[5]。基于长久以来的研究结果,他们尝试绘制了一幅人脑中语音-文本的处理模式图(图4)。至此,神经学家们对这一谜团的百余年探索终见光亮。

图4:颞上回里的语言-文本处理模式图 [4]

现在的问题是:这样的设计也会适用于人工智能模型吗?

2

试验场:语音翻译

在观看《看不见的客人》(Contratiempo)之类的外语电影时,你最好的帮手是谁?那一定是油管帮你自动翻译的字幕!这一功能就涉及语音翻译技术,把源语言(如电影原声西班牙语)的声音翻译成目标语言(如你的母语)的文本。这种技术也能让你借助手机和外国朋友畅快交流,未来或许还能让你和动物聊天!

语音翻译是自然语言处理的基本任务之一,它同时涉及语音和文本的处理。不过由于前文提到的技术难点,即使是最先进的语音翻译,效果也与文本翻译相差较大。

因此,我们选择语音翻译作为回答上面问题的具象指标。

难点:语音和文本的鸿沟

读过上述神经学的发现,你可能觉得,让人工智能来统一理解文本和语音应该也是小菜一碟。然而,一旦涉及到技术实现,问题就有点棘手了。

首先,对于计算机而言,语音和文本的表达形式大不相同。文本通常只是几十个符号,但语音都是连续的声音波形,长度可以达到百万之巨。即使是说一个词,由谁来说、在什么环境中、何种语境下说,听起来也会大相径庭。

此外,语音与文本的编码方式也不同。文本单词由词根和词缀构成。而语音则包含着一系列的语素,辅以轻重和抑扬顿挫。

图5:声音波形和文本的差异

最后就是数据的问题。文本数据在互联网上遍地都是,但语音收集起来则费钱得多。不信看看,文本和语音的两个翻译数据集的大小差距有多大(图6)。请记住,就当下的人工智能而言,数据就是生命。无数据,不智能。

图6:WMT16 (文本翻译) 和 MuST-C (语音翻译) 的大小差距

对人类来说轻而易举的事情,人工智能来做却可能难上加难。文本和语音的差异之大,在文本处理方面的研究硕果累累时,语音上的表现却落后不少。要想弥合差距,就需要统一理解语音和文本,就像我们的大脑那样。

仿生之路

AI研究人员也并非不喜欢师从自然。事实上,他们研究时就常常从解剖学和神经学中获取灵感来优化模型。卷积神经网络(CNN)就是个生动的例子:它模仿动物视觉系统的结构,而在应用中也表现出很强的视觉识别能力。

图7:CNN和动物视觉系统的相似性(出自博客[6])

而回到语言技术的研究中,情况也是如此,这也使得语言和文本技术发展越走越近。Transformer[7]是文本处理最强大的工具之一,而它是借鉴心理学和神经学中“注意力”的概念搭建而成[8]。

Transformer 表现十分出彩,让语音研究人员羡慕不已,纷纷效仿。仅仅一年后,应用于语音上的 Speech-Transformer 就被提出了[9]。

另一个例子是文本训练技术 Masked Language Model(MLM),即训练AI猜出文本里被码掉的词[10],这个灵感来自我们常见的完形填空。MLM 现在被广泛用于学习理解词汇的语境含义。

再一次,Facebook的语音研究人员很快就意识到了MLM的价值,并针对语音提出了Wav2Vec2[11]。它的目的是学习每个语音段与上下文是什么关系,从而让机器学习这些语音段的含义。这一模型目前已初露头角。

图8:Masked Language Model 图示(出自博客[12])

现在,我们手头有着通用的工具 Transformer,既能处理语音也能处理文本;我们也有Wav2Vec2 来跨过二者表现形式上的差异。把语音和文本的处理统一起来只差临门一脚。

时日已到。

3

Chimera 模型

在这篇论文中,作者设计了一个模型来统一地翻译语音和文本,因其形似古希腊的神话动物 Chimera 而取名。作为基础技术,之前提到的 Transformer 和 Wav2Vec2 技术被用于编码音频和文本,但是要怎样才能将语音和文本的处理统一起来呢?

图9:Chimera 的概略图

Chimera 模型使用了一个简单的思路:它并不是编码了语音或文本的整个序列来用,而只是 “提取” 几条真正重要的信息。Chimera 学习从输入端提取一套包含关键语义信息的“记忆”,而对于其究竟是音频还是文本不做分辨。Chimera 在语音翻译之外还能够学习文本翻译的数据集,这样一来 Chimera 就能有效利用更多的训练数据!

表1:在 MuST-C 数据集上的表现效果

表1是MuST-C数据集上定量实验的结果,它是一个标杆性的语音翻译数据集,有8个翻译语向的数据,而且量级巨大。Chimera 在其所有语向中都表现优异。

图10. 学到的“记忆”在语音和文本输入上的提取流

图11:学到的“记忆”在语义空间中聚集成团

论文接下来展示了模型的可视化效果,结果很有趣。Chimera 模型在训练前并不知道要在“记忆”中提取什么,但它最终学会了使用每一个”记忆元“提取各异的信息。如果把各个的”记忆元“用不同的颜色标记,如图10所示,它们可以在语音和文本中”注意“到大致对应着相同的内容的子段。接下来,图11展示了一个清晰聚类的空间,各个“记忆元”所提取的信息投射在语义空间中不同的子区域。

图12. 在一个“记忆”中,语音和文本被按照句法结构排布起来

图12是对一个特定的“记忆”高维子空间“降维打击”之后的结果,“·”和“+”分别代表语音和文本。用线连起来的每一对语音和文本表达着相同的内容,它们彼此离得很近。作者将图中一些语音-文本对圈起来并标注了内容,发现句子是按照句法结构排布的,很容易就能识别出一些有特征的区域:右侧散布着三个问句,而左上角的几个句子都是将来时。

4

结论

通过模仿人类大脑来统一理解语音和文本,模型在语音翻译上效果拔群。Chimera能提取语音和文本中共有的语义信息,因此能够同时学习语音翻译和文本翻译数据集,提高这种技术在训练和应用中的通用性。

参考文献

1. Avila, Christina, et al. “The Influence of Distracting Familiar Vocal Music on Cognitive Performance of Introverts and Extraverts.” Psychology of Music, vol. 40, no. 1, Jan. 2012, pp. 84–93, doi:10.1177/0305735611422672.

2. https://web.stanford.edu/~zwicky/language-and-the-brain-ch4-8.pdf

3. Regev, Mor, et al. "Selective and invariant neural responses to spoken and written narratives." Journal of Neuroscience 33.40 (2013): 15978-15988.

4. Shankweiler, Donald, et al. "Reading differences and brain: Cortical integration of speech and print in sentence processing varies with reader skill." Developmental neuropsychology 33.6 (2008): 745-775.

5. Wilson, Stephen M., Alexa Bautista, and Angelica McCarron. "Convergence of spoken and written language processing in the superior temporal sulcus." Neuroimage 171 (2018): 62-74.

6. https://becominghuman.ai/from-human-vision-to-computer-vision-convolutional-neural-network-part3-4-24b55ffa7045

7. Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).

8. Lindsay, Grace W. "Attention in psychology, neuroscience, and machine learning." Frontiers in computational neuroscience 14 (2020): 29.

9. Dong, Linhao, Shuang Xu, and Bo Xu. "Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

10. Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

11. Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." arXiv preprint arXiv:2006.11477 (2020).

12. https://www.machinecurve.com/index.php/2021/03/02/easy-masked-language-modeling-with-machine-learning-and-huggingface-transformers/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

20210713未来智能实验室收录资料

特别推荐:置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》,从城市大脑的起源和理论基础;城市大脑的定义和与智慧城市的关系;城市大脑在产业界的发展情况与存在的问题;城市大脑基于全球框架下的标准化研究;新一代城市大脑的1+N模式与建设框架;城市大脑到世界数字神经系统对人类社会的意义等6个方面对城市大脑进行了深入探讨。

1.5W字一文带你看懂 自动驾驶主流芯片及平台架构

2.【CICC原创】李德毅:用脑和认知科学解开博伊德环之谜

3.未来智城:以数字重构城市神经,以智能赋予城市力量与价值

4.Neuron:大脑如何调整适应环境的变化?最新研究揭示目标导向行为的调控作用机制

5.漫谈实时操作系统!

6.蔚来、小鹏、理想自动驾驶能力的纵向演进与横向比较

7.深度学习精炼图笔记总结

8.Hinton,Lecun 和 Bengio 三巨头联手再发万字长文:深度学习的昨天、今天和明天

9.深度学习精炼图笔记总结

10.RISC-V生态未来的三种可能~

11.长航时无人机关键技术研究进展

12.人脑启发AI设计:让神经网络统一翻译语音和文本

13.【开放书】机器意识,236页pdf

14.视觉图灵:从人机对抗看计算机视觉下一步发展

15.中国信通院发布《下一代数据存储技术研究报告(2021年)》(附pdf)

16.雷神公司关于第六代战斗机的六点预测

17.首篇NLP领域图神经网络综述:127页,从图构建到实际应用面面观

18.李德毅院士:用脑和认知科学解开博伊德环之谜

19.2021年,深度学习还有哪些未饱和、有潜力且处于上升期的研究方向?

20.GPU的发展历程、未来趋势及研制实践

21.2021世界人工智能大会AI Debate:图神经网络是否是实现认知智能的关键?

人脑启发AI设计:让神经网络统一翻译语音和文本相关推荐

  1. 脑科学真的可以启发AI吗?

    智源导读:人工智能发展到当前阶段,大家都开始认识到脑科学和人工智能有很密切的关系,脑科学会对人工智能的发展产生很大帮助.反过来思考这个问题,脑科学对人工智能研究真的有帮助吗?离开脑科学之后,人工智能是 ...

  2. 模仿人脑视觉处理,助力神经网络应对对抗性样本

    来源:混沌巡洋舰 自从深度学习只能识别支票和信封上的手写字母以来,它已经取得了长足的进步.今天,深度神经网络已经成为许多计算机视觉应用的关键组成部分,从照片和视频编辑器到医疗软件和自动驾驶汽车. 神经 ...

  3. 短短6小时,AI设计出40000种毒气分子,很多毒性远超战用神经毒剂

    题图 | Willo 提到AI作恶,你会想到什么? 是电影<机械公敌>里的机器人为了达到「不伤害人类」的目的,必须先消灭「彼此伤害」的人类? 还是因为训练数据集本身充满了偏见,导致AI模型 ...

  4. 6小时完成,Jeff Dean领衔AI设计芯片方案登Nature,谷歌第四代TPU已用 芯快递 今天...

    来源:机器之心 编辑:杜伟.陈萍 将芯片的布局规划看作一个深度强化学习问题,谷歌大脑团队希望用 AI 来提升芯片设计效率.基于 AI 的最新设计方案可以在数小时内完成人类设计师耗费数月才能完成的芯片布 ...

  5. 大屏设计的视觉统一_视觉设计中的统一

    大屏设计的视觉统一 视觉设计的统一性是什么? (What is unity in visual design?) The concept of unity in visual design means ...

  6. 游戏 AI 设计之 FSM 有限状态机

    FSM 有限状态机 一.概述 有限状态机(finite-state machine,缩写:FSM)又称有限状态自动机(finite-state automaton,缩写:FSA),简称状态机,是表示有 ...

  7. 阐述游戏AI设计的两个禁忌及解决方法

    此文转自游戏帮,勉励下自己 作者:Jon Shafer 我在过去年几负责了多款游戏的AI设计工作,我从中收获的一个最基本,可能也是最令人沮丧的经验就是:创建一个出色的AI真是出奇地困难.不但制作一个符 ...

  8. matlab图形设计界面 文献翻译,毕业设计基于matlab的数字图像识别的设计与实现文献翻译V8.1(资料4)...

    <[毕业设计]基于matlab的数字图像识别的设计与实现文献翻译.doc>由会员分享,可免费在线阅读全文,更多与<毕业设计基于matlab的数字图像识别的设计与实现文献翻译(V8.1 ...

  9. 作业十: 坦克对战游戏 AI 设计

    坦克对战游戏 AI 设计 从商店下载游戏:"Kawaii" Tank 或 其他坦克模型,构建 AI 对战坦克.具体要求 使用"感知-思考-行为"模型,建模 AI ...

最新文章

  1. Linux查看进程线程个数
  2. 用VS2005打开方案出现“此安装不支持该项目类型”
  3. 自然辩证法的当代价值
  4. 从落后的传统WAN转向SD-WAN—Vecloud
  5. C语言进制转换时自动扩展位?(原码、反码、补码)(打印%o、%x时会自动扩展到32位【负数先得到其十进制真实数值,再根据其真实数值得到八进制、十进制补码】)
  6. VTK:Rendering之Rotations
  7. 电力系统继电保护第二版张保会_电力系统继电保护试题
  8. OSChina 周二乱弹 ——无人超市的出现,未来什么最重要?
  9. 74、shape 画圆 加 边框
  10. linux下查看CPU、内存、磁盘信息
  11. 网站获取ip代码怎么写_大学生写论文必备技能:怎么免费获取外文文献并下载...
  12. js 上传文件到 minio
  13. 不显示BOM清单的版本
  14. 程序人生之七:我的 2010
  15. Ubuntu设置截图快捷键
  16. C#上位机工作感想2(2020.4.15-2021.7.24)
  17. 手机无法获取电脑热点ip地址
  18. 三国志战略版:当锋无法破防的司马盾
  19. 圣剑传说 玛娜传奇(Legend of Mana)(LOM)主原料取得方法
  20. F12变中文,竟如此简单?

热门文章

  1. 生成对抗网络(GAN)的理论与应用完整入门介绍
  2. NLP中关键字提取方法总结和概述
  3. 独家 | 6种让Python程序变慢的坏习惯
  4. 分析460万份数据发现,女警比男警检查汽车几率少2倍,但发现违禁品还多10%
  5. 独家 | 使用TensorFlow 2创建自定义损失函数
  6. 最全中文leetcode解题攻略:思路知识点代码...搞定AI大厂笔试
  7. 北大韦神透露现状:自己课讲得不太好,中期学生退课后就剩下5、6个人...
  8. 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...
  9. ECCV 2020 | 首届GigaVision挑战赛揭榜,双赛道冠军技术干货分享
  10. 全球首个内河无人驾驶数据集来了!西安AI公司推出,姚期智投资