北大教授吴玺宏：从发声到语言，具身物理模型让NLP回到小数据时代

作者 | 吴彤

编辑 | 青暮

让机器理解人类的语言是我们长期以来的梦想，经过几十年的发展，语言与智能技术发展到了什么程度？如何评价语言理解的智能水平？离强人工智能还有多远距离？未来的技术发展趋势如何？这些问题迫切值得研究与探讨。

中国计算机学会和中国中文信息学会联合创办了"语言与智能高峰论坛"，每年举行一次，首届论坛于2016年在北京举行，已成功举办五届。

在今年8月28日的线上高峰论坛上，北京大学吴玺宏向大家分享了大规模训练语言模型的个人见解，随后具体阐释了基于发声物理模型的语音发声姿态的自监督学习。

吴玺宏教授的线上分享

吴玺宏教授现为北京大学教授、博士生导师，北京大学信息科学技术学院副院长、智能科学系主任、言语听觉研究中心主任。同时也担任南京脑科学与类脑智能创新中心的主任，研究猴脑介入式言语、猴子在交互过程中脑活动、非介入式的人脑介观的动态图谱以及和人类行为语言的关系。长期以来，吴老师致力于机器听觉计算理论、语音信息处理、自然语言理解以及智能机器人等领域的基础及应用基础研究，先后主持和参与国家级、省部级项目40余项，包括国家973课题、863项目、国家科技重大专项、国家科技支撑计划、国家自然科学基金重大项目及重点项目、国家社会科学基金重大项目等。获国家授权发明专利11项，发表学术论文200余篇。

吴老师是做听觉模型出身，从2005 年起才较晚地进入到NLP 领域。近年来吴老师团队开始深入研究听觉的发声和听觉的耦合关系，如何将其整合实现词汇的发音姿态表达，并研究发音姿态和客体模型的动作控制之间的关系。

本次报告首先对语音识别任务的工作假设进行反思，在此基础上基于听觉的"肌动理论(Motor Theory)"，提出了一种结合发声物理模型的非监督自主学习方法，即具身学习(Embodied Learning)方法。

该方法通过正向物理模型和逆向听觉模型的迭代学习，实现了从任意非标注语音到声门激励信号和发声姿态参数的推断，实现了对语音具有可解释性的描述；
通过在线自适应实现了对新语音的发声姿态推断，解决了模型学习的泛化问题。
基于发声姿态可进一步实现任意语种的音系构建，为小语种和方言的语音识别、个性化语音合成任务提供了一个新的解决思路。

以下是演讲全文，AI科技评论进行了不改变原意的整理，文章已经过吴老师修改及确认。

1 大规模训练生成“梦话”

如何把声音和控制结合起来？大规模预训练模型的效果为什么那么好，背后原因何在？

我们认为，这类模型做的是预测工作，预测是一个主体生存最重要的任务。但它们的预测实现，比如基于已有词汇预测下一个词汇，都是基于词汇的嵌入向量进行的。从语法层面讲，这些嵌入向量是抽象的、多维的，不具有语言中的准确上下文关系。从语用层面将，言语是一种行为，是在特定语境下与他人之间有意识地特定行为。但GPT-3缺失主体、时空、意图、手段、逻辑等。

因此，为了从表面上模拟这种预测，它需要巨量的数据才能够实现。即便能够实现，GPT-3生成文本也是一种梦话，一种建立在大规模训练语言模型中的无意识“遣词造句”。

2跳出符号世界

语言学家索绪尔认为：每一个符号都由能指和所指组成，即符号=能指+所指。能指是语言符号的听觉特性，而对意义的探询是所指。

举个例子：对面的女孩子对我笑（能指），她喜欢我（所指）。即在这种情境下，笑＝喜欢（隐喻），但是换种情境，或许笑＝嘲讽（隐喻）。

所以在符号分析之中，自然语言处理要关注的就是这种能指和所指之间的断裂关系和不稳定的关系。表面来看，我们人的每一项行为没有与之呼应的意义，但深层次来看，我们掌握的其实始终只是能指的部分，真正的所指早就躲到潜意识的复杂结构里去了。

但世界知识是如何表示的呢？语言训练仅用符号来描述的世界是充分的吗？我们要想办法跳出符号世界。

跳出符号世界就出现图像和文本的联合训练问题。在真实世界中，因为有图像的客体空间分布，符号有一定具象化之后，使得空间的分布、结构都会对文本约束，语言训练所要求的数据就不再是庞大的的数据，而是小数据，这样的话也缓解了对文本数据的要求。

如果某天做出来文本和图像联合的某一种GPT ，尽管它是受语境约束的，但它仍然是梦话，因为它没有自己的控制，没有自己的意图。

传统的说法是在人工智能上空有两朵乌云：常识、符号落地。但在这两朵乌云之外，还有一朵更重要的乌云--主体以及主体的情感和意图。那如果跳出符号世界到真实世界中，符号产生的条件是什么？

3符号的产生和条件

我们认为，符号的产生需要三个条件：首先要有社会文化环境，其次是主体和环境的交互，所以要有身体，第三个条件是发声能力。三者联合则构成一个包含语境和心智的具身结构。这要比小数据的语言训练模型巧妙得多。

身体包括生理需要、身体动作和身体情绪等，在它与社会文化环境的双重作用下，生成了感知-运动预测问题，并由符号在我们的感知-运动之间来回对应。在这个具身结构的符号建立之后，吴教授认为这个符号及体系隐含着心智和语境。人工智能上空的第三朵乌云终于被拨开，但最大的障碍在于符号在感知-运动和社会文化环境之间如何搬运。

因此吴教授从第三个条件，也就是发声能力，寻找“搬运”的接口。吴教授认为，人之所以区别于其他的动物，关键是人的发声能力。人类学研究已经表明，人具有独特的咽腔结构，能够产生无数种发音变化，因此语音就能对符号编码，它支撑的编码空间是足够的，也就产生了第一符号系统--语音。而我们说的文字符号，则是第二符号系统。

文字符号处理和做语音信号处理的差别在哪？

一个差别是语音信号如果变成文字符号，过程中会丢失很多信息。除了词汇分割以外，还有代表情绪的很多韵律信息。比如在线上聊天时，我们总会以表情包弥补丢失的情绪。从最初的颜文字到jpg到GIF，人们借助表情包传递对话情绪，填补“不在场” 的缝隙。

第二个是认知神经科学的研究表明，我们在语音交流过程中，我说的话和你听懂的话，听者并没有逐词处理，而是“挑”着来。比如早上妈妈冲进房间大吼十分钟，你只听到一句“要发霉了”，便会自动明白今天阳光很好，妈妈嫌弃起床晚。而在符号处理中，每一个符号都必须处理，如果不处理的话，它会影响对整个句子的理解。

在语音识别领域，近年来它已经发展得十分优秀。相对于自然语言处理来说，语音识别的识别率和抗噪音性能很高。但在语义识别领域，还存在大量繁琐的数据标注和计算资源工作。

但种种迹象表明，语音识别系统出现了天棚现象，它并没有达到100% 完美，尽管还能往里加数据，语音识别的性能却不增加了。第二个短板是无法识别非标准化的数据，也就是语音的变异，比如方言、小语种，如果大家沿用数据标注的方法，无异于降维为“AI民工”。

语音识别研究隐含的工作假设

首先，语音识别研究默认为它要识别的语言必须具有文字符号，即第二符号系统必须具备；其次，需要语音学家提供注音标注的音系系统；最后还需要语音学家提供词典。

多年来，语音识别之所以所向披靡，其实就是借用了语音学家和语言学家大量的资源，以及语言的第二符号系统。但实际上我们面对的是什么？

语音随着讲话方式的变化而变化，多变是语音的本质；很多语种和方言没有文字系统，也没有构建音系系统。

这样的话，我们面临的挑战问题是如何实现新方言、新语种的音系的自动构建，以及如何实现对语音的精细的自动的标注。

4新方法：具有认知启发的表示学习和范畴学习

在研究过程中，我们找到一个新方法，基于具有认知启发的表示学习和范畴学习，实现语音或语种的自动标注和音系构建。首先这涉及到语音的产生和听觉过程。

语音的产生是气流经过喉、咽、腔，经过舌和口腔的调制，再通过口唇动作调节产出语音。语音再传输到耳朵，对声音信号进行频谱分析和加工。

但语音具有多变性，例如同一个人的zero发音在平稳、愤怒、温柔、叫喊的情绪下，语音的语谱变化非常激烈；不同人的发音，比如孩子、男人、女人也有很大的变化。

传统的语音识别应对方法是人工打标签，不管语谱如何变化，总能映射到一个标签，形成一个范畴。但也因此出现一个推广性问题。语音语谱是多变的，不同人、不同的情绪下都有变化，打标签的方法不可能覆盖所有变化。从AI的演化来看。这是一种非智能的方法。

另外还有一个可解释问题。从语音频谱的角度看，人工标记过于粗略，不能描述语音音节的精细变化。那还有什么精准描述语音变化又节省人力的方法吗？

我们提出从发音姿态的表示对语音进行编码的方法。回归到语音的产生，气流推动声带振动，经由口腔调制使得语音有不同的共振特性，如果这个时候对语音以及口腔形状进行编码，即口腔的发音姿态等，是不是能够捕捉一对映射。

那我们能不能从发声姿态的角度进行范畴化呢？

其实国际音标表就是一个基于发声部位和发声方法的发音表述。

在国际音标表中，它涵盖双唇、唇齿、齿间、舌尖前等12个发声部位，塞音、塞擦音、鼻音等10中发音方法。在发音描述上，国际音标表早在1887年就被制定，按照发音姿态刻画全世界各种语言。

不仅如此，言语知觉理论（Motor Theoty）讲到，我们感知言语，实际上是感知讲话者的目标发声动作。比如在一些噪声情况下，你没听清楚对方说的话，但可以通过自己嘴上模仿“听懂”对方说的话。

另外婴儿也是先掌握发声的动作模式才学会词汇。刚生下来的小婴儿就会哭喊，其中有一个功能就是练习口腔发音。通过自己的发声动作调整音量大小、口腔形状，并产生声音变化，这个过程实际上是婴儿在训练自己发声与听的功能。有这个基础之后，才去学后续的词汇。

姿态表示和范畴学习的方法框架

肌动理论和国际音标表证明，我们可以通过发音姿态位置感知对方的言语，甚至是任何发音都可以通过我的口腔姿态作逼近模拟。那么，动态的语音信号也可以自适应地用口腔姿态来描述。另外它具有可解释性，能够刻画声音在每一时刻的精细变化，推演从语音到口腔、再从口腔到语音的因果过程。

语音信号用发音姿态描述出来之后，我们可以进一步地通过相似性、区分性、词位，对不同的发音姿态建立音位范畴，最终形成音位的符号串，就可以不使用语言学家提供的音位系统。

那么，如何实现自监督学习？是否可以引入物理发声模型？

5基于发声物理模型的语音发声姿态自监督学习

语音反演：从语音到发声姿态

从语音信号倒推发音姿态，实际上这个想法有几十年了，姿态获得是最有难度的问题。传统的方法是在实验员的舌上贴不同的磁电传感器，通过传感器获得他在说话过程中的姿态：舌动-口腔联动-生成对应的语音信号-记录对应的语音信号随着时间的变化轨迹，因此获得一对映射数据。

是否拿到数据后就可以通过语音反演出发音姿态？

这是一个自然的想法。但实际上，这种方法获取的数据代价太大，一是人力低效，二是数据不具备迁移性，如果换另一个人讲话，发音姿态也会随之有微小的改变。

那么回归到说和听的过程，语言和生理的闭环式如何表现的？在1983年的曹剑芬和任宏谟的《言语链：说和听的科学》书中，早已详细描述听觉系统和发声系统的闭合链：说话人大脑中产生想说话的信号，由肌肉控制生成句子。声音信号一方面通过感觉神经传递到自己的反馈链环节，另一方面通过言语声波传递给听话人，从而构成一个从语言学平面-生理学平面-声学平面-生理学平面-语言学平面的闭环链。

具身认知：将语音的听觉表示转换成发声的肌肉控制，发声器官的姿态成为语音的具有物理意义的表示。

具身学习：协同物理的发声过程与听觉的逆过程，实现物理系统约束下的自监督的学习。

在实验中，我们通过模仿这个发声闭环，对发音过程建立了一个物理模型。通过气流、压力、声带的弹性系数等控制声音输入信号、通过舌位、唇位等控制物理模型的声音输出信号。即能否把物理模型和感知过程结合起来，实现闭环的自监督学习。

声门-声道发声滤波器TRM模型

在实验中，我们建立了一个TRM模型，这是一个声门激励信号，通过声带进入咽腔、软颚、鼻腔、口腔这种耦合的调制产出语音信号。

这是一个典型的物理模型，气流进入-调制压力-发出不同的语音信号，其中通过固定参数和动态参数调制不同的声音信号，比如固定参数来刻画声道长度，鼻腔长度，软颚和声带的弹性系数等，动态参数刻画舌头位置的变化、气流强度等。

拿到语音信号后通过一个相同的反模型输出，对比正模型和发模型的参数差异，并按照梯度下降继续迭代学习，得到准确的系数。

不同于传统的强化学习

这个物理模型和传统的强化学习不一样，传统的强化学习需要确定评价函数，每次迭代都需要评价，但在语音信号的评价中，两个语音信号距离小并不意味着相似、距离大不意味着不相似，这是强化学习的缺陷。

而我们的自监督物理模型无需评价函数，利用发声姿态的差异作为梯度；网络输入是物理模型生成的语音，输入和监督信息受物理约束，是一种监督学习。另外网络输入语音信号的生成信号永远受物理约束。神经网络的反模型，实际上对 TRM 物理的正模型的一个逆过程。

原始的语音信号经过模型迭代，就可以得到发音姿态每时每刻的变化。这个物理模型的不仅能发出声音，还能准确提取声带肌频信号。

在获得发音姿态后，我们希望它是从一个生物学信号的姿态到物理的口腔形状姿态的变换，并依据发音姿态自动建立一个音位范畴，那么就可以进一步发现发音姿态的特征点，建立发音姿态和语音信号的映射范畴。

建立一个固定目标标记，随后建立一个动态的动力学目标模型，估计发音姿态中哪些是行动发音过程，比对最终的发音目标是什么。估计出来之后，通过一个决策树的聚类方法，对应汉语音系。如果汉语音系和这个语音训练得出的音系基本上对应，说明我们提取的姿态和音位是可行的。下一步可以在这基础之上做词汇，从自然语言中自动发现的词汇。

6结语

基于具身认知和肌动理论，吴老师提出了一种具身的自监督学习框架。它通过发声的物理模型和深度神经网络模型之间构建了一个闭环的协动学习模型，实现了具有强推广性和精细描述能力的语音发声姿态的估计。同时，范畴学习构建了汉语的音位范畴体系，符合人类“先口语，后书面语”的言语获得机理。

未来，基于物理模型或实际物理过程的具身学习方法，还能建构任意方言、语种的发音姿态和音系体系，并且辅助语音学家以及语言教学工作，推动方言、小语种的语音识别和语音合成的研究。不仅如此，还能推广到视觉运动、听觉运动等机器感知工作。而且，通过发音声带的弹簧紧张度捕捉一个人说话时的情绪变化，语音测谎也将不是难题。