Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。

大脑活动能够解码成语音了。

说话似乎是一项毫不费力的活动,但它其实是人类最复杂的动作之一。说话需要精确、动态地协调声道发音器官结构中的肌肉——嘴唇、舌头、喉部和下颌。当由于中风、肌萎缩侧索硬化症或其他神经系统疾病而导致言语中断时,丧失说话能力可能是毁灭性的。

来自加州大学旧金山分校的科学家创造了更接近能够恢复说话功能的脑机接口(brain–computer interface, BCI)。

脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,这项技术目前能够使瘫痪的人每分钟最多能打出8个单词,而加州大学旧金山分享的研究人员开发了一种方法,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平!

这项研究发表在最新一期《自然》杂志上,作者为Anumanchipalli以及华裔科学家Edward Chang等人。

每分钟能够生成150单词,接近正常人类水平

加州大学旧金山分校的研究人员与5名志愿者合作,志愿者们接受了一项被称为“颅内监测”的实验,其中电极被用于监测大脑活动,作为癫痫治疗的一部分。

许多癫痫患者的药物治疗效果并不好,他们选择接受脑部手术。在术前,医生必须首先找到病人大脑中癫痫发作的“热点”,这一过程是通过放置在大脑内部或表面的电极来完成的,并监测明显的电信号高峰。

精确定位“热点”的位置可能需要数周时间。在此期间,患者通过植入大脑区域或其附近的电极来度日,这些区域涉及运动和听觉信号。这些患者一般会同意利用这些植入物进行额外的实验。

ECoG电极阵列由记录大脑活动的颅内电极组成

此次招募的五名志愿者同意测试虚拟语音发生器。每个患者都植入了一两个电极阵列:图章大小的、包含几百个微电极的小垫,放置在大脑表面。

实验要求参与者背诵几百个句子,电极会记录运动皮层中神经元的放电模式。研究人员将这些模式与患者在自然说话时嘴唇,舌头,喉部和下颌的微小运动联系起来。然后将这些动作翻译成口语化的句子。

参与的志愿者大脑中的电极阵列位置

实验要求母语为英语的人听这些句子,以测试虚拟语音的流畅性。研究发现,大约70%的虚拟系统生成的内容是可理解的。

最终,这套新系统每分钟能够生成150单词,接近自然讲话的语速水平。而以前基于植入物的通信系统每分钟可以生成大约8个单词。

技术细节:两阶段解码方法

在这项工作中,研究人员使用了一种叫做高密度皮层脑电图的技术来跟踪志愿者说话时大脑中控制言语和发音器官运动的区域的活动,志愿者们被要求说了几百句话。

为了重建话语,Anumanchipalli等人不是将大脑信号直接转换为音频信号,而是使用一种两级解码的方法。他们首先将神经信号转换为声道发音器官运动的表示,然后将解码的运动转换为口语句子,如图1所示。两次转换都使用了递归神经网络——一种人工神经网络,在处理和转换具有复杂时间结构的数据时特别有效。

图1:语音合成的脑机接口

在上图A中,以前的语音合成研究采用的方法是使用脑电图(ECoG)设备监测大脑语音相关区域的神经信号,并尝试将这些信号直接解码合成语音,使用一种称为递归神经网络(RNN)的人工神经网络;

上图B中,Anumanchipalli等人开发了一种不同的方法,RNN被用于两阶段解码。其中一个解码步骤是将神经信号转换成声道发声器官(红色)的预估运动,涉及到语音生成的解剖结构(嘴唇、舌头、喉部和下颌)。为了在第一个解码步骤中进行训练,作者需要每个人的声道运动与他们的神经活动关联起来的数据。

因为无法直接测量每个人的声道运动,Anumanchipalli等人构建了一个RNN来预估这些运动,其训练数据是之前收集的大量声道运动数据和语音录音。这个RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的动作转换成合成语音。Anumanchipalli和他的同事的两步解码方法产生的口语句子的失真率明显低于直接解码方法获得的句子。

与直接解码声学特征相比,作者采用的两阶段解码方法能明显减小声音失真。如果可以获得跨多种语音条件的海量数据集,那么直接合成可能会接近或优于两阶段解码的方法。

然而,考虑到现实中数据集的匮乏,解码的中间阶段会将声道发音器官正常运动功能的信息带入模型,并限制必须评估的神经网络模型的可能参数。这种方法似乎使神经网络能够实现更高的性能。最终,反映正常运动功能的“仿生”方法可能在复制自然语言典型的快速、高精度通信方面发挥关键作用。

不能说话的个体也能实现语音合成

在脑机接口(BCI)研究中,包括新兴的语音脑机接口领域,开发和采用允许跨研究进行有意义的比较的稳健度量是一项挑战。例如,重构原始语音的错误等度量可能与脑机接口的功能性能(即听者是否能听懂合成的语音)几乎没有对应关系。

为了解决这个问题,Anumanchipalli等人从语音工程领域出发,开发了易于复制的人类听众语音可懂度测量方法。他们在众包市场Amazon Mechanical Turk上招募用户,让志愿者识别合成语音中的单词或句子。与重构错误或以前使用的自动可懂度测量方法不同,这种方法直接测量语音对人类听众的可懂度,而不需要与原始话语进行比较。

Anumanchipalli和他的同事的研究结果为语音合成脑机接口的概念提供了令人信服证据,无论是在音频重建的准确性方面,还是在听者对产生的单词和句子进行分类的能力方面。

然而,在通往临床可行的语音脑机接口的道路上仍有许多挑战。

重构语音的可理解性仍远低于自然语音,脑机接口能否通过收集更大的数据集并继续开发底层的计算方法来进一步改进还有待观察。使用记录局部脑活动的神经接口可能比使用皮层脑电图记录的更为有效。例如,在脑机接口研究的其他领域,皮质内微电极阵列通常比皮质脑电图具有更高的性能。

目前所有语音解码方法的另一个限制是需要使用语音来训练解码器。因此,基于这些方法的脑机接口不能直接应用于无法说话的人。但是Anumanchipalli和他的同事们发现,当志愿者在不发声的情况下模仿语音时,语音合成仍然是可行的,尽管语音解码的准确率要低得多。无法产生语音相关动作的个体是否能够使用语音合成脑机接口是未来研究的一个问题。

基于神经解码的无声模仿语音合成

值得注意的是,在首次对脑机接口进行概念验证研究以控制健康动物的手臂和手的运动之后,人们对这种脑机接口在瘫痪患者身上的适用性提出了类似的问题。随后的临床试验令人信服地证明,使用脑机接口,人类可以快速交流、控制机械臂、恢复瘫痪肢体的感觉和运动等。

最后,这些令人信服的概念验证证明了不能说话的个体也能实现语音合成,结合脑机接口在上肢瘫痪患者中的快速进展,研究人员认为应该大力考虑涉及言语障碍患者的临床研究。随着持续的进步,希望更多有语言障碍的人能够重新获得自由表达思想的能力,并重新与周围的世界联系起来。

华裔科学家解码,马斯克脑机接口公司也会有新动作

Nature这篇文章的作者之一是加州大学旧金山分校神经外科教授Edward Chang博士。

Edward Chang

Edward Chang博士的研究重点是言语、运动和人类情感的大脑机制,同时他也是加州大学旧金山分校和加州大学伯克利分校的合作单位——神经工程与假肢中心的联合负责人。该中心汇集了工程、神经病学和神经外科方面的专家,以开发最先进的生物医学技术,用以恢复神经系统残疾患者的功能,如瘫痪和言语障碍。

Edward Chang博士表示,这次在Nature上的研究,“我们通过解码大脑活动提升语音的清晰度,模拟的语音比从大脑中提取声音表示的合成语音更准确、更自然。”

人类将大脑与计算机相连的努力越来越多。

Nature重磅:AI直接从大脑中合成脑电波相关推荐

  1. Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

    [导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...

  2. 本周AI热点回顾:机器人写稿同样拥有著作权、大脑中竟存在“分布强化学习”

    01 中国AI写作第一案宣判,机器人写稿同样拥有著作权 一秒出快讯,一分钟内出分析文章,只要有需求,一年写出几十万篇文字作品都不在话下,这就是 AI 写作机器人,目前被广泛应用在一些媒体.金融.分析机 ...

  3. 【Nature重磅】大脑意念可以控制机器说话了

    为了让失语者开口「说话」,神经科学家设计了一种可以将大脑信号转换为语音句子的设备.这项研究发表在4月24日的Nature期刊上. 许多失去说话能力的人需要利用某种技术进行交流,这项技术要求他们做出微小 ...

  4. Nature:揭示大脑中的免疫记忆

    来源:生物谷 摘要:在一项新的研究中,德国研究人员报道身体中的炎症可能影响小鼠大脑中的免疫细胞的"记忆". 在一项新的研究中,德国研究人员报道身体中的炎症可能影响小鼠大脑中的免疫细 ...

  5. 【75位联合作者Nature重磅】AI药神:机器学习模型有望提前五年预测白血病!

    [新智元导读]来自全球多家科研机构的75位科学家在<自然>发表了一项重磅研究:使用血液检测和机器学习技术,可以预测健康个体是否有患急性骨髓性白血病(AML)的风险.这项研究意味着我们可以提 ...

  6. Nature重磅封面:复活死亡大脑!

    [导读]今日,Nature封面重磅发布耶鲁大学最新研究:猪大脑在死亡4小时后成功复活,并维持了至少6小时.该系统名为BrainEx,是一套类似透析机一样的体外人工循环程序,将实验溶液泵入大脑.但是该研 ...

  7. Nature重磅:人鼠混合大脑问世,‘大脑类器官’研究再添新进展

    一句"我思故我在"解释了大脑的重要性.随着全球老龄化的加剧,神经退行性疾病的发病率也随之增加."老年痴呆"."帕金森"等神经退行性疾病更是和 ...

  8. 从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

    来源:ScienceAI 人工智能算法无法以目前的速度保持增长.像深度神经网络这样的算法--它受到大脑的松散启发,多层人工神经元通过称为权重的数值相互连接--每年都在变大.但如今,硬件改进已无法跟上运 ...

  9. Nature:新聘“诺奖级泰斗”研究揭示大脑中执行不同认知功能环路之间的协同作用

    | 中科院神经所官网报道 大脑的一个核心功能是创造和保留外部世界的内在表征并指导行为,记忆(Memory)一词指的就是这种 "保留".传统来说,人们认为记忆包括三个主要过程:编码( ...

  10. Nature综述:大脑中的音乐

    摘要 音乐在人类文化中无处不在,音乐作为情感和愉悦体验的来源,在身体上和情感上打动我们,学习演奏音乐会塑造大脑结构和大脑功能.大脑对音乐的加工(即对旋律.和声和节奏的感知)传统上被认为是一种听觉现象, ...

最新文章

  1. HDU-2102 A计划 dfs
  2. python神奇的小海龟_Python笔记_第一篇_面向过程_第一部分_8.画图工具(小海龟turtle)...
  3. Spark集群,多个版本Python/Python Package管理
  4. svn 合并问题 MERGE of '/svn/web': 200 OK (http://xx.xx.xx.xx)
  5. 今天心情好,一起探讨下《送给大家的200兆SVN代码服务器》怎么管理我们的VS代码?...
  6. mysql数据库对象管理_MySQL管理与优化(15):优化数据库对象
  7. vue中使用echarts
  8. 关于将网易有道词典单词本导出到必应词典生词本的尝试
  9. Java基于POI动态合并单元格
  10. 传奇3便捷架设管理工具-BY来世今生
  11. Android实现QQ空间图片下拉变大效果(雷惊风)
  12. php和ar的关系,vr与ar的区别
  13. 三套方案7日打造骨感美人
  14. 【转载】年终总结 算法数据的思考 结尾彩蛋
  15. mac 开启android 模拟器,Mac下安卓模拟器环境配置
  16. 计蒜客 2018ICPC徐州邀请赛D Persona5(组合计数 + 分块打表)
  17. warning: LF will be replaced by CRLF in bispython/venv/Lib/site-packages/dja
  18. 更改本地计算机用户名,Win10怎么修改本地账号的用户名
  19. Flink(十六)—— Flink parallelism 和 Slot 介绍
  20. 当商业“邂逅”互联网黑科技数据可视化工具

热门文章

  1. aardio - 利用bitLock快速读写图片颜色值
  2. 友善串口工具接收数据随机换行_mfc串口收发数据。编辑框希望每接收一次就换行。怎么实现。我的换行结果不对...
  3. 串口调试助手没有显示
  4. 【2021】IOS证书(.p12)和描述文件(.mobileprovision)申请
  5. 一文深入掌握druid
  6. Cesium 添加边界墙边界线
  7. 计算机如何远程控制对方手机,如何远程控制别人的电脑【图解】
  8. 一学校出150名在校“老板”
  9. 「电创云」:「空间优造」与「绿多多」「绿点」绿色社区
  10. 笔记本计算机回收站在哪里,笔记本电脑如何设置回收站自动清空