为了让失语者开口「说话」,神经科学家设计了一种可以将大脑信号转换为语音句子的设备。这项研究发表在4月24日的Nature期刊上。

许多失去说话能力的人需要利用某种技术进行交流,这项技术要求他们做出微小的动作来控制屏幕上的光标,进而选择单词或字母。最著名的例子就是霍金,他使用的是一种利用脸颊肌肉激活的发声装置。但是由于使用者必须逐个字母打出自己要说的话,这种装置通常速度很慢,每分钟最多生成十个单词,而正常说话者每分钟平均要说 150 个词,而这主要归功于人类的声道。

近日,来自加州大学旧金山分校的研究者发表了一项研究,他们设计了一种将大脑信号转换为语音的设备,其原理为:将大脑活动映射到声道发音运动进而转换为声音。圣地亚哥州立大学神经科学家 Stephanie Riès 表示,用这种方法创建出的语音比直接将大脑活动映射为声音更加易于理解。

音频中包含两个句子示例,每个句子第一遍由参与者朗读,第二遍是利用该技术通过参与者的大脑信号合成出的语音。从音频中可以听出,这项技术已经可以合成完整的句子。但目前来看,该技术还不够准确,无法完全脱离实验室环境。

埃默里大学神经工程研究者 Chethan Pandarinath 表示,在此之前,科学家仅能利用 AI 将大脑信号转换为单词,而且这些单词通常仅包含一个音节。「从单音节词到句子的飞跃技术难度非常大,这也是这项技术令人印象深刻的原因所在。」

将大脑活动映射到发音运动

研究者将类似的电极植入参与者的头骨以记录他们的大脑信号。图源:UCSF。

研究者将电极植入五名参与者的大脑表面,作为癫痫疗法的一部分。首先,该团队在参与者大声朗读数百个句子时记录他们的大脑活动,然后将这些记录与之前测定发声时舌头、嘴唇、下巴和喉部运动的实验数据结合起来。

该团队基于这些数据训练了一种深度学习算法,然后将该程序集成到解码器中。该设备将大脑信号转换为对声道发音运动的估计,然后将这些运动转换为合成语音。Chang 表示,听了 101 个合成句子的听众平均能够理解其中 70% 的单词。

在另一项实验中,研究者请一名参与者大声朗读句子,然后再只张嘴不出声地默读同样的句子。Chang 表示,在只动嘴不出声的情况下合成的句子质量比基于有声语音创建的句子质量要低,但结果仍然令人振奋。

解码器设计

这一新型解码器共分为两个阶段,如图 1 所示。

第一阶段(见图 1a–b):将大脑信号转换为声道发音运动。使用双向 LSTM 循环神经网络将连续的神经活动解码为声道发音运动特征。

第二阶段(见图 1c-d):将声道发音运动转换为合成语音。使用双向 LSTM 将第一阶段获得的声道发音运动特征解码为声学特征(图 1c),然后将声学特征合成为语音。

解码器的一个关键组成是中间发声表示(见下图 b)。这一步非常重要,因为 vSMC 在语音合成期间表现出稳健的神经激活,语音合成期间主要编码发音运动。由于连续语音的发音追踪在该研究的临床环境中并不可行,因此研究者利用一种统计方法根据声音记录来估计声道运动轨迹(嘴唇、舌头和下巴的运动)以及其他生理特征(如发声方式)。这些特征初始化了语音编码器-解码器中的瓶颈层,训练该编码器-解码器的目的是重建参与者的言语声学。然后用编码器来推断用于训练神经解码器的中间发声表示。利用这种解码策略,可以准确地重建语音频谱。

图 1:从神经信号中合成语音。

语音合成性能

该研究作者、加州大学旧金山分校神经外科医生 Edward Chang 表示,使用该方法后,听了 101 个合成句子的听众平均能够理解其中 70% 的单词。

具体性能见下图,其中 b 展示了每个句子的平均词错率(WER)分布情况。

图 2:合成语音的被理解程度,及其针对特定特征时的性能。

下表展示了听众在一定词错率范围内的转录文本:

为了验证解码器是否依赖参与者的语音,研究者进行了一项对比实验:研究者请一名参与者大声朗读句子,然后再只张嘴不出声地读同样的句子。结果表明,后者的合成语音频谱与前者具备相似的频谱曲线。

图 3:只动嘴不发声的情况下,该方法的语音合成结果。

方法局限

华盛顿大学神经工程研究者 Amy Orsborn 认为,目前尚不清楚这一新型语音解码器是否能够处理人们脑海中的词汇。「这篇论文很好地证明了该方法适用于动嘴不出声的情况,但是当一个人没有动嘴时,它能否理解其想说的话呢?」

美国西北大学神经学家 Marc Slutzky 同意这种观点,并认为该解码器的性能仍有改进空间。他指出,听众现在是通过从一组词中进行选择来识别合成语音,随着词数量的增加,人们在选择准确词汇上会更加困难。

这项研究「是非常重要的一步,但距离轻松理解合成语音还有很长的路要走。」Slutzky 表示。

论文:Speech synthesis from neural decoding of spoken sentences

论文链接:https://www.nature.com/articles/s41586-019-1119-1

摘要:将神经活动转换成语音的技术对于因神经系统损伤而无法正常交流的人来说是革命性的。从神经活动中解码语音难度很大,因为说话者需要对声道发声部位进行非常精准、快速的多维度控制。本研究设计了一个神经解码器,显式地利用人类大脑皮层活动中编码的运动表示和声音表示来合成语音。首先用循环神经网络直接将记录的大脑皮层活动解码为发音运动的表示,然后将这些表示转换为语音。在封闭的词汇测试中,听众可以识别和转录出利用大脑皮层活动合成的语音。中间的发音动态即使在数据有限的情况下也能帮助提升性能。解码后的发音运动表示可被「说话人」极大地保存,使得解码器的组件可在不同参与者之间迁移。此外,该解码器可以在参与者默念句子时合成语音。这些发现提升了使用神经假体技术恢复交流能力的临床可行性。

原文链接:https://www.nature.com/articles/d41586-019-01328-x

致转行AI的在校大学生的一封信

转行AI需要看的一些文章

转行学AI,具体细分方向如何选,来自一线工程师的感悟

用法律武器,痛击腾讯侵权行为!!!湾区人工智能可以改善知识产权现状吗?

【送书PDF】Python编程从入门到实践

Python从入门到精通,深度学习与机器学习资料大礼包!

【免费】某机构最新3980元机器学习/大数据课程高速下载,限量200份

觉得不错, 请随意转发,麻烦点个在看!

【Nature重磅】大脑意念可以控制机器说话了相关推荐

  1. 【重磅】世界首例无创脑机接口,无大脑电极植入操控机器臂与飞行器

    美国明尼苏达大学的研究者日前取得一项重大突破,让普通人在没有植入大脑电极的情况下,只凭借"意念",在复杂的三维空间内实现物体控制,包括操纵机器臂抓取.放置物体和控制飞行器飞行.该研 ...

  2. Nature重磅综述 |关于RNA-seq,你想知道的都在这

    编译 |生信宝典,May 校对 |生信宝典 ▼生信学习的正确姿势(第三版) NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 ...

  3. 科学家实现了通过意念同时控制两个假肢完成食物的切割和喂食

    点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 Buz Chmielewski(坐着),他的手臂和手部运动极少,他使用脑植入物来控制两条机器人假肢. 图片提供:约翰霍普 ...

  4. 神经网络支持大脑是「预测机器」,预测是节能的

    来源:ScienceAI 编译:绿萝 我们的大脑,一个包裹在骨性头骨内的三磅重的组织,如何从感觉中产生知觉是一个长期存在的谜.大量证据和数十年的持续研究表明,大脑不能像拼拼图一样,简单地组合感官信息来 ...

  5. 马云:用 10% 大脑创造出来的机器不可能毁灭人类

    点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 今天,能够将中国互联网的半壁江山聚集到一起的世界互联网大会第四届在乌镇开幕,相信大家的朋友圈 ...

  6. 给老鼠大脑注入光纤能控制老鼠酗酒了?!|技术前沿洞察

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 大家好,又到一周一次的技术前沿时间啦!这周可以说美国的高校. 企业乃至科研机构,都是成果不断啊!用小探的话说,没有最突破,只有更突破-- 在肋骨 ...

  7. 大脑理论与智能机器探索者——专访Jeff Hawkins

    记者:卢鸫翔(ludx@csdn.net) 本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员> "虽然没人确切知道恐龙是怎么灭绝的,与 ...

  8. Nature重磅综述|关于RNA-seq,你想知道的都在这(续)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  9. 【75位联合作者Nature重磅】AI药神:机器学习模型有望提前五年预测白血病!

    [新智元导读]来自全球多家科研机构的75位科学家在<自然>发表了一项重磅研究:使用血液检测和机器学习技术,可以预测健康个体是否有患急性骨髓性白血病(AML)的风险.这项研究意味着我们可以提 ...

最新文章

  1. php正则表达式实例详解,正则表达式实例解析
  2. python自学月收入20k_懂Python的资深测开月薪已经20K起啦!我要追上大佬的脚步!...
  3. 初学Java6:Java OOP基础语法总结
  4. 前1%的产品经理和前10%产品经理的区别
  5. (27)StyleLint—CSS代码格式校验
  6. python AES加密解密
  7. 其他电子计算机配套产品及耗,F-商品和服务税收分类编码-.xls
  8. SharpHsql -- 只适合用于演示数据的数据库引擎
  9. 理解纯CSS画三角形
  10. 男人要明白的22件事
  11. python代码写好了怎么运行-python的代码写在哪里,怎么样运行python代码
  12. python记录_day33 线程
  13. 匹配路径_深入浅出Spring 5,探索 WebFlux URL匹配
  14. 图:试图播放的文件扩展名与文件格式不匹配。播放该文件可能会导致意外行为...的解决办法
  15. 麦咖啡将投资25亿在中国内地布局超过4000家;星巴克中国咖啡创新产业园正式动工 | 美通企业日报...
  16. Jensen不等式讲解与证明
  17. java gc什么意思_对Java GC的简单理解
  18. 中国裁判文书网(2020最新版)
  19. 服务器的mib文件,snmp 服务器增加 mib
  20. 小米10如何安装google play商店

热门文章

  1. linux中main数据手册,linux中main()函数中参数来源.doc
  2. 华为开源自研AI框架昇思MindSpore模型体验:ModelZoo中的CRNN
  3. 阿里云 rm-rf 怎么办
  4. 消息聊天系统MySQL表设计_聊天系统-数据库设计
  5. ubuntu虚拟机环境搭建
  6. BI与报表的前世今生
  7. 计算机毕业设计Java动物园动物饲养管理(源码+系统+mysql数据库+lW文档)
  8. Make 是甚麼以及它的用法
  9. 求比正整数N大的最小正整数M,且M与N的二进制表示中有相同数目的1
  10. 卖饭考公当老板,第一批 90 后程序员的转行之路