作者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)

2019 年 4 月 24 日,来自加州大学旧金山分校(UCSF)神经外科学系 Gopala K. Anumanchipalli,Josh Chartier,Edward F. Chang 团队在 Nature 杂志上发表了题为 “Speech synthesis from neural decoding of spoken sentences” 的论文,引起了不少人士的关注。

据悉,研究人员设计一种神经解码器,采用循环神经网络(Recurrent Neural Network,RNN)的方式将记录的皮质神经信号,然后编码咬合关节运动的表征,以合成可听语音。

也就是说,严重瘫痪的病患可以使用基于该技术的产品通过大脑皮层活动更有效地向任何人发送文字信息。可以想象,像此前受肌萎缩侧索硬化ALS病症多年折磨的著名物理学家史蒂芬 · 霍金(Stephen Hawking)一定也非常乐意看到深度学习技术能够应用于临床医学上的突破。

随后,谷歌大脑 Jeff Dean 通过 Twitter 转发了这条消息,并赞叹该项研究成果,“非常酷!可以直接从神经活动中快速产生语音。”

实际上,他们在 2018 年 11 月 29 日以名为 “Intelligible speech synthesis from neural decoding of spoken sentences” 的论文就已经得到了公开。只不过,那时还是预印本,还未经过同级评审。

我们先来回顾下最新论文的主要内容。

摘要:将大脑神经活动转换成语音的技术,对于因神经损伤而无法正常沟通的人类来说将具有变革意义。从技术上来讲,从神经活动中解码语音是非常具有挑战性的,因为说话需要对声道的咬合结构进行非常精确和快速的多维控制。通过设计一种神经解码器,明确地利用人类皮层活动中编码的运动和声音表征来合成可听语音。

循环神经网络(RNN)将记录的皮质神经信号直接解码为咬合关节运动的表征,然后将这些表征再转换为语音。在封闭的词汇测试中,听众可以很容易地识别和转录皮层活动从而合成语音。即便数据有限,中间关节运动(Intermediate articulatory dynamics )也能提高性能。

经过解码的语音表征非常保守,使得解码器的一个组件可跨不同受试者进行转换。此外,当受试者静默地模仿句子时,解码器可以合成语音。

以上这些发现提高了使用语音神经假体技术以恢复人类口语交流的临床可行性。

研究过程

许多患者是依靠通信设备来转录头部、眼睛或者直接的大脑皮层活动中的信息,然后再控制光标逐个选择字幕来拼写单词。例如,患者此前使用的语音合成系统基本就是这样的原理。虽然该系统显著提高了患者的生活质量,但多数用户很难在一分钟内传递超过 10 个单词,这一速度远低于自然语言中 150 词 / 分钟的平均速度。一个主要障碍就是如何克服当前基于拼写的方法限制,以实现更高效的沟通效率。

基于拼写的方法最好的替代方式就直接进行语音合成。因为拼写是离散字母的连续串联,而语音是由重叠的、多发声器的声道运动的流体产生的。为此,基于声道运动及其产生的声音模仿方法可能是实现自然语言的唯一高效沟通手段,并且还是可以保证用户学习的最直观手段。例如,患有麻痹症(ALS 或脑干中风)的患者,高保真语音控制信号可仅通过使用大脑 - 计算机接口直接记录完整皮质网络进行访问。

为了证明神经语言假体的可行性,研究人员试图将大脑信号转换成可理解的正常说话人语速的合成语音。研究人员采用了一种叫做高密度脑皮层电图(ECoG)的技术,让 5 名患有癫痫病的患者大声说出几百个句子,直接记录下受试者大脑皮层的神经活动,并跟踪控制语音和发生部位运动的大脑区域活动。

如图所示,研究人员采用的解码器方法可分为两个阶段:第一阶段,双向长期短期记忆(bLSTM)循环神经网络解码来自联系神经活动的关节运动特征;第二阶段,单独的 bLSTM 解码来自第一阶段解码出的关节特征的声音特征,然后从解码的声音特征合成音频信号。

训练解码器有三种数据来源:ECoG 记录、声音以及关节运动。

  • ECoG,从每个电级的原始信号中提取高伽马振幅包络(70-200Hz)和低频分量(1-30Hz)。如果它们位于关键皮质区域,则选择电极:腹侧感觉运动皮层(ventral sensorimotor cortex,vSMC)、颞上回(superiortemporal gyrus,STG)或下额回(inferior frontal gyrus,IFG)。

  • 声音,由于不是典型的频谱图,研究人员使用了 25 个梅尔频率倒频谱系数(MFCC),5 个子带声音强度用于声门激励建模、音调和发声(总共 32 个特征)。这些声学参数是用于感知电管的声音特征,同时最大化音频重建的质量。

  • 关节运动表征,即存在于神经活动和声音之间的解码器的一个关键组成部分。由于无法同步记录神经活动,研究人员采用了一种基于说话人的声音 - 发声(Acoustic-to-Articulatory)转换统计方法,来测出受试者产生的语音信号对应的声道运动轨迹。研究人员还添加了额外的生理特征(如关节运动),并在语音自动解码器中对值进行了优化,进而推断在语音产生期间声道生理的完整中间关节运动表征。

根据这些特征,可以精确地重建语音频谱图。

张复伦本人

值得一提的是,该项研究成果之一的 Edward Chang(中文名:张复伦)还是名华裔神经外科医生,擅长治疗成人癫痫、脑肿瘤等疾病,研究主要集中于语言、运动和情感的大脑机制。

最早在 2017 年,张复伦等人在 Science 杂志发表论文,阐述大脑皮层颞上回神经元在语言中的重要性。

在 2011 年 5 月的美国新闻与世界报导对他的采访中,张复伦就表示:“医学界长期忽视神经修复学,直到最近科技发展迅速才获得重视。相信在未来的 5 到 10 年间,电脑科技对神经性疾病患者,如柏金森氏症和阿兹海默症、癫痫等,将会有更多治疗方式。”

据了解,张复伦来自典型的中国台湾移民家庭。他曾表示:“生命中有很多选择的机会,成为神经外科医师是一连串的机遇,但父母的支持,让他可以全神贯注钻研神经科学,达到今天的成就。”

附上张复伦个人简介:https://profiles.ucsf.edu/edward.chang

参考链接:

https://www.biorxiv.org/content/10.1101/481267v1.full

https://www.technologyreview.com/s/613421/scientists-have-found-a-way-to-decode-brain-signals-into-speech/

(本文为 AI科技大本营原创文章,转载请微信联系 1092722531)

长三角开发者联盟

代码就是力量,长三角的开发者联合起来!

加入「长三角开发者联盟」将获得以下权益

长三角地区明星企业内推岗位
CSDN独家技术与行业报告
CSDN线下活动优先参与权
CSDN线上分享活动优先参与权

扫码添加联盟小助手,回复关键词“长三角2”,加入「长三角开发者联盟」。

推荐阅读:

  • 机器学习萌新必备的三种优化算法 | 选型指南

  • A* 算法之父、人工智能先驱Nils Nilsson逝世 | 缅怀

  • Python程序员Debug的利器,和Print说再见 | 技术头条

  • 入门AI第一步,从安装环境Ubuntu+Anaconda开始教!

  • 小程序的侵权“生死局”

  • @996 程序员,ICU 你真的去不起!

  • Elastic Jeff Yoshimura:开源正在开启新一轮的创新 | 人物志

  • 19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?

  • 她说:为啥程序员都特想要机械键盘?这答案我服!

点击阅读原文,了解CTA核心技术及应用峰会」

打开阿兹海默之门:华裔张复伦利用RNN成功解码脑电波,合成语音 | Nature相关推荐

  1. Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

    [导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...

  2. day2:算法之美|打开算法之门与算法复杂性

    14天阅读挑战赛 系列文章目录 趣味算法(第二版)读书笔记: day1: 序章|学习的方法和目标. day2:算法之美|打开算法之门与算法复杂性 day3.算法之美|函数特性与图形 day4.数学之美 ...

  3. 计算机专业英语冯于答案,打开体验之门.doc

    打开体验之门,构建有效课堂--体验式教学在中职计算机应用基础课堂教学中的应用研究 作者:张庆丰????文章来源:本站原创????点击数:528????更新时间:2011-10-11 关键词:体验式教学 ...

  4. 《算法基础:打开算法之门》一1.5 拓展阅读

    本节书摘来自华章出版社<算法基础:打开算法之门>一书中的第1章,第1.5节,作者 [美]托马斯 H 科尔曼(Thomas H Cormen),更多章节内容可以访问云栖社区"华章 ...

  5. 郎鹤焱张鹤伦计算机学院,德云社都是“低学历”?郎鹤焱、阎鹤祥都毕业于北京工业大学...

    德云社都是"低学历"?郎鹤焱.阎鹤祥都毕业于北京工业大学 相信大家对于德云社应该非常的熟悉了,近几年的时候德云社也是人才辈出,作为班主的郭德纲也是捧红了不少青年演员,而就在德云社之 ...

  6. NBA名人堂之-威尔特·张伯伦|乔治·迈肯|比尔·沃顿|戴夫·考恩斯|威利斯·里德

    威尔特·张伯伦 英文名:wilt Chambetlain 出生:1936年8月21日 身高:2.16米 NBA生涯:1959 -1973年 司职:中锋 主要荣誉: ①1967.1969年两次夺得NBA ...

  7. 打开Java之门——一个Java SE小白的学习日志1【极客BOY-米奇】

    文章目录 前言(转载请说明作者:极客BOY) 打开Java之门 Why learn Java? Java's History What's the "Java JDK"? Theo ...

  8. mysql 选择前五项数据_历史五项基础数据之最!都知道得分者是张伯伦,那其他的呢?...

    NBA是世界上最高的篮球赛场,它已经拥有72年的历史了,在这72年里,NBA的球员们不断创造着各种记录,那么在这72年的历史中,得分,篮板,助攻,抢断,盖帽这五项主要数据都是谁排第一名呢? 得分第一: ...

  9. 哈工程计算机学院领导门志国,电气学院“钥匙工程”第二季:赵洪教授为2018级新生打开专业之门...

    以引领电气新生代感受专业魅力.感悟专业精神.坚定专业信仰.铭记专业使命.立志忠于祖国.忠于人民.忠于专业为宗旨的"钥匙工程"第二季迎来了第三位主讲嘉宾.9月4日8:30,电气与电子 ...

最新文章

  1. 微生物组——宏基因组分析专题培训开课啦!!!
  2. ASP.NET 2.0 正式版中无刷新页面的开发
  3. python 量化交易_Quantsrat让R语言像Python一样进行策略回测和量化交易
  4. stripe pay_J2Pay –入门
  5. linux7禁用ipv6,RHEL 7 及 CentOS 7 彻底禁用IPv6的方法
  6. 关于使用ModelSim中编写testbench模板问题
  7. 操作系统之内存管理:1、内存管理基础知识(指令工作原理、地址转化、程序运行过程)
  8. 爬虫之HTTP基础知识
  9. Vue.js 学习笔记 八 v-for
  10. Source Insight建工程之Kernel
  11. OC语言——————表视图
  12. 淘宝客APP源码导购APP源码代理淘客APP源码
  13. 微博如何快速批量取消关注脚本教程
  14. lpush rpush 区别_redis中lpush、rpush、lset、lrem是什么
  15. “天天向上“py代码
  16. 人脸面部情绪识别(一)
  17. 让你在 API 设计中少踩坑的实战分享
  18. 数据库笔试——查出各部门超出部门平均薪资的员工的姓名,薪资,所在部门名称及部门平均薪水...
  19. vsjitdebugger.exe 进程解决方法
  20. 福昕阅读器【上下分屏】阅读同一个PDF,上下文对照参考阅读,非常方便

热门文章

  1. PgSQL · 特性分析 · full page write 机制
  2. jquery mobie导致超链接不可用
  3. 模板方法模式与策略模式的区别
  4. MySQL数据库中文模糊检索问题
  5. Log4j使用技巧——让子类使用父类中定义的Logger
  6. Python的串口操作库pyserial
  7. 2018-3-19 损失函数与适应度函数,稳定选择与分裂选择
  8. openstack对比其他有什么优点
  9. MyBatis中jdbcType=INTEGER、VARCHAR作用
  10. Pycharm初始创建项目和环境搭建(解决aconda库文件引入不全等问题)