利用脑记录产生的合成语音
目录
- 虚拟声道改善自然语音合成
本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:941473018
虚拟声道改善自然语音合成
这项研究是由语音科学家GopalaAnumanchipalli和Chang实验室的生物工程研究生Josh Chartier领导。该项研究是基于一系列研究基础上进行研究的,首次描述了人类大脑的语音中心是如何编排嘴唇,下巴,舌头,和其他声道组件的运动以生产流利的语音。
在这项工作中,Anumanchipalli和Chartier意识到先前试图直接从大脑活动解码语音可能只会得到有限的成功,因为这些大脑区域并不直接代表语音的声学特性,而是协调声音运动所需的指令。比如说话时需要用口腔和咽喉。
Anumanchipalli说:“声道的运动和发出的声音之间的关系很复杂。”“我们认为,如果大脑中的这些语言中枢编码的是动作而不是声音,那么我们应该在解码这些信号时尝试这样做。”
在他们的新研究中,Anumancipali和Chartier选取了五名在UCSF癫痫中心接受治疗的志愿者(这些志愿者是能完整说话的患者),在他们的脑中临时植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备-朗读数百句话研究人员记录了已知参与语言产生的大脑区域的活动。
根据参与者声音的录音,研究人员使用语言原理对产生这些声音所需的声道运动进行逆向工程:在此处将嘴唇压在一起,在此处收紧声带,将舌尖移到嘴顶部,然后放松,等等。
这种从声音到解剖结构的详细映射使科学家能够为每个参与者创建一个可以由其大脑活动控制的逼真的虚拟声道。这包括两个“神经网络”机器学习算法:一个解码器,将语音过程中产生的大脑活动模式转换为虚拟声道的运动;另一个是合成器,将这些声道的运动转换为参与者语音的合成近似值。
上图展示了由神经解码的口语句子合成语音的过程。
a.神经解码过程从高密度皮层活动中提取相关信号特征。
b.一个bLSTM神经网络从ECoG信号解码运动学表示。
c,一个额外的bLSTM解码声学从先前解码的运动学。声学是从语音波形中提取出来的光谱特征(例如MFCCs)。
d.将解码后的信号合成为声波波形。
e.光谱图显示了一个参与者所说的两个句子的频率内容。
f.由与e段同时记录的脑信号合成的语音谱图(重复5次,结果相似)。计算原始音频和解码音频之间的每个句子的MCD。使用五重交叉验证来寻找一致的译码。
研究人员发现,这些算法产生的合成语音明显优于直接从参与者大脑活动中解码的合成语音,而且不需要模拟说话者的声道。在Amazon Mechanical Turk平台上进行的众包转录测试中,这些算法生成的句子能够被数百名人类听众理解。
就像自然语言一样,当向抄写员提供较短的单词列表供他们选择时,抄写员会更成功。抄写员从25个备选词列表中准确识别出69%的合成词,并准确地抄写了43%的句子。由于可以选择更具挑战性的50个单词,抄写员的整体准确性下降到47%,尽管他们仍然能够完美地理解21%的合成句子。
Chartier认为:“我们仍然有一种方法可以完美地模仿口头语言。”“我们非常擅长合成“ sh”和“ z”等较慢的语音,并保持语音的节奏和语调以及说话者的性别和身份,但是一些更突然的声音如“ b”和“ p”有点模糊。不过,与目前可用的准确性相比,我们在此处产生的准确性水平将是实时通信方面的惊人改进。”
Chartier认为:“想要完美地模仿口语,我们还有很长的路要走。”
“我们很擅长合成‘sh’和‘z’等慢速发音,也很擅长保持说话的节奏和语调,但有些更突然的声音,比如‘b’和‘p’,听起来就有点模糊。”
尽管如此,与目前可用的实时通信相比,我们在这里生成语音的准确性水平的进步也是非常惊人的。
参考
https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings
公众号 脑机接口社区:利用脑记录产生的合成语音
本文章由脑机学习者Rose笔记分享,QQ交流群:941473018
更多分享,请关注公众号
利用脑记录产生的合成语音相关推荐
- 利用脑机接口从鸟的脑电波中重现鸟唱歌声
神经科学研究人员创建脑机接口(BCI)或脑机接口(BMI),目的是使用大脑恢复受损的人体运动功能.加州大学圣地亚哥分校(Universityof California, San Diego, UCSD ...
- Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
[导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...
- 打开阿兹海默之门:华裔张复伦利用RNN成功解码脑电波,合成语音 | Nature
作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 2019 年 4 月 24 日,来自加州大学旧金山分校(UCSF)神经外科学系 Gopala K. Anumanchipalli, ...
- 科学家利用脑机接口让患者正常发声
说话在我们看来似乎是一项很简单.毫不费力的活动,但它却是我们执行的最复杂的动作之一.它要求声道的发音结构(嘴唇.舌头.喉和下颌)进行精确.动态的肌肉协调.当中风.肌萎缩侧索硬化症或其他神经系统疾病导致 ...
- Boston和MIT研究人员利用脑电信号实时控制机器人
目录 简单介绍脑信号控制机器人相关的知识 使用ErrP通信的人机交互 实验设计 5大步骤 1)预处理: 2)特征提取: 3)分类器: 4)阈值设置: 5)决策: 结果:初级和次级错误 性能 结论 本分 ...
- 利用脑机接口提高意念打字速度,让新手用户也能快速上手意念交流
脑机接口(BCI)通过将脑部活动转换为计算机命令来实现对外部设备的控制.例如,使用BCI拼写器,人们无需动一根手指就能打出单词和短语.这种技术对那些无法使用普通键盘的人来说至关重要. 当前表现最好的B ...
- 只用嘴唇动一动,AI就能合成语音,效果自然流畅看不出破绽
梅宁航 发自 凹非寺 量子位 报道 | 公众号 QbitAI 光动嘴不用出声,AI自动给你合成语音. 这就是来自印度信息技术研究所(IIIT)的黑科技--一个名为Lip2Wav的AI程序. Lip2 ...
- 基于 Azure 的认知服务将文本合成语音
基于 Azure 的认知服务将文本合成语音 Intro 前几天发了一个 .NET 20 周年祝福视频,语音是通过 Azure 的认知服务合成的, 下面就来介绍一下如何将使用 Azure 的认识服务实现 ...
- 腾讯云---语音合成---一段文本合成语音
一.导包 <!--腾讯云 语音识别 语音合成--><dependency><groupId>com.tencentcloudapi</groupId>& ...
最新文章
- 在PHP当中制作隔行换色的效果以及制作上下翻页的效果!
- 全卷积神经网路【U-net项目实战】ISBI 挑战数据集图像分割-keras实现
- 帮你理清 SpringBoot 与 SpringMVC 的关系
- python 分布式框架_python分布式框架rq的使用
- 操作系统课设之基于信号量机制的并发程序设计
- 空调恶搞工具小程序版源码下载
- 测试用例集-8.公交卡测试用例
- comsol通直流电_基于COMSOL仿真的高压直流交联聚乙烯(XLPE)电缆附件设计
- Oracle存储过程
- Adobe2022更新,打开photoshop总是提示需要访问钥匙串秘钥怎么解决?
- Android 自定义view 实现点击 展示下拉选项效果
- 什么是xmlhttp
- 导入maven项目,报错Cannot read lifecycle mapping metadata for artifact org.apache.maven.plugins:mav
- mysql 1分钟前_mysql 数据库取前后几秒 几分钟 几小时 几天的语句
- HTML+CSS+JS商城网站设计——蛋糕团购商城模板 (4页) 蛋糕团购网页设计制作 简单静态HTML网页作品 商城网页作业成品 网购网站模板
- Java获取一年有多少周、某周的第一天和最后一天.
- 分布式和集群的共同点与区别
- 淘集集打单软件那个好?那个打单软件能批量打单?
- 用DXP 软件快速画简单特定形状的PCB版
- 能帮我们学习吉他的音乐软件——Guitar Pro
热门文章
- 虚拟机Linux下解决ping时出现 unknown host问题
- 分布式session之token解决方案实现
- idea中配置xml不自动提示解决方案
- 基于spring boot的统一异常处理
- python3和pip3安装和问题解决
- Redis服务停止报错解决方案[NOAUTH Authentication required]
- Haskell / GHC中的“ forall”关键字有什么作用?
- Builder Design模式和Factory Design模式之间有什么区别?
- 如何删除内联块元素之间的空间?
- 功能之前,感叹号有什么作用?