声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

目录

1 背景

2 研究情况

3 总结

4 引用


1 背景

 
  1. 脑机接口的研究已经发展很长时间,在语音方面通常使用脑信息来进行语音识别和语音合成,其中脑信息的获取主要包括侵入式和非侵入式。侵入式方式的信息获取是通过手术把芯片植入到大脑中,这样可以减少很多噪声。非侵入式的信息获取是使用电子传感器通过头皮来获取信息,常用的就是脑电图(EEG),这种方式更加安全和廉价。基于EEG的语音合成主要使用EEG来预测声学特征或者直接预测波形,其训练使用的数据获取是当参与者录取音频的时候,同时获取其脑电图来获取<EEG, audio>的并行数据。脑机接口的语音合成还是非常有趣,至少可以实现玄幻中的"内功传音",想想这种场面:两个人戴着脑电波采集器并发射给对方,对方接受脑电波后合成语音,通过播放器可以听到对方的悄悄话。

2 研究情况

 

粗略的搜了一下2020年的基于脑电图EEG语音合成的文章,几篇文章都是出自德克萨斯大学奥斯汀分校脑机接口实验室,真是一招鲜,吃遍天呀!(有点失望的是没找到demo):

1)Advancing Speech Synthesis using EEG

2)Speech Synthesis using EEG

3)Predicting Different Acoustic Features from EEG and towards direct synthesis of Audio Waveform from EEG

  1. 接下来我就主要对这三篇文章进行讲解。

2.1 Advancing Speech Synthesis using EEG

 
  1. Advancing Speech Synthesis using EEG, 本文提出了基于attention的回归系统,使合成的声学特征更加逼近于真实的特征。

本文主要是使用attention机制来优化基于EEG的语音合成,其中attention机制主要如下的公式1~3。我们可以看一下图1所示的架构,该架构很简单,就不再阐述(这类似的图在接下来的几篇文章都会出现)。图2展示了两种实验方式,直接从EEG转成声学特征MFCC,第二种是先使用EEG转成发音的特征articulatory,然后再转成MFCC。

接下来看一下实验。本文实验主要包括4位参加者,其中set 1,set2 , set3的区别是EEG的维度分别为30, 50 和93。table1~4显示各测试结果,其中第1种方法比第2种方法低一些(作者说不是MCD越低就是合成音频越好,但本文章又说比以前的方案低多了。)table 5展示了MFCC 128为结果,图3图4展示语音重构的结果。

2.2 Speech Synthesis using EEG

 
  1. Speech Synthesis using EEG这篇文章跟上一篇文章不同两个方面:1)只使用gru结构 2)使用EEG数据不仅采集说话人的EEG,也采集听者的EEG。

搞交叉研究领域使用的架构很简单,如图1所示,两层gru模型。其中脑电图的采集装备传感器的位置为图2所示。

接下来看一下实验,本文的实验测试主要客观指标。

2.3 Predicting Different Acoustic Features from EEG and towards direct synthesis of Audio Waveform from EEG

 

Predicting Different Acoustic Features from EEG and towards direct synthesis of Audio Waveform from EEG 本文与上边两篇文章主要不同就是不需要声码器,只用EEG预测波形。

本文的直接从EEG预测波形,从而省去声码器的使用。其结构如图1所示。

本文实验如下显示。主要比上边的两篇文章更接近可懂度高的语音。

3 总结

脑机接口的语音合成目前还处在学术阶段,还不能够生成可懂度较高的语音,不过还是期待EEG分析能够突破,这样会产生很多好玩的东西。

4 引用

[1] Krishna G, Tran C, Carnahan M, et al. Advancing speech synthesis using eeg[J]. arXiv preprint arXiv:2004.04731, 2020.

[2] Krishna G, Tran C, Han Y, et al. Speech synthesis using EEG[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 1235-1238.

[3] Krishna G, Tran C, Carnahan M, et al. Predicting Different Acoustic Features from EEG and towards direct synthesis of Audio Waveform from EEG[J]. arXiv preprint arXiv:2006.01262, 2020.

欢迎关注公众号:低调奋进

语音合成(speech synthesis)方向七:脑机接口之基于脑电图语音合成相关推荐

  1. “脑机接口与类脑计算“方向招聘启事

    点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 团队简介 类脑计算与混合智能研究中心已获五邑大学350万启动一期建设.中心团队现有教师6人,其中教授1人,特聘教授3人, ...

  2. 解密脑机接口:专访CMU生物医学工程系主任贺斌

    卡耐基梅隆大学生物医学工程系主任贺斌教授(照片由本人提供) 来源: 知识分子 撰文 | 李澄宇(中科院神经所PI)          赵维杰(NSR新闻编辑) 脑机接口能做什么?带上电极帽,你可以在实 ...

  3. Nature封面:脑机接口重大突破!意念手写字速度破纪录!

    近日,由斯坦福大学.霍华德·休斯医学研究所(HHMI).布朗大学等机构的科研人员联合研究,该研究首次从脑电信号中解码手写字母的动作,使瘫痪人士意念中的写字动作可以实时转换成屏幕上的文字. 该项研究结果 ...

  4. 脑机接口和卷积神经网络的初学者指南(二)

    脑机接口和卷积神经网络的初学指南分为两部分,第一部分主要介绍脑机接口和AI +研究论文的概貌:第二部分主要深入解释神经网络与BCI的结合. 本篇是第二部分,主要深入解释神经网络与BCI的结合. 下面, ...

  5. 解密通往元宇宙的三大入口,VR先上AR紧跟,但脑机接口才是未来

    来源: 智东西 编辑:智东西内参 VR.AR和脑机接口,谁是人类通往元宇宙的合适入口? VR/AR/脑机接口是集合了微显示.传感器.芯片和算法等多项技术在内的下一代人机交互平台.回顾整个人机交互发展历 ...

  6. 【Neuralink 与大脑的神奇未来】Part 3:脑机接口

    目录 Part 1: The Human Colossus 人类的巨像 Part 2: The Brain 大脑 Part 3: Brain-Machine Interfaces 脑机接口 Part ...

  7. 从脑机接口到抗疫前线,医疗AI落地的几种未来|郑冶枫专访

    [栏目:产业洞察]2021可谓是AI医疗商业化元年,政策的利好和资本的聚集催生了AI在包括医学影像诊断.慢病管理.医疗信息服务等医疗领域各个子赛道的深度赋能. 在更加前沿的领域,国内研究者在临床上的探 ...

  8. 计算机科学与技术脑机接口,脑机接口技术

    脑-机接口是在人脑与计算机或其它电子设备之间建立的直接的交流和控制通道 ,通过这种通道 ,人就可以直接通过脑来表达想法或操纵设备 ,而不需要语言或动作 ,这可以有效增强身体严重残疾[1] 的患者与外界 ...

  9. 深度学习下的脑机接口BCI究竟有多远?

    BCI | ECoG  | 脑机接口 LFP | CMRR | 生物计算 随着生命科学.医药研发.数据分析.数据挖掘.LFP.生物计算.靶点发现.基因测序等技术的快速发展,脑科学逐渐出现在人们的视野中 ...

最新文章

  1. 直接拿来用!最火的Android开源项目(一)
  2. 汇编 整数常量 实数常量 字符常量 字符串常量 保留字 标识符 伪指令 指令 nop指令
  3. 深拷贝一个对象会了,怎么深拷贝一个图?
  4. 转:精通JS正则表达式
  5. Django(part41)--中间键Middleware
  6. java基础——java学习心得
  7. Linux面板对Linux系统维护(Linux运维)全网最详细
  8. 牛顿柯特斯求积公式matlab,牛顿-柯特斯求积公式总结.ppt
  9. unity 光探头_光探头
  10. 查询名字重复但不是相同的人的记录
  11. MySQL 查询本月各周
  12. 微信小程序 使用canvas画圆形倒计时动画
  13. 移动开发技术(Android)——综合实验
  14. 大话 MySQL 数据库 -- 强推收藏!
  15. kettle发送邮件报错:535,authentication failed
  16. 靶机渗透练习43-Lord Of The Root
  17. bios设置raid启动模式Linux,华硕主板BIOS里哪项是开启RAID方式?
  18. PNI12927磁场强度传感器--金属检测实现方案
  19. BeJSON—实用网站(二)
  20. HTML5+CSS大作业——明星个人主页(15页) 创作主页

热门文章

  1. vw8000_汽车电子国际测试标准iso16750和VW8000
  2. 小程序实现文字两端对齐
  3. C语言求解三个数的中间值
  4. 数据库 ----- 实验三:SQL的查询
  5. 大连理工大学计算机学院院长,大连理工大学计算机学院姚念民教授团队最新成果被人工智能顶级期刊TNNLS录用...
  6. 【weJudge】1107. [ACM][2014新生赛重现][现场]啊~啊~,麻婆豆~腐,麻婆豆~腐~
  7. 【Git学习】如何删除Git中的大文件
  8. 一个网站从0到1搭建部署上线的完整流程(包教包会)
  9. 软件测试方法比较(给新手)
  10. vue截取视频第一帧做封面图