语音切割,个人VAD (google 2019 论文翻译)
论文:https://arxiv.org/pdf/1908.04284.pdf
题目:PERSONAL VAD: SPEAKER-CONDITIONED VOICE ACTIVITY DETECTION
摘要
在本文中,我们提出了“个人VAD”系统,该系统可以在帧级别检测目标说话者的语音活动。 该系统可用于对流语音识别系统的输入进行门控,使其仅为目标用户触发,这有助于降低计算成本和电池消耗。 我们通过训练以目标说话人嵌入或说话人验证分数为条件的类似VAD的神经网络来实现这一目标。 对于每帧,个人VAD输出三类的分数:非语音,目标说话者语音和非目标说话者语音。 通过我们的最佳设置,我们能够训练一个130KB的模型,该模型的性能优于基准系统,在基准系统中,单独训练的标准VAD和说话者识别网络相结合可以执行相同的任务。
1.介绍
在现代语音处理系统中,语音活动检测(VAD)通常位于其他语音组件(例如语音识别和说话者识别)的上游。 作为门控模块,VAD不仅通过丢弃非语音信号提高了下游组件的性能,而且由于其相对较小的尺寸,还大大降低了总体计算成本。
典型的VAD系统使用具有声学特征的帧级分类器为每个音频帧做出语音/非语音决策(例如,宽度为25ms,步长为10ms)。差的VAD系统可能会错误地接受背景噪声作为语音,或者错误地拒绝语音。错误接受非语音,因为语音会大大减慢下游自动语音识别(ASR)处理。由于ASR模型通常比VAD模型大得多,因此它在计算上也很昂贵。另一方面,错误的拒绝语音会导致ASR转录中的删除错误(几毫秒的音频丢失会删除整个单词)。 VAD需要在
语音切割,个人VAD (google 2019 论文翻译)相关推荐
- Google Bigtable论文翻译
2019独角兽企业重金招聘Python工程师标准>>> 1 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的 ...
- Google Spanner论文翻译
2019独角兽企业重金招聘Python工程师标准>>> [摘要]Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个把数据分布在全球范围内的系统 ...
- Google Chubby 论文翻译
目录 摘要 1 介绍 2 设计 3 扩展机理 4 实际应用,意外和设计错误 5 与相关工作的比较 6 总结 7 感谢 松耦合分布式系统的锁服务 Chubby 摘要 我们描述了我们使用 Chubby 锁 ...
- 分布式系统领域经典论文翻译集
分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询 一.google论文系列 1. google系列论文译序 2. The anatomy o ...
- 转:经典论文翻译导读之《Google File System》
首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 Java小组 工具资源 - 导航条 -首页所有文章资讯Web架构基础技术书籍教程Java小组工具资源 经典论文翻译导读之<Google ...
- Paper之ICASSPIEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读
Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学.语音和信号处理会议&IEEE-ACM T AUDIO SPE音频.语音和语言处理期刊最佳论 ...
- 说话人验证论文翻译:Generalized end-to-end loss for speaker verification
论文地址:2018_说话人验证的广义端到端损失 论文代码:Generalized End-to-End Loss for Speaker Verification 地址:说话人验证论文翻译:Gener ...
- CVPR 2019 论文大盘点-人脸技术篇
点击我爱计算机视觉标星,更快获取CVML新技术 CV君今天盘点了 CVPR 2019 所有人脸相关论文,总计51篇,其中研究人脸重建与识别的论文最多,人脸识别中新Loss的设计有好几篇,人脸表情分析也 ...
- ECCV2020 Flow-edge Guided Video Completion20论文翻译
ECCV2020 Flow-edge Guided Video Completion20论文翻译 摘要 1.介绍 2.相关工作 3.方法 3.1 综述 3.2 Edge-guided Flow Com ...
最新文章
- 2021年大数据Hive(八):Hive自定义函数
- Java从基础进阶到高手
- PHP设置页面显示编码
- How To Install Visual Studio Code On Ubuntu
- Taro+react开发(29)引入固定地址的方式
- 【CodeForces - 897D】Ithea Plays With Chtholly (交互题型,贪心,思维构造,题目信息)
- 使用visio 提示此UML形状所在的绘图页不是UML模型图的一部分 请问这个问题怎么解决?...
- 基于Fragment的百度地图框架的使用
- Algorithm -- 全排列
- 常见Struts、Hibernate、Spring、J2EE、ibatis、Oracle等开发框架架构图及其简介
- 携手英特尔,百度开放云将提供更强悍云服务
- PHP关于VC11,VC9,VC6以及Thread Safe和Non Thread Safe版本选择的问题
- Weblogic部署项目
- 编译原理c语言递归下降程序,编译原理(递归下降分析程序)
- 24点递归实现(c语言)
- 第五章(1.7)深度学习——常用的八种神经网络性能调优方案
- Scratch中做一个简单迷宫小游戏,值得您收藏!
- Lens Shading成因及相关
- 点猫科技与Aqara绿米达成战略合作,助推校内人工智能教育普及
- 华为任正非:实事求是的科研方向与二十年的艰苦努力