论文:https://arxiv.org/pdf/1908.04284.pdf

题目:PERSONAL VAD: SPEAKER-CONDITIONED VOICE ACTIVITY DETECTION

摘要

在本文中,我们提出了“个人VAD”系统,该系统可以在帧级别检测目标说话者的语音活动。 该系统可用于对流语音识别系统的输入进行门控,使其仅为目标用户触发,这有助于降低计算成本和电池消耗。 我们通过训练以目标说话人嵌入或说话人验证分数为条件的类似VAD的神经网络来实现这一目标。 对于每帧,个人VAD输出三类的分数:非语音,目标说话者语音和非目标说话者语音。 通过我们的最佳设置,我们能够训练一个130KB的模型,该模型的性能优于基准系统,在基准系统中,单独训练的标准VAD和说话者识别网络相结合可以执行相同的任务。

1.介绍

在现代语音处理系统中,语音活动检测(VAD)通常位于其他语音组件(例如语音识别和说话者识别)的上游。 作为门控模块,VAD不仅通过丢弃非语音信号提高了下游组件的性能,而且由于其相对较小的尺寸,还大大降低了总体计算成本。
典型的VAD系统使用具有声学特征的帧级分类器为每个音频帧做出语音/非语音决策(例如,宽度为25ms,步长为10ms)。差的VAD系统可能会错误地接受背景噪声作为语音,或者错误地拒绝语音。错误接受非语音,因为语音会大大减慢下游自动语音识别(ASR)处理。由于ASR模型通常比VAD模型大得多,因此它在计算上也很昂贵。另一方面,错误的拒绝语音会导致ASR转录中的删除错误(几毫秒的音频丢失会删除整个单词)。 VAD需要在

语音切割,个人VAD (google 2019 论文翻译)相关推荐

  1. Google Bigtable论文翻译

    2019独角兽企业重金招聘Python工程师标准>>> 1 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的 ...

  2. Google Spanner论文翻译

    2019独角兽企业重金招聘Python工程师标准>>> [摘要]Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个把数据分布在全球范围内的系统 ...

  3. Google Chubby 论文翻译

    目录 摘要 1 介绍 2 设计 3 扩展机理 4 实际应用,意外和设计错误 5 与相关工作的比较 6 总结 7 感谢 松耦合分布式系统的锁服务 Chubby 摘要 我们描述了我们使用 Chubby 锁 ...

  4. 分布式系统领域经典论文翻译集

    分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询 一.google论文系列 1.      google系列论文译序 2.      The anatomy o ...

  5. 转:经典论文翻译导读之《Google File System》

    首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 Java小组 工具资源 - 导航条 -首页所有文章资讯Web架构基础技术书籍教程Java小组工具资源 经典论文翻译导读之<Google ...

  6. Paper之ICASSPIEEEAUDIOSPE:2018~2019年ICASSP国际声学、语音和信号处理会议IEEE-ACM T AUDIO SPE音频、语音和语言处理期刊最佳论文简介及其解读

    Paper之ICASSP&IEEEAUDIOSPE:2018~2019年ICASSP国际声学.语音和信号处理会议&IEEE-ACM T AUDIO SPE音频.语音和语言处理期刊最佳论 ...

  7. 说话人验证论文翻译:Generalized end-to-end loss for speaker verification

    论文地址:2018_说话人验证的广义端到端损失 论文代码:Generalized End-to-End Loss for Speaker Verification 地址:说话人验证论文翻译:Gener ...

  8. CVPR 2019 论文大盘点-人脸技术篇

    点击我爱计算机视觉标星,更快获取CVML新技术 CV君今天盘点了 CVPR 2019 所有人脸相关论文,总计51篇,其中研究人脸重建与识别的论文最多,人脸识别中新Loss的设计有好几篇,人脸表情分析也 ...

  9. ECCV2020 Flow-edge Guided Video Completion20论文翻译

    ECCV2020 Flow-edge Guided Video Completion20论文翻译 摘要 1.介绍 2.相关工作 3.方法 3.1 综述 3.2 Edge-guided Flow Com ...

最新文章

  1. 2021年大数据Hive(八):Hive自定义函数
  2. Java从基础进阶到高手
  3. PHP设置页面显示编码
  4. How To Install Visual Studio Code On Ubuntu
  5. Taro+react开发(29)引入固定地址的方式
  6. 【CodeForces - 897D】Ithea Plays With Chtholly (交互题型,贪心,思维构造,题目信息)
  7. 使用visio 提示此UML形状所在的绘图页不是UML模型图的一部分 请问这个问题怎么解决?...
  8. 基于Fragment的百度地图框架的使用
  9. Algorithm -- 全排列
  10. 常见Struts、Hibernate、Spring、J2EE、ibatis、Oracle等开发框架架构图及其简介
  11. 携手英特尔,百度开放云将提供更强悍云服务
  12. PHP关于VC11,VC9,VC6以及Thread Safe和Non Thread Safe版本选择的问题
  13. Weblogic部署项目
  14. 编译原理c语言递归下降程序,编译原理(递归下降分析程序)
  15. 24点递归实现(c语言)
  16. 第五章(1.7)深度学习——常用的八种神经网络性能调优方案
  17. Scratch中做一个简单迷宫小游戏,值得您收藏!
  18. Lens Shading成因及相关
  19. 点猫科技与Aqara绿米达成战略合作,助推校内人工智能教育普及
  20. 华为任正非:实事求是的科研方向与二十年的艰苦努力

热门文章

  1. Dell Inspiron 5488加内存32G
  2. (八)unity shader基础之——————渲染平台差异问题
  3. 回收站不见了怎么恢复?一招把回收站的图标找回来!
  4. 盘点:阿里云上8款免费的开发者工具
  5. 创游互娱旗下《秀逗军团》进击第三届“金翼奖”
  6. 软件测试之黑盒测试用例
  7. Spring全集(上)
  8. ] 电视剧《宫》收视高骂声响 清装F4逛御花园
  9. 阿里云 ACP 考试学习过程分享
  10. C语言 函数指针做函数参数(即回调函数)