知名声纹技术厂商快商通的AI研发中心总监、快商通声纹研发团队的核心成员李稀敏博士在一次专访中阐述过声纹识别技术的发展过程,其将声纹声纹识别技术的发展总结为3个分水岭

第一个分水岭是2000年。在2000年以前,进行声纹识别验证,主要是基于模板匹配,这种算法基于信号比对,通常要求比对双方的内容相同,比如要验证说“床前明月光”的人是谁,那验证人也必须要说“床前明月光”才能验证,如果他说“疑似地上霜”的话,验证就不能完成。2000年以后,开始出现基于高斯混合模型的声纹识别算法,高斯混合模型是典型基于统计学习理论的方法,该算法采用大量数据为每个说话人训练模型,使用高斯混合模型验证已经与文本无关了,即要验证“床前明月光”的说话人时,说“疑似地上霜”也能够验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础上改进的,但高斯混合模型注册语音的时间过长,无法满足实际应用场景的需求,因此需要新的技术来突破限制。

第二个分水岭是2010年左右,这时候出现了iVector/PLDA算法。iVector最大的亮点在于,把语音映射到了一个固定的且低维的向量上,这意味这所有机器学习的算法都可以用来解决声纹识别的问题了,因此这是一个巨大的进步。PLDA是一种信道补偿算法,因为在iVector中,既包含说话人的信息,也包含信道信息,而我们只关心说话人的信息,所以才做信道补偿,目前PLDA是最好的信道补偿算法,但噪声对结果依然有很大的影响。

第三分水岭是在2011年,在第十一届全国人机语音通讯学术会议上,邓力分享了他在微软DNN-based speech recognition的研究结果,将识别率提升了30%,这将声纹识别的准确率一下子提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征,并对噪声有很强的免疫力,至此深度学习被引入业界,国内对声纹识别技术的关注点也放到了深度学习上。

python库声纹_针对亿级大规模声纹库检索,有哪些简洁、高效的算法?相关推荐

  1. 两个listmap合并去重_单机亿级规模题库去重,如果是你会怎么做?

    作者:haolujun原文:https://www.cnblogs.com/haolujun/p/8399275.html 背景 最近工作中遇到了一个问题:如何对大规模题库去重?公司经过多年的积累,有 ...

  2. python场景文字识别_针对复杂场景的 OCR 文本识别,推荐一个Python 库!

    大家好,我是 zeroing~ 1,前言 之前谈到图片文本 OCR 识别时,写过一篇文章介绍了一个 Python 包 pytesseract ,具体内容可参考 介绍一个Python 包 ,几行代码可实 ...

  3. python requests post请求_实例解析Python3 如何利用requests 库进行post携带账号密码请求数据...

    1 调试过程 用Python3.6+Sciter+PyCharm写了一个py测试脚本helloworld.py,该脚本中只含有一条语句"import sciter".在PyChar ...

  4. es数据频繁的更新_百亿级实时计算系统性能优化–—Elasticsearch篇

    ​导语 | 随着业务的发展,系统日益复杂,功能愈发强大,用户数量级不断增多,设备cpu.io.带宽.成本逐渐增加,当发展到某个量级时,这些因素会导致系统变得臃肿不堪,服务质量难以保障,系统稳定性变差, ...

  5. java redis点赞_微信亿级在线点赞系统,用Redis如何实现?

    点赞功能大家都不会陌生,像微信这样的社交产品中都有,但别看功能小,想要做好需要考虑的东西还挺多的,如海量数据的分布式存储.分布式缓存.多 IDC 的数据一致性.访问路由到机房的算法等等. 本文介绍大型 ...

  6. python处理期货数据_针对vnpy的不同期货品种行情数据清理

    之前2月25日,上海期货交易所进行测试,在周六进行行情广播,我的datarecording一直在跑:然后就发现读了不少脏数据. vnpy自带的行情清理功能较为简单,只是在清除非交易时段,没有考虑周六日 ...

  7. 太素---亿级大规模中文视觉语言预训练数据集

    NeurIPS 2022 论文 TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-train ...

  8. 百度可观测系列 | 如何构建亿级指标的高可用 TSDB 存储集群?

    [百度云原生导读]在前一篇<采集亿级别指标,Prometheus 集群方案这样设计中>,我们为大家介绍了针对针对亿级指标场景,百度云原生团队基于Prometheus 技术方案的研究,包括资 ...

  9. python实现面部特效_【AI美颜算法】300行Python实现基于人脸特征的美颜算法

    先上效果图: AI美颜 人类一直是一个看脸的物种,人人都希望可以变得更美是无可争议的,而美颜类应用的出现拯救了所有人,从此人类进入了美(照)颜(骗)时代. .... 每次写技术blog都要写一堆废话引 ...

最新文章

  1. PermGen space
  2. python时间处理
  3. Json and Go
  4. XGB 调参基本方法
  5. AVR单片机计算器C语言源程序,一个基于AVR单片机的计算器程序.doc
  6. conda创建虚拟环境,拥有多个Anconda版本
  7. Lucene开发(一):快速入门
  8. use proxy for git
  9. Web 开发的 JavaScript 框架资料收集(15款)
  10. RU大神手册上要再“做”的题
  11. Java二维数组——关灯游戏算法
  12. win10服务器只显示4g内存,要注意了,4G内存在win10系统中根本不够用
  13. netapp linux ntfs,netapp存储常用命令
  14. Android Gradle Build Error:Some file crunching failed, see logs for details解决办法
  15. 基于 mycat,我实现了一个数据库透明加密中间件
  16. 程序化交易系统的搭建
  17. Sepic变换器的基本原理
  18. iOS开发:简易天气预报
  19. Java实现网络聊天程序的设计与实现(基于UDP协议)
  20. RocketMQ 5.0 本地源码启动Cluster模式指南

热门文章

  1. 国内主流设计作品分享社区,用作品动世界
  2. UI素材干货|听说UI设计师更喜欢Sketch
  3. APP UI设计作品素材,还没灵感就撞墙吧!
  4. 苹果电脑 默认安装jdk位置_收藏起来你一定用的上!JDK的安装和配置
  5. kali linux wps 2019 删除_良心推荐!Linux系统下常用办公软件大盘点
  6. C++数据结构02--链式线性表(单链表的实现)
  7. Python3爬取豆瓣图书Top250并写入txt文件当中
  8. Docker使用概览图
  9. oracle apex 链接,Oracle APEX 5.0 新手教程(七) URL格式说明
  10. 库函数手册_Linux应用编程(1)系统调用库函数 确定真懂?