序言:作为一名完全的声纹识别小白,刚开始接触,毫无头绪,都不知道从何入手,在搜集了一些资料,看过一些学习视频,论文之后,记录一下自己的摸索过程,同时将一些目前网络上的资源进行汇总。目前的我确实学习还是非常浅,如果有一些理解错误,会进行改正。


一、算法纵览

搞懂声纹识别算法整个的发展过程,才有利于进一步改进。了解了各种方法,才能选出最适合数据的算法。看论文时也会减轻很多压力。所以首先记录一下我了解的一些算法发展流程:

1. 最早的GMM-UBM i-vector

利用GMM高斯混合模型提取特征i-vector;克服训练数据不多的情况,引入UBM;将语音分为说话人空间和环境空间,解决环境带来的信道,PLDA实现信道补偿,将提取的i-vector更加纯粹。

当然,获取i-vector的方法不仅仅局限在高斯混合模型,利用一起其它的机器学习方法进行补充一样可以,甚至是DNN提取的特征。

2. DNN入场

DNN的引入极大的降低了识别错误率。这时候的算法,可以称为embedding算法,依然是提取特征,不过这时候提取的是神经网络最后隐藏层的激活单元了,作为embedding,代替i-vector来作为一段语音的特征表示。

这时候出现了d-vector(深度神经网络最后一个隐藏层作为embeddings特征)、x-vector(从TDNN网络中提取embeddings特征)、j-vector模型(适用于文本相关说话人确认)

3. 端到端系统

无论是获得i-vector,还是DNN提取出的embedding,都是从语音中提取出特征再做分类或者确认。而端到端系统将这2段合到一个系统中,从输入到输出,一体化特征训练和分类打分。这和之前有了重大的不同。

目前我只看了百度论文《Deep Speaker:an End-to-End Neural Speaker Embeddin》中的的 Deep Sperker 端到端模型

二、资源汇总

1. 网上学习资料

知乎一篇科普文:AI老司机带你认识声音黑科技:声纹识别。可以最快的了解下声纹识别

百度技术学院语音技术视频:语音技术实战介绍 。 从语音技术整个体系看一下声纹识别

李博士的知乎专栏:声纹识别的应用实践。全!写的真的是全!

知乎声纹识别大佬:Leon晋。看了他很多回答,很有益

同盾大学视频:声纹识别训练营1 + 声纹识别训练营2

2. 目前使用论文学习及讲解

- 关于d-vector:

《Deep Neural Network Embeddings for Text-Independent Speaker Verification》

《ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》

- 关于端到端系统 Deep Speaker:

《Deep Speaker: an End-to-End Neural Speaker Embedding System》

3. 开源资源整理

- d-vector:

https://github.com/rajathkmp/speaker-verification

https://github.com/wangleiai/dVectorSpeakerRecognition

- E2E,Deep Speaker:

tensorflow实现:https://github.com/philipperemy/deep-speaker

pytorch实现:https://github.com/qqueing/DeepSpeaker-pytorch


未完待续。。。。。。资源进一步整理吧

、、、、

小白声纹识别(说话人识别)探索相关推荐

  1. [声纹识别]“说话人识别”基本概念

    "声纹识别"也叫"说话人识别".就是从某段语音中识别出说话人的身份的过程:声纹与指纹类似,每个人说话过程中蕴含的语言特征和发音习惯等也几乎是唯一的. 声纹识别与 ...

  2. Tensorflow声纹识别说话人识别

    # 前言 本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目.不同的是 ...

  3. 说话人识别/声纹识别学习路径的资料整理,从零学声纹识别

    这是2年前我的总结,有点与最新方法和方向脱轨, 这两年内声纹识别/说话人识别已经又有很多新的方法出现, 等我看看论文和一些实验, 后面更新一波声纹识别的东西 ===================== ...

  4. 一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony

    前言:声纹识别是AI领域中一个看似很小.但其实有机会在近期落地,且比较有意思的细分方向:本文作者是"AI产品经理大本营"团员@cony  ,她总结了AI产品经理"最必要& ...

  5. 深度学习声纹识别_kaldi/语音识别ASR/声纹识别SRE/资源汇总

    化 按时间顺序降序排列,最新内容在最上面 最下方有一些我通过各方渠道偶然得知的技术交流qq群,感兴趣可以加入 刘斌总结的学习资源,中科院自动化所博士生,研究方向为鲁棒性声学建模. [语音识别]从入门到 ...

  6. python声纹识别_【kaldi学习.4】Aishell V1(说话人识别、声纹识别)中的run.sh详解...

    下面打算用aishell来做声纹识别,在做声纹识别之前,肯定是要对run.sh这个文件做个深入的了解,才可以继续往下走,接下来会记录如何修改run.sh去运行自己的数据,而不是手动输入自己的数据... ...

  7. 声纹识别(说话人识别)技术

    说话人识别(Speaker Recognition,SR),又称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声音来识别出来"谁在说话",是根据 ...

  8. 使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。

    介绍 本文介绍一种使用tensorflow框架和densenet神经网路实现声纹语谱图识别算法,即说话人识别.本文侧重一种解决方案的思路,仅做了小批量数据的简单验证,收敛效果良好,还没有做大量数据集的 ...

  9. 说话人识别(声纹识别)综述

    目录 声纹识别背景介绍 声纹识别组成 数据 特征 模型 评价指标 声纹识别目前的挑战 参考文献 声纹识别背景介绍 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.在现实生活中声纹识别的 ...

最新文章

  1. python模块datetime将字符串转换为日期
  2. K155ID1辉光管驱动芯片功能测试
  3. nacos如何做注册中心?服务注册之后自带负载均衡,这一篇文章就够了!
  4. 2018上IEC计算机高级语言(C)作业 第2次作业
  5. Spring JPA数据+Hibernate+ MySQL + Maven
  6. python 5的倍数_查找所有低于1000的数字的和,这是Python中3或5的倍数
  7. java栈最小值的实现,关于java:算法图解如何找出栈中的最小值
  8. Mybatis原理解析(四)--查询流程
  9. Consul注册中心删除某个服务
  10. JAVA计算机毕业设计大学生旅游拼团网站Mybatis+源码+数据库+lw文档+系统+调试部署
  11. C#随机生成姓名、电话类
  12. 传感器课程实验:Pt100 铂电阻测温特性实验
  13. 柯尼卡美能达C364e安装步骤(全)-柯美复印机如何装机-柯美C364e驱动安装-柯美复印机安装扫描
  14. vb.net 教程 3-4 窗体编程 公共控件2 radiobutton ComboBox
  15. 微信更新,重点关注!
  16. 【Android从零单排系列一】《Android系统发展史》
  17. Python图像增强
  18. Hbase数据库中表的操作命令简介 Hbase shell命令
  19. 是时候来了解android7了:shortcuts(快捷方式)
  20. 第六章、支付结算业务的核算

热门文章

  1. 前端微信小程序电影类仿淘票票微信小程序
  2. 三相SVPWM逆变器MATLAB仿真实验,三相SVPWM逆变电路MATLAB仿真.doc
  3. 从浏览器中打开我们的应用
  4. 服务器被DDoS攻击,怎么破?
  5. 商家招牌的分类与检测
  6. vue打包app网络错误和空白页问题
  7. Dev c++ 怎么设置背景色
  8. Python基础知识——变量与运算符
  9. 2023年基建工程(设计规划施工)经验分享,超多干货
  10. 用 PHP-GTK2 做 Win32 GUI 程序