声纹识别概述(2)声纹识别原理和过程
文章目录
- 宏观理解
- 技术细节
- 声纹识别发展流程
- 传统方法
- 深度学习的方法
多看:声纹识别技术简介——化繁为简的艺术,深入浅出了解声纹识别。
宏观理解
1、困难在哪?
不同的人说话语音波形不同,但是相同的人用不同的语调或者在不同的身体状态下说话其语音波形也不同,还有相同的人说不同的内容波形也不同…那要如何区分出是两个不同人的语音?
2、为什么可识别?
语音具备了一个良好的性质,称为短时平稳,在一个20-50毫秒的范围内,语音近似可以看作是良好的周期信号
3、最重要的特征?
在音调,响度和音色这三个声音(注意,这里我用了声音,而不是语音)的基本属性中,音色是最能反映一个人身份信息的属性。
待看:声纹识别,了解具体算法的演变。
技术细节
如何理解PLDA(概率线性判别分析,Probabilistic Linear Discriminant Analysis)
:
声纹识别之PLDA
声纹识别发展流程
说话人识别的大致发展流程:
GMM | GMM-UBM | JFA | i-vector | i-vector + PLDA | deep learning
(已逐渐成为主流)
按照说话人识别的大致流程做一个简要的梳理,大方向上可以分为传统的方法和深度学习的方法。
传统方法
GMM:收集每个人较多的声学特征,分别训练 GMM 模型。识别时,使用每一个GMM 模型计算测试音频的似然,将似然值最高的 GMM 模型所对应的来源说话人作为识别结果。
GMM 说话人识别的缺点:需要收集每个人的声纹特征,而且需要较多的数据,而实际应用中目标说话人大多只有少数几句语音。因此,有了下面的改进。
↓
- GMM-UBM:将很多说话人的语料放在一起训练一个 GMM 模型(Universal Background Model,UBM模型)。用每个目标说话人的数据对 UBM 模型做自适应,自适应方法通常是最大后验概率(Maximum a Posterior - MAP)方法。自适应之后就相当于获得了每个说话人的 GMM 模型,然后比较待测语音的似然值即可。
↓
JFA:2005年被提出来的联合因子分析法(Joint Factor Analysis,JFA)方法,将说话人GMM均值高斯超向量所在的空间进行了分解,分解为本征空间、信道空间和残差空间。联合因子分析的思路就是抽取和说话人有关的特征而去掉和信道相关的特征。
JFA的优势:把高维说话人特征用低维坐标表示。
JFA的前提假设:说话人特征空间和信道空间独立假设。也就是同一说话人不管如何采集语音,采集多少语音,在说话人特征空间上的参数映射都应该是相同的,而最终的GMM模型参数之所以有差别,都是因为信道空间的不同导致的,但是这种假设在现实中是不存在的。因此后续有提出了更为宽松的假设。
↓
i-vector:用超向量子空间同时描述说话人信息和信道信息,既模拟说话人差异性又模拟信道差异性的空间称为全因子空间(Total Factor Matrix),每段语音在这个空间上的映射坐标称为身份向量(Identity Vector, i-vector)
i-vector 的前提假设:(相对JFA更为宽松的假设)既然声纹信息和信道信息不能完全独立,那就用超向量子空间同时描述说话人信息和信道信息。此时,同一说话人如何采集语音,以及采集多少语音,在这个子空间上的映射坐标都会有所不同,这和实际情况相符。
i-vector 的改进:后续对i-vector进行了许多改进,包括线性区分分析(Linear Discriminate Analysis, LDA),基于概率的线性预测区分分析(Probabilistic Linear Discriminant Analysis, PLDA)甚至度量学习(Metric Learning)等。
i-vector 的特点:同JFA一样,把高维说话人特征用低维坐标表示,性能比 UBM-GMM方法的性能有了显著提升,成为了主流的说话人方法。i-vector在文本无关的声纹识别上表现优异,但在文本有关的识别上不如GMM-UBM,因为其舍弃了太多东西,包括文本差异性。
↓
- i-vector + PLDA
↓
深度学习的方法
参考:
- 《Kaldi语音识别实战》
- 声纹识别
声纹识别概述(2)声纹识别原理和过程相关推荐
- 声纹识别概述(1)初识
声纹识别 1. 声纹概念 2. 声纹识别的分类 3. 声纹识别的原理 4. 声纹识别的关键 特征提取 模式识别 5. 声纹识别的技术指标 6. 影响声纹识别水平的因素 初识声纹 1. 声纹概念 声波频 ...
- python库声纹_什么是声纹数据库?
声纹数据库系统,也称声纹库,是一款对声纹数据进行储存.管理和应用的数据管理系统.在声纹技术的应用中,要实现声纹比对,就需要有参照声纹,用采集到的未知声音与声纹库中的巨量声纹进行比对,从而确定未知声音的 ...
- 计算机如何识别指纹和掌纹?
计算机是如何进行指纹和掌纹识别的?为什么指纹识别有时候会失败?手机上的指纹识别与公安用的指纹识别有什么区别?1比1和1比N的指纹识别有什么区别?掌纹能用于身份识别吗? 这是2019年8月在果壳网的一次 ...
- 什么是声纹采集?标准声纹采集设备有什么作用?派出所采集声纹有什么意义?
一.什么是声纹识别? 声纹识别,也叫做说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,来识别语音说话者身份的技术.由于每个人的发声器官(舌.牙齿.喉头.肺.鼻腔)在尺寸和形态方面不尽 ...
- 多元经验模态分解_环境激励桥梁模态参数识别—环境激励模态参数识别概述
环境激励模态参数识别概述 1 结构模态参数识别 结构模态参数识别属于动力学的反问题,是利用外部激励和系统的响应求解系统的参数问题;这一过程亦称为模态分析(Modal Analysis).模态分析又分为 ...
- 【AI技术】物体识别概述1
[AI技术]物体识别概述1 1.背景 2.物体识别 3.应用 1.背景 主要针对客户以及初学者概述物体识别. 2.物体识别 物体识别又叫目标识别,物体分类,图像分类,习惯性称为图像分类,即对整张图片进 ...
- 智能门锁:指纹识别概述
每个人的皮肤纹路在图案.断点.交叉点上各不相同,指纹识别技术依靠皮肤纹路的唯一性.稳定性,把个体身份同指纹对应起来,通过与预存指纹对比进行身份识别.在实现方式上,指纹识别技术主要分为:电容式.光学式. ...
- ReID:无监督及领域自适应的目标重识别概述
无监督(unsupervised)及领域自适应(domain adaptive)的目标重识别是目标重识别领域中两个重要的研究方向,同时二者又关系密切.本文中部分配图和内容参考葛艺潇:无监督及领域自适应 ...
- 人脸识别(5)---人脸识别技术及应用概览
人脸识别技术及应用概览 科技的发展正在加速改变我们的生活.以前,我们购物埋单时,收银员会问"现金还是刷卡",现在,这句话则变成了"微信还是支付宝?"以前,我们上 ...
最新文章
- python动态规划详解_经典动态规划例题整理(Python版)
- 如何通过深度学习,完成计算机视觉中的所有工作?
- 蚂蚁金服面试经历-临场发挥
- Ubuntu1404 开启定时任务 crontab
- iextensionunit类_Java ICompilationUnit.reconcile方法代码示例
- 【从入门到放弃-Java】并发编程-锁-synchronized
- 缓存淘汰策略—LRU算法(java代码实现)
- linux dup跨进程使用,linuxC多进程通讯---无名管道dup
- 学计算机不会重装系统正常吗,系统重装不了的原因是什么 重装不了系统的解决方法【图文】...
- 怎样解决jsp:include标签在包括html文件时遇到的乱码问题
- Oracle定时器执行多线程
- PCB覆铜利弊——天线角度
- ABBYY软件的OCR文字识别工具有什么用
- python《pandas入门》实现Excel数据字段的拆分
- 为什么要用VR全景?5个答案告诉你
- 红帽 Linux 考试 要求
- 多元函数式子两端微分
- unity 开发EasyAR发布IOS和安卓坑记录
- Mac OS命令行清洗硬盘空间
- Java基础之《JVM性能调优(3)—堆》