声纹识别的模式识别方法
声纹识别的模式识别方法
2011/01/05
对于模式识别,有以下几大类方法:
模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。
对说话人确认,还面临一个两难选择问题。通常,表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关。在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。
CTI论坛报道
相关阅读:相关频道: 声纹识别
声纹识别的模式识别方法相关推荐
- 声纹识别(说话人识别)技术
说话人识别(Speaker Recognition,SR),又称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声音来识别出来"谁在说话",是根据 ...
- 干货:NIST评测(SRE19)获胜团队声纹识别技术分析 | CSDN博文精选
作者 | xjdier 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE) ...
- 深度学习声纹识别_声纹识别:你的声音是这样被“破译”的!
节目中的比赛规则是这样的:从21位性别相同.年龄相仿.声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和人类选手,要求他们从合唱声音中识别出三名线人的声音.( ...
- [深度学习概念]·声纹识别技术简介
声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映 ...
- 声纹识别概述(1)初识
声纹识别 1. 声纹概念 2. 声纹识别的分类 3. 声纹识别的原理 4. 声纹识别的关键 特征提取 模式识别 5. 声纹识别的技术指标 6. 影响声纹识别水平的因素 初识声纹 1. 声纹概念 声波频 ...
- 声纹识别与声源定位(一)
针对目前智能计算机及大规模数据的发展,依据大脑处理语音.图像数据方法的deep learning技术应运而生.deep learning技术是应用于音频信号识别,模仿大脑的语音信号学习.识别的模式.在 ...
- 声纹识别技术助力远程身份认证
作者简介: 李通旭,清华大学博士后,主要从事说话人识别方向的研究.现于清华大学与得意音通声纹识别联合实验室. 刘乐,得意音通研发部经理,主攻声纹识别及语音识别算法研究.有丰富的模式识别算法研发和工程实 ...
- 一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony
前言:声纹识别是AI领域中一个看似很小.但其实有机会在近期落地,且比较有意思的细分方向:本文作者是"AI产品经理大本营"团员@cony ,她总结了AI产品经理"最必要& ...
- AI领域「听风者」:声纹识别5大核心知识点!
https://www.toutiao.com/a6691897670778225160/ 在移动互联网大行其道的时代,人们不用出门不用见面就可以完成很多事情,比如购物.生活缴费.投资理财等,在享受着 ...
最新文章
- 关于拆分活动页为独立仓库的一点思考
- tp5查询字段相加_tp5 sum某个字段相加得到总数的例子
- 使用Oauth2实现微服务的安全保护
- unity3d 截屏
- 编程大师论道:PHP的魅力和不足何
- read接收不全linux,linux下串口读写有关问题 read 一次读不全(5)
- TodoMVC中的Backbone+MarionetteJS+RequireJS例子源码分析之三 Views
- C++入门复习指南,C++Primer读书笔记
- 【论文分享】ACL 2020 图神经网络在自然语言处理中的应用
- brew的安装以及使用
- dw01均衡电路_基于DW01芯片的锂电池保护电路设计
- 第四次实验任务 任务一
- python为什么是蛇的天敌_蛇的天敌是什么?蛇獴对所有蛇毒免疫(成蛇类死对头)
- 图像分割-连通区域分析
- 华为服务器批量BMC修改密码,华为服务器批量修改bmc地址
- ftp 工具 绿色,四款将会让你爱不释手的绿色 ftp 工具
- 从趋势、风格和文案三方面,分析短视频封面这样设计更吸引人。
- 实体对齐 算法_[2017]Bootstrapping Entity Alignment with Knowledge Graph Embedding
- Spark学习-DAY4
- AUC的置信区间和两个AUC的差异性比较
热门文章
- ACdream区域赛指导赛之手速赛系列(7)
- C语言学习笔记--函数
- iOS开发 -------- Block技术中的weak - strong
- UVA1226 LA3997 Numerical surprises【大数】
- CCF NOI1017 价格查询
- C++实现的大整数分解Pollard's rho算法程序
- 动态更新 HTML 内容 —— AJAX
- Java 内存管理、JVM 工作原理与 Java 运行时系统
- matplotlib 可视化 —— 移动坐标轴(中心位置)
- matplotlib 可视化 —— 定制画布风格 Customizing plots with style sheets(plt.style)