​一、基本概念

声纹识别也称为说话人识别,是指根据说话人语音中个性化的特征自动识别说话人身份的一种生物识别技术。说话人的声音特征不仅与其肺部、气管、喉部、声带、咽部、鼻腔、口腔、唇部等人体发声器官相关,并且受方言、土语、抑扬顿挫以及口头禅等发声习惯影响。人体之间发声器官以及发声习惯的差异性都以复杂的形式体现在说话人的语音信号中,这就使得说话人的语音具备了个性化的特征,为声纹识别技术提供了基本条件。

​        声纹识别从应用场景上可以分为说话人确认与说话人辨认两个大类。说话人确认是指将声纹识别技术应用于确认某段语音是否为指定人所发出的,属于一对一的判断关系。而说话人辨认则是指将声纹识别技术应用于判断某段语音是若干人中的哪一个人所发出的,是多对一的选择关系。其中,说话人辨认问题又可以分为“开集”与“闭集”两种,开集问题中待识别语音可以来自于未经注册的说话人,闭集问题中待识别语音一定来自于某个已经注册的说话人。

​        从技术角度考虑同样地可以将其分为三类,分别是与文本相关的声纹识别系统、与文本无关的声纹识别系统以及文本提示型的声纹识别系统。其中与文本相关的声纹识别系统需要用户首先按照规定的内容进行发音并建立精确的语音模型,然后在识别的过程中同样也需要用户严格按照规定的内容进行发音,这种方法可以得到较好的识别效果,但却需要用户的主动配合,如果用户未按照指定内容进行发音将导致说话人身份识别失败。与文本无关的说话人识别系统在训练以及注册阶段均不需要用户按照指定的内容进行发音,可以是任意的语音信号。对两者进行比较可以发现,与文本无关的声纹识别系统的实现过程要更加困难,由于其使用环境的不确定性,因此必须在任意的语音信号中均可以找到能够表征说话人声音中个性化特点的特征,这也就导致了与文本无关的声纹识别系统建模困难程度较大,识别准确率也相对较低。但是,与文本无关的声纹识别系统有着应用过程中灵活方便、适用范围广等优点,因此有必要就如何提升其识别准确率的问题进行进一步研究。在上述的两种声纹识别系统中都存在着一定的安全隐患,如不法分子利用录音设备事先将说话人的语音内容记录下来,然后冒充说话人进行声纹识别极有可能会出现声纹识别系统误判的情况。而文本提示型的说话人识别系统则可以较好地解决上述的问题,通过对声音进行语音识别检测其是否与随机文本提示内容相匹配,同时进行声纹识别检测其是否是特定的说话人,该方法可以有效地避免因声音被非法采集而导致的安全问题。与文本相关、与文本无关以及文本提示型三种声纹识别系统各有优缺点,在实际应用中应结合具体的应用场景进行合理选择。

二、声纹识别基本框架

一个完整的声纹识别系统一般可以分为三个阶段,分别为训练阶段、注册阶段以及测试阶段。在训练阶段,首先对训练集中的语音数据进行声纹特征提取,然后以声纹特征作为训练数据,进行训练后便可得到对应的声纹识别模型。在注册阶段,首先对注册人的语音进行声纹特征提取,然后将其输入训练好的声纹识别模型得到注册语音的深度说话人嵌入,即注册向量。在识别阶段,首先对待识别语音进行声纹特征提取,然后同样代入模型进行计算得到测试语音的深度说话人嵌入,最后将其与若干说话人的注册向量进行相似度比较,并以此做出最终决策。一个完整的声纹识别系统可以分解为以下几个基本问题:

(1) 语音信号的预处理与声纹特征提取,即提取能够表征说话人语音特征的参数。

(2) 声纹识别模型的训练。

(3) 获取说话人的注册向量。

(4) 采用某种相似性度量方法进行匹配计算,并以此做出最终判断。

声纹识别(一)——简介相关推荐

  1. [深度学习概念]·声纹识别技术简介

    声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映 ...

  2. 声纹识别(说话人识别)技术

    说话人识别(Speaker Recognition,SR),又称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声音来识别出来"谁在说话",是根据 ...

  3. 声纹识别概述(2)声纹识别原理和过程

    文章目录 宏观理解 技术细节 声纹识别发展流程 传统方法 深度学习的方法 多看:声纹识别技术简介--化繁为简的艺术,深入浅出了解声纹识别. 宏观理解 1.困难在哪? 不同的人说话语音波形不同,但是相同 ...

  4. 一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony

    前言:声纹识别是AI领域中一个看似很小.但其实有机会在近期落地,且比较有意思的细分方向:本文作者是"AI产品经理大本营"团员@cony  ,她总结了AI产品经理"最必要& ...

  5. 基于matlab的声纹识别技术(matlabR2021b版)

    文章目录 宏观理解 技术细节 声纹识别发展流程 传统方法 深度学习的方法 多看:声纹识别技术简介--化繁为简的艺术,深入浅出了解声纹识别. 宏观理解 1.困难在哪? 不同的人说话语音波形不同,但是相同 ...

  6. 声纹识别常用数据集简介

    TIMIT aidatatang_1,505zh 数据介绍: [1,505小时 中文普通话语音数据集]数据时长1505小时,是数据堂中文普通话语音数据库中的一部分.采集区域覆盖全国34个省级行政区域, ...

  7. 声纹识别之GMM-UBM系统框架简介

    在深度学习的路上,从头开始了解一下各项技术.本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流. 本文参考:https://blog.csdn.net/twinkle_star1314/ar ...

  8. 声纹识别demo_声纹识别 iOS SDK 文档

    # 声纹识别 iOS SDK 文档 # 1.简介 声纹识别(Voiceprint Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术.MSC SDK 声纹识别( ...

  9. 同盾科技声纹识别建模大赛

    赛事简介 本次"同盾科技声纹识别建模大赛"立足于选拔出色AI人才,致力于打造"智能风控",为高潜力人才与高增长行业建立起精准对接的桥梁.此次同盾联合科赛.希尔贝 ...

最新文章

  1. ELK性能优化实战分析
  2. SIFT原理与源码分析
  3. [HNOI2011]XOR和路径
  4. SpringCloud学习笔记023---SpringBoot集成Dubbo_依赖zookeeper实现分布式应用一致性以及远程服务调用
  5. php表格列宽拖拽,JavaScript_JQuery拖动表头边框线调整表格列宽效果代码,类似于桌面程序中的表格拖动 - phpStudy...
  6. 华为手机鸿蒙系统官方下载入口,华为鸿蒙系统官方下载入口
  7. forEach终止循环
  8. 前言-《揭示Kali Linux 》翻译连载02
  9. CubieBoard2串口
  10. 2020年软文对于一个企业网站的重要性
  11. scala学习之旅(十三):隐式转换和隐式参数
  12. RabbitMQ入门中篇
  13. 百度旋转验证码(8-24,js逆向)
  14. Cisco配置发送日志到日志服务器
  15. 验证输入是否为正确的组织机构代码
  16. 转载 冯羽的程序生涯之我见
  17. 自如上线分期支付,租金贷发展受限后充分利用流量变现
  18. Xilinx Srio详解IP核使用
  19. idea设置代码注释
  20. iSecure Center(V1.1.0)平台使用记录

热门文章

  1. threejs使用tweenjs实现点击标签过渡到相应视角
  2. 麒麟操作系统新硬盘创建 LVM 硬盘管理
  3. ONF执行主席Dan Pitt:2014至2016 SDN 的市场化之路
  4. 创新之道,亚马逊创新之旅背后的故事
  5. 以flv.js框架为基础,替换flv格式视频
  6. 吃字母------线程同步与互斥的学习
  7. 德鲁克日志读后感之五十三
  8. 关于大学,关于游戏和游戏开发
  9. GLSL里的矩阵对向量的乘法与OpenGL里用数组生成矩阵进行向量乘法的非直觉不一致
  10. 遇见OFFER,阿里云最强技术团队现身招聘,“职”为你来