一种基于说话人识别和数字语音识别的身份认证方法与流程

本发明属于语音处理技术领域，具体涉及到对数字语音序列进行说话人识别和语音识别，确定说话人身份的身份认证方法。

背景技术：

说话人识别也称为声纹识别，可以从说话人发出的声音中提取其个性特征，从而识别出当前说话人的身份。与其他生物识别技术相比，说话人识别具有一些特别的优点，比如声音获取的成本较低，用户心理上容易接受，算法负责度低，适合远程操作等。但是，人的发音容易受身体状况、情绪和外部环境的影响，因此每个人的声纹特征只具有相对稳定性，不是恒定不变的，这就给声纹识别带来不利影响。

传统的说话人识别一般是与文本无关(Text-Independent)的技术，它不限制说话人的发音内容，用户使用更加方便。但是它对发音的长度有较高的要求，通常发音长度需要达到30秒以上，才能取得令人满意的识别率，过长的发音要求降低了识别过程中用户的体验感。另一方面，在模型训练阶段，需要为每个说话人收集足够多的发音样本，用它们训练生成每个人的声学模型，这给系统管理员和用户都带来了巨大的工作量。

技术实现要素：

发明目的：针对现有技术中存在的问题，本发明提供了一种基于说话人识别和数字语音识别的身份认证方法。

技术方案：一种基于说话人识别和数字语音识别的身份认证方法，对十个汉语数字语音(0～9)组成的数字语音序列同时进行说话人识别和语音识别，以确定说话人的身份；用每个数字的声学模型对测试语音特征向量进行语音识别，得到文本序列；用每个人的声学模型和已识别的文本序列对测试语音特征向量进行说话人识别，得到说话人信息，并结合文本信息进行身份认证，得到认证结果。

本发明的具体步骤如下：

(1)在训练阶段，首先为每个说话人配置每个数字发音的多个发音样本(每个说话人对每个数字发音30次)；

(2)然后，用每个人的训练语音(发音样本)训练生成用于说话人识别的高斯混合模型(GMM：Gaussian Mixture Model)，用每个数字的全部训练语音训练生成用于语音识别的隐马尔可夫模型(HMM：Hidden Markov Model)；

(3)最后，为身份认证配置若干个涉及数字的问题，如“你的出生年月日？”，“你的身份证号码？”，“你的工号”以及简单的数学运算题；

(4)在测试阶段，首先从预设的问题中随机挑选一个问题，向测试者提出问题；

(5)其次，读取测试者回答的问题，提取其测试语音特征向量，并用HMM对测试语音特征向量进行语音识别，得到文本序列；

(6)再次，用GMM和已识别的文本序列对测试语音特征向量进行与文本相关(Text-Dependent)的说话人识别，得到当前发音的说话人信息；

(7)然后，根据识别的说话人信息读取问题的答案，与文本序列进行匹配，核对当前说话人回答的问题是否正确；

(8)最后，根据文本匹配的结果和已识别的说话人信息，进行身份认证，只有在文本匹配通过的前提下，才能将当前说话人判定为系统中的某一用户。

本发明采用上述技术方案，具有以下有益效果：

本发明将语音识别的结果用于与文本相关的说话人识别，减小了说话人识别的发音长度要求；根据说话人识别的结果读取问题的答案，检查测试者回答的问题是否正确，提高了身份认证的可靠性。数字语音系统所占的资源少，运算量小，易于实现，可以在识别性能和运算复杂度之间取得较好地平衡。

附图说明

图1为本发明实施例的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于说话人识别和数字语音识别的身份认证方法，主要包括特征提取、模型训练、语音识别、说话人识别、文本匹配和身份认证部分。

1、特征提取

为每个说话人配置数字发音样本，每个说话人对每个数字发音30次，形成每个人和每个数字的训练语音；对加窗、分帧后的训练语音或测试语音进行快速傅里叶变换，得到每帧信号的幅度谱；然后，对每帧信号的幅度谱进行Mel滤波，取对数，离散余弦变换，得到倒谱特征向量，用于训练生成GMM和HMM。在进行GMM训练和说话人识别时，特征参数还包括基音周期。

2、模型训练

在训练阶段，用每个人的训练语音训练生成用于说话人识别的GMM，用每个数字的全部训练语音训练生成用于语音识别的HMM。

3、语音识别

首先将测试语音切分为字音序列；然后用HMM对每个字音进行语音识别，得到文本序列。由于测试者回答的语音中可能包含非数字发音，比如“年”和“月”，所以要对HMM的输出概率设置阈值。对输出概率的最大值低于阈值的字音，将其判断为非数字语音，输出的文本序列不包含其信息。此外，语音识别还对前后字音之间的连贯性进行检查，以防止用预先录制好的数字发音拼接生成答案。只要连贯性检查不通过，就直接将当前测试者判断为非系统用户。

4、说话人识别

首先根据语音识别部分输出的文本序列信息，将非数字发音从测试语音特征向量中删除；然后，用GMM和文本序列对测试语音特征向量进行与文本相关的说话人识别，得到当前发音的说话人信息。在说话人识别中，同样要设置阈值。若测试语音的输出概率的最大值低于阈值，则将当前测试者判断为非系统用户。

5、文本匹配

得到当前发音的说话人信息后，即可读取问题的正确答案，将其与语音识别模块输出的文本序列进行文本匹配，判断测试者回答的问题是否正确。

6、身份认证

身份认证的原则有三个：①若当前测试语音没有通过连贯性检查，则说明它是通过预先录制好的数字录音拼接而成的，将当前测试者判断为非法用户；②若当前测试语音的文本匹配未通过，即测试者回答的问题不正确，则将当前测试者判断为非法用户；③只有当前测试语音同时通过连贯性检查和文本匹配，才根据说话人识别的结果将测试者判断为系统中的某个合法用户或非系统用户。

一种基于说话人识别和数字语音识别的身份认证方法与流程相关推荐

matlab血糖预测,一种基于VMD-PACF-BP模型的动态血糖在线预测方法与流程
本发明属于血糖预测技术领域,尤其涉及一种基于VMD-PACF-BP模型的动态血糖在线预测方法. 背景技术: 目前,中国患有糖尿病人数已成为在世界上拥有糖尿病患者最多的国家.为了降低糖尿病患者长期处于高 ...
一种基于地图导航的语音识别管理系统的制作方法
本发明涉及语音识别技术领域,具体为一种基于地图导航的语音识别管理系统. 背景技术: 随着GPS技术的不断发展,给人们的出行带来了很大的便利,人们可以根据GPS导航到达指定的地方. 现有的在对地图资源的 ...
catia制作物料明细_一种基于CATIA的国标标准物料清单的生成方法与流程
本发明涉及一种物料清单的生成方法,尤其涉及一种基于CATIA的国标标准物料清单的生成方法. 背景技术: 众所周知,CATIA是法国达索公司的产品开发旗舰解决方案.作为PLM协同解决方案的一个重要组成部 ...
matlab识别中国象棋棋盘,一种基于图像处理的中国象棋识别系统及方法与流程
本发明涉及计算机图像识别技术,具体涉及一种基于图像处理的中国象棋识别系统及方法. 背景技术: 数字图像处理技术在机器感知领域应用十分广泛,主要目标是通过一些图像处理技术从图像中提取信息,该信息类似于人 ...
grub2引导linux内核,一种基于grub2的linux系统启动bootloader的制作方法与流程
技术领域本发明涉及服务器应用技术领域,具体涉及一种基于grub2的linux系统启动bootloader的制作方法. 背景技术: 当前linux系统的内核版本已经升级至4.0以上,最新的linux系 ...
极坐标梯度公式_一种基于极坐标系梯度变化的类圆环边缘检测方法与流程
本发明涉及图形处理技术领域,具体地说是一种基于极坐标系梯度变化的类圆环边缘检测方法. 背景技术: 边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点.图像属性中 ...
matlab 零速检测,一种基于车辆零速检测的惯性导航误差修正方法与流程
本发明涉及车载导航与定位领域,尤其是涉及一种基于车辆零速检测的惯性导航误差修正方法. 背景技术: 惯性导航系统(inertialnavigationsystem,ins)能根据惯性传感器(陀螺仪.加速 ...
matlab模式识别提取特征向量,一种基于小波特征向量提取的手机检测方法与流程...
本发明涉及到手机检测领域,尤其涉及到一种基于小波特征向量提取的手机检测方法. 背景技术: 随着保密要求的不断提高,很多场合严禁携带手机.录音笔.录像机等电子产品,亟需一种设备可以检测出该类电子产品.目 ...
区块链相关数据报表_一种基于区块链的财务报表系统及其使用方法与流程
本发明涉及区块链领域,尤其是一种基于区块链的财务报表系统及其使用方法. 背景技术: 随着社会的发展,公司的成立数量越来越多,而公司的财务报表是一个公司的关键资料,这就要求资料数据的绝对安全防止他人的恶 ...

一种基于说话人识别和数字语音识别的身份认证方法与流程

一种基于说话人识别和数字语音识别的身份认证方法与流程相关推荐

最新文章

热门文章