摘要:文章阐述了一种改进的基于自适应模型的语音识别方法。概括归纳了实现这种方法的三大模块:语音数据采集模块,基于自适应模型的语音识别模块和体现应用的结果显示模块。

关键词:计算机仿真;语音识别;算法

引言

当下对于语音识别技术的研究处于初期阶段,但现在市面上出现的大量语音识别的产品例如DragonDictation,Siri等表明语音识别技术还拥有巨大的发展与应用空间。

1提出背景

目前大多数的语音识别设备在算法上都是基于传统的GMM方式,传统的GMM方式的核心思想是利用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分布状况。传统的GMM方法需要先计算所有说话人模型的识别概率p,然后取识别概率最大的说话人模型作为识别结果。而人类在进行说话人识别时,是一边听取语音,一边做出判断,同时排除掉绝对不可能的说话人,在若干相似说话人之间选择,当有很大的把握性时,做出最终判定。这不同于目前的机器识别方法,总是取固定时长的语音数据,且对所有的说话人均同等对待。传统的GMM模型在说话人集合很大时需要大量的数据收集和较长的处理时间,会影响到分辨说话人身份的准确性。所以我们需要一种更加高效,高可靠性的方式来改进当前主流的语音识别算法,更好的服务于当前信息化社会。

2自适应模型

自适应[1]是指处理和分析过程中,根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果。在特征提取阶段,根据不同的说话人,选取不同长度的语音提取特征,对于易于区分的说话人,只选取少量语音就可以正确识别,对于难于区分的说话人,提取大量语音进行识别,从而在整体上减少了提取特征的时间;在识别阶段,只选取少量语音进行总体说话人识别模型的识别概率计算,而选取较多的语音,对前期选取的识别概率较高的说话人模型计算识别概率,从而一方面保证不降低识别率,一方面大幅度减少识别时间。

3研究目标及主要内容

3.1研究目标。我们研究的主要目标是通过MATLAB模型仿真功能,实现基于自适应的语音识别技术来确定说话人身份。在收集到语音信号的后,完成对信号的处理,主要是基于MFCC的特征提取实现语音库的搭建,之后使用自适应的语音识别技术,将原先采集到的信息和后续说话人所说的语音在自适应的模型下进行比对,来确定说话人是否为本人,并且借助外围设别对结果进行显示,最终实现一个输入-处理--输出的语音识别平台搭建。

3.2研究内容。以MATLAB软件为主要工具,配合外围所搭建的输入设备,显示设备完成一个可以应用的说话人身份识别系统的搭建。(1)深入研究语音信号的采集方式,能够将通过外围设备将采集到的语音信号进行处理,并在MATLAB中实现编程,为后续的语音识别提供素材。(2)通过研究自适应模型的原理,设计基于其原理的算法,将(1)中经过处理后的语音信号与应用时输入的语音信号进行识别,通过MATLAB完成计算,这一步是整个研究中最重要的部分,运算完成将给出处理结果。(3)搭建外围显示设备,我们将MATLAB和单片机进行通信,MATLAB将识别结果传输给单片机,我们通过单片机来提供一个显示说话人身份识别信息并与用户交互的平台。

4技术路线

4.1语音数据采集模块。目前所有的语音识别方式都需要一个语音库来进行匹配。基于自适应的语音识别也要在语音库的搭建上进行如下操作。4.1.1采集说话人语音。使用录音笔在消音室中采集到说话人的声音,我们会将模拟信号转成数字信号,并且进行处理。为了得到高质量的声音信号,确保语音库的精确性,我们选择在消音室完成声音采集工作。4.1.2特征提取及语音库搭建。模拟信号进行A/D转换后,我们要对数字信号进行处理,这里我们使用MFCC这种主流的语音信号特征提取方式来进行提取。MFCC[2]是基于了Mel频率的倒谱系数,我们输入样本音频,对样本音频预加重,分帧,加窗,再做傅里叶变换,进行Mel频率滤波,进行Log对数能量提取等操作从而完成采集的语音的特征提取。这一步的核心还是将采集到的模拟信号按照A/D转换使其成为可以通过MATLAB调用的数据。

4.2基于自适应模型的语音识别模块设计。这个模块是我们的研究最核心的部分,我们基于这个模型来实现主要功能。4.2.1当说话人为陌生人,先排除。传统的语音识别主要是将采集到的信号和原来收集的所有信号进行比对从而确定说话人身份,但这样做有时会浪费时间,也可能出现误差。而自适应模型首先去做的就是特征抽取,将已经采集到的语音数据进行处理,寻找到他们的共同特征,当需要识别的信号不符合这种特性的时候,我们首先要将其排除,这样,在排除陌生人说话时会更加简便。在我们对说话人识别前先把陌生人给排除,在说话者不是陌生人的情况下,我们会减少很多干扰因素,能够节约识别时间,提高识别精度。4.2.2当说话人已经在语音库中,确定其身份。我们的算法主要是研究的对象是已经将语音信息导入到语音库中的人群,这里我们要用到SVM[3]技术,SVM是一个可以把低维下线性不可分的问题变成一个高维线性可分问题的技术。在我们自适应语音识别说话人身份时,我们需要对收集到的语音数据进行分类。例如我们收集到1000组语音,按照收集到的语音特征分成250组,每组4个人。当说话人开始识别,我们先去找到这个说话人属于哪个组,然后在这个4人小组里面在进行区分,这样,我们把原先需要一一匹配的说话人识别仅仅需要几步就可以实现。

4.3体现应用的结果显示模块。使用一块单片机与一块显示屏,通过Matlab中的设备控制箱将识别结果传送到单片机,单片机依据识别结果在显示屏进行显示。

5结语

和当前主流的传统高斯混合模型相比,我们设计出的基于自适应的模型结构,可以很大程度上减少在声音识别前所需要收集的数据量,节约空间,同时由于自适应算法的优越性我们也能够在提高语音识别的可靠性,很大程度上减少在识别过程中由于外部因素所造成的误差。

引用:

[1]丁博,王怀民,史殿习.构造具备自适应能力的软件[J].软件学报.2013(07)

[2]李泽,崔宣,马雨廷等.MFCC和LPCC特征参数在说话人识别中的研究[J].河南工程学院学报.2010(06).

[3]李书玲,刘蓉,张鎏钦等.基于改进型SVM算法的语音情感识别[J].计算机应用.2013(07).

作者:申子健 陈爱月 徐波 单位:南京邮电大学通信与信息工程学院

解除应用计算机仿真,语音识别中计算机仿真的应用相关推荐

  1. 播音计算机论文,广播中计算机的应用论文

    广播中计算机的应用论文 引言 随着社会的发展,人们的物质生活水平也在提高.而在这种发展趋势下,人们对精神生活水平也提出了新的要求.面对这些要求,传统的广播电视技术的应用已经无法满足广播事业的发展需要. ...

  2. 双击桌面上的计算机图标 不属于计算机,在Windows中“计算机”图标()。

    相关题目与解析 在Windows中"计算机"图标(). Windows中的"计算机"图标(). 下列操作中,不能打开"计算机"窗口的是()A ...

  3. 煤矿用计算机,煤矿安全生产中计算机的运用

    开发科学.高效的煤矿安全生产检查系统,其最根本的出发点和落脚点是要做好对井下工作人员的安全生产进行精确定位.对井下瓦斯状况进行精密测度.(1)计算机对煤矿井下工作人员的精确位置检测技术分析" ...

  4. 农大计算机学院姜新华,计算机学院红帽学院揭牌仪式

    周二下午,我们如约的来到了计算机学院,见到了我们所要访问的老师---王晋隆老师,在近一个小时的访谈中... 我报考的是哈尔滨工程大学计算机学院的计算机科学... 前期准备与后期上传工作:(1)必须先建 ...

  5. 计算机坤论文题目,计算机毕业论文参考文献分享

    参考文献是毕业论文不可缺少的部分,怎样写好论文的参考文献是我们首先要考虑的,下面是小编整理的关于计算机毕业论文参考文献,希望可以给大家带来帮助. 参考文献 [1]王立兵.浅析计算机安全方面的存在问题及 ...

  6. 膨胀的计算机仿真,制冷空调中的计算机仿真与控制

    <制冷空调中的计算机仿真与控制>由会员分享,可在线阅读,更多相关<制冷空调中的计算机仿真与控制(145页珍藏版)>请在人人文库网上搜索. 1.第5章 制冷空调中的计算机仿真与控 ...

  7. 计算机仿真模拟软件心得,【仿真软件在计算机组装课中的应用】 计算机组装总结及心得...

    摘 要:<计算机组装与维护>是中职计算机专业的必修课程,但现在这门课的教学硬件与现实严重脱轨,而利用仿真软件则可以很好地解决这一问题.本文对仿真软件在中职计算机组装课中的具体应用方法进行了 ...

  8. 计算机虚拟仿真专业,虚拟仿真技术在计算机专业网络基础课程教学中的应用

    虚拟仿真技术在计算机专业网络基础课程教学中的应用 [摘要]本文以新疆石河子职业技术学院计算机专业网络基础课程的教学改革为切入点,以怎样改革现有的网络基础课程教学.以提升学生的学习与应用能力为根本目标, ...

  9. 电子教学试验设备计算机仿真,当代大学中计算机仿真实验教学模式探究

    [文章摘要] 在本文中,效率高,仿真精度高,可靠性高,成本低,已广泛应用于电力电子电路的分析设计(或系统).计算机仿真不仅可以取代许多繁琐的手工分析系统,降低了工人的劳动强度,提高设计能力的分析,避免 ...

最新文章

  1. python csv转excel_使用 Python 把 PDF 转为 CSV 和 Excel(一)
  2. IDEA以UML图表方式查看maven项目pom文件中全局及部分jar之间依赖关系
  3. SAP Spartacus OrganizationState
  4. Hive-Based Registry使用
  5. 对于python命令行参数使用,你应该这么做才专业
  6. 两台linux电脑怎么互推文件夹,Llinux文件目录权限及chmod命令简析
  7. FFmpeg源代码简单分析:avcodec_open2()
  8. typora html代码无效,Typora优化-适合不懂CSS代码的小白
  9. 递归求n的阶乘不溢出_面试官:说一说递归如何优化尾递归优化
  10. 阿里云祝顺民:云网络心智大图解读 | 云栖大会
  11. python ppt自动生成目录_利用python-pptx库读写操作PPT,批量自动生成或修改的PPT
  12. Linux程序设计第二版练习题(第七章)
  13. startuml如何画流程图_怎样在迅捷画图在线网站中绘制UML流程图
  14. git中如何获取远程仓库的最新代码?
  15. 伪装图片 攻击php,攻击者是如何将PHP Phar包伪装成图像以绕过文件类型检测的(推荐)...
  16. wacom板子在MACBOOK里用PS画画的时候,老是画着快捷键就都不能用
  17. Android学习:Service自问自答
  18. android闪屏问题
  19. 多元统计分析及R语言建模(第四版)-----数据,包,资源
  20. 【2018版】Docker入门视频课程-汤小洋-专题视频课程

热门文章

  1. Hadoop小兵笔记【六】hadoop2.2.0伪分布式环境搭建疑难-JobHistory显示Job信息为空
  2. 移动端VIN码识别应用范围
  3. 仿造虎扑步行街首页。
  4. Java生成png文件字体不清晰_将Graphics2D写入BufferedImage - 字体分辨率较差
  5. 基于51单片机简易智能家居
  6. RK3288——LCD裸机
  7. VMT model 简介
  8. MCAL中ADC的配置
  9. 低效能程序员的行为与思维
  10. 第一章:Google简介