本发明涉及语音识别技术领域,具体涉及一种基于维特比算法的花洒语音识别系统及方法。

背景技术:

随着生活水平的提高和住房条件的改善,很多家庭都安装了沐浴设施,花洒是其中最常见的淋浴装置。目前花洒产品多为手动调节来控制水温和水流量大小,并不能十分智能的解放正常人的双手及帮方便残障人士来调控,导致用户体验不佳。

现有技术中:专利cn201710369098提供了一种根据人体位置自动调节智能花洒喷水的水量大小的装置,虽在一定程度上实现自动确定水量大小,但还是需要人手动调节温度。专利cn201820904890提供了一种可以测量温度的花洒,虽然不需要再用手去感应温度,但个体之间对于水温的冷热程度感受有差异,还是无法在不手动调节的前提下精确的得到一个适合自己的温度。

因此,实现智能控制花洒的水温和开关功能,以解放双手和帮助盲人,是本发明需要解决的技术问题。

技术实现要素:

本发明的目的是提供一种基于维特比算法的花洒语音识别系统及方法,来实现智能控制花洒的水温和开关功能,以解放双手和帮助盲人。

为达到上述目的,本发明提供了一种基于维特比算法的花洒语音识别方法,其包括以下步骤:

步骤1:采集用户发出的音频数据;

步骤2:基于维特比算法将所采集的音频数据识别为文字;

步骤3:将所识别的文字转化为包括开关花洒和控制水温的动作。

上述的基于维特比算法的花洒语音识别方法,其中,所述步骤2包括:

步骤2.1:对所采集的音频数据进行降噪预处理;

步骤2.2:对降噪处理后的音频数据进行特征提取,以提取一组或几组能够描述音频数据特征参数;

步骤2.3:基于维特比算法,对提取后的特征参数进行解码,获取最优的文字识别结果。

上述的基于维特比算法的花洒语音识别方法,其中,所述步骤2.1包括以下步骤:

步骤2.1.1:对所采集的音频数据进行首尾端的静音切除;

步骤2.1.2:对切除后的音频数据进行分帧处理;

步骤2.2.3:对分帧处理后的音频数据,从噪声背景中提取有用的语音信号,以抑制、降低噪声干扰。

上述的基于维特比算法的花洒语音识别方法,其中,步骤2.1.2中,使用移动窗函数进行分帧,各帧之间具有交叠。

上述的基于维特比算法的花洒语音识别方法,其中,步骤2.2中,所述特征参数包括平均能量、过零数、线性预测倒谱系数和梅尔频率倒谱系数。

上述的基于维特比算法的花洒语音识别方法,其中,步骤2.3中,解码过程中,基于维特比算法,利用声学模型、发音字典及语言模型构建wfst搜索空间,在加权有限状态转换器(weightedfinite-statetransducer,wfst)搜索空间内寻找匹配概率最大的最优路径,得到最优的文字识别结果。

上述的基于维特比算法的花洒语音识别方法,其中,所述声学模型所采用的训练方法为动态时间规整法、矢量量化法、隐马尔科夫模型法、人工神经网络法、支持向量机法或小波变换法。

本发明还提供了一种基于维特比算法的花洒语音识别系统,其包括:

数据采集模块,用于采集用户发出的音频数据;

语音识别模块,用于基于维特比算法将所采集的音频数据识别为文字;

控制模块,用于将所识别的文字转化为包括开关花洒和控制水温的动作。

上述的基于维特比算法的花洒语音识别系统,其中,所述语音识别模块包括:

信息预处理模块,用于对所采集的音频数据进行降噪预处理;

特征提取模块,用于对降噪处理后的音频数据进行特征提取,以提取一组或几组能够描述音频数据特征参数;

模型训练模块,用于通过训练得到声学模型、语言模型及预设发音字典;

模式匹配模块,基于维特比算法,对提取后的特征参数进行解码,解码过程中,利用声学模型、发音字典及语言模型构建wfst搜索空间,在wfst搜索空间内寻找匹配概率最大的最优路径,得到最优的文字识别结果。

上所述的基于维特比算法的花洒语音识别系统,其中,所述信息预处理模块包括:

静音切除模块,用于对所采集的音频数据进行首尾端的静音切除;

分帧处理模块,用于对切除后的音频数据进行分帧处理;

降噪处理模块,用于对分帧处理后的音频数据,从噪声背景中提取有用的语音信号,以抑制、降低噪声干扰。

相对于现有技术,本发明具有以下有益效果:

本发明基于维特比算法,将语音识别应用于花洒中,实现自动控制温度和花洒的开启和关闭,提高用户体验度,实用性强。

附图说明

图1为本发明基于维特比算法的花洒语音识别方法的流程图;

图2为本发明基于维特比算法的花洒语音识别方法步骤2的流程图;

图3为本发明基于维特比算法的花洒语音识别方法步骤2.1的流程图;

图4为本发明基于维特比算法的花洒语音识别系统的结构示意图;

图5为本发明基于维特比算法的花洒语音识别系统中语音识别模块的结构示意图;

图6为本发明基于维特比算法的花洒语音识别系统中信息预处理模块的结构示意图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述,这些实施例仅用于说明本发明,并不是对本发明保护范围的限制。

如图1所示,本发明提供了一种基于维特比(viterbi)算法的花洒语音识别方法,其包括以下步骤:

步骤1:采集用户发出的音频数据(包括用户语音和背景噪音)。

步骤2:基于维特比算法将所采集的音频数据识别为文字,所谓viterbi算法,是指从开始状态之后每走一步,就记录下到达该状态的所有路径的概率最大值,然后以此最大值为基准继续向后推进,寻找全局最优路径。

进一步,如图2所示,所述步骤2包括:

步骤2.1:对所采集的音频数据进行降噪预处理。

进一步,如图3所示,所述步骤2.1包括以下步骤,以将语音信号进行简化处理:步骤2.1.1:对所采集的音频数据进行首尾端的静音切除,降低对后续步骤造成的干扰;步骤2.1.2:对切除后的音频数据进行分帧处理,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的;步骤2.2.3:对分帧处理后的音频数据,从噪声背景中提取有用的语音信号,以抑制、降低噪声干扰,实现语音增强。

步骤2.2:对降噪处理后的音频数据进行特征提取,以提取一组或几组能够描述音频数据特征参数。

进一步,步骤2.2中,所述特征参数包括平均能量、过零数、线性预测倒谱系数(lpcc)和梅尔频率倒谱系数(mfcc)。特征参数选取要计算方便,有高效的算法,以保证语音识别的实时实现。本发明优选mfcc特征参数,以便训练和识别。

步骤2.3:基于维特比算法,对提取后的特征参数进行解码,获取最优的文字识别结果。

进一步,步骤2.3中,解码过程中,基于维特比算法,利用声学模型(由语音训练数据和噪声数据训练得到)、发音字典及语言模型(由文本训练数据训练得到)构建wfst搜索空间,在wfst搜索空间内寻找匹配概率最大的最优路径,得到最优的文字识别结果。

进一步,声学模型主要的模式训练方法有:动态时间规整法(dtw)、矢量量化法(vq)、隐马尔科夫模型法(hmm)、人工神经网络法(ann)、支持向量机法(svm)、小波变换法(wt)等。本发明采用的是隐马尔科夫模型法(hmm)。

步骤3:将所识别的文字转化为包括开关花洒和控制水温的动作。

如图4所示,本发明还提供了一种基于维特比算法的花洒语音识别系统,其包括:

数据采集模块1,用于采集用户发出的音频数据,具体可以使用麦克风进行采集。

语音识别模块2,用于基于维特比算法将所采集的音频数据识别为文字。

控制模块3,用于将所识别的文字转化为包括开关花洒和控制水温的动作。

进一步,如图5所示,所述语音识别模块2包括:

信息预处理模块21,用于对所采集的音频数据进行降噪预处理。

特征提取模块22,用于对降噪处理后的音频数据进行特征提取,以提取一组或几组能够描述音频数据特征参数。

模型训练模块23,用于通过训练得到声学模型、语言模型及预设发音字典。

模式匹配模块24,基于维特比算法,对提取后的特征参数进行解码,解码过程中,利用声学模型、发音字典及语言模型构建wfst搜索空间,在wfst搜索空间内寻找匹配概率最大的最优路径,得到最优的文字识别结果。

进一步,如图6所示,所述信息预处理模块21包括:静音切除模块211,用于对所采集的音频数据进行首尾端的静音切除;分帧处理模块212,用于对切除后的音频数据进行分帧处理;降噪处理模块213,用于对分帧处理后的音频数据,从噪声背景中提取有用的语音信号,以抑制、降低噪声干扰。

综上所述,本发明基于维特比算法,将语音识别应用于花洒中,实现自动控制温度和花洒的开启和关闭,提高用户体验度,实用性强。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

语音识别维特比解码_一种基于维特比算法的花洒语音识别系统及方法与流程相关推荐

  1. matlab 重叠峰分解 算法,一种基于粒子群算法的光谱重叠峰分解方法与流程

    本发明涉及一种基于粒子群算法的光谱重叠峰分解方法. 背景技术: 由于探测器能量分辨率等原因,峰位接近且峰宽较大的不同谱峰之间常常出现严重重叠干扰的现象,要对光谱作进一步较为准确.全面的成分定量和定性分 ...

  2. android多个摄像头,一种基于Android多应用共享摄像头的系统及方法与流程

    本发明涉及一种基于Android多应用共享摄像头的系统及方法,属于计算机领域. 背景技术: 在一些特殊的应用场景.例如后台一直在录像,这时摄像头会被录像应用一直占有,其他的应用无法再打开摄像头.如果其 ...

  3. java头像交互式差分演变_一种基于交互式差分进化计算的用户知识需求获取方法与流程...

    本发明属于知识服务领域,具体涉及一种基于交互式差分进化计算的用户知识需求获取方法. 背景技术: 在多数企业拥有庞大的知识数量和优质的知识资源的情况下,如何利用推送系统将知识主动推送给设计人员以提高企业 ...

  4. python语言的编程模式_一种基于Python语言的EDA开发平台及其使用方法与流程

    本发明涉及EDA开发的技术领域,尤其是指一种基于Python语言的EDA开发平台及其使用方法. 背景技术: 目前,主流的EDA设计语言Verilog HDL能实现完整的芯片硬件逻辑电路开发,但是其代码 ...

  5. java 解析数据包_一种基于Java语言的网络通讯数据包解析方法与流程

    本发明涉及网络通讯领域,特别涉及一种基于Java语言的网络通讯数据包解析方法. 背景技术: 计算机系统和网络的大量普及使用使全球跨入了信息化时代.但是,正由于现代社会中几乎一切都在"计算机化 ...

  6. bim 模型web页面展示_一种基于BIM模型的Web端轻量化展示方法与流程

    本发明涉及基坑结构模型技术领域,尤其涉及一种基于bim模型的web端轻量化展示方法. 背景技术: 建筑信息模型(buildinginformationmodeling,bim)技术在土木工程领域快速推 ...

  7. 手机室内地磁定位软件_一种基于手机地磁和场景图像的室内定位方法与流程

    本发明属于室内定位领域,具体涉及一种利用地磁和场景图像搭建地图,并用卷积神经网络提取出位置特征,以粒子滤波算法进行动态定位的方法. 背景技术: 室内定位技术在现在的提高我们的日常生活便利中起着非常重大 ...

  8. ue4导入倾斜摄影_一种基于Smart3D倾斜摄影技术输出实际地形等高线的方法与流程...

    本发明涉及测绘技术领域,具体涉及一种基于Smart 3D倾斜摄影技术输出实际地形等高线的方法. 背景技术: 近年来无人机倾斜摄影技术在低空摄影测量领域得到了快速的发展,该技术通过在一个飞行平台上搭载多 ...

  9. python鱼眼图像识别_一种基于鱼眼摄像头的人脸识别锁以及识别方法与流程

    本发明涉及人脸识别领域,特别涉及一种基于鱼眼摄像头的人脸识别锁. 背景技术: 人脸识别具有用在门锁上存在一些不足.例如,门锁一般装在门上,其高度在安装时已经固定,针对不同身高的用户来说可能造成人脸图像 ...

最新文章

  1. 近期活动盘点:2019第六届世界互联网大会、智慧城市的人本尺度城市形态讲座、高管AI大数据能力研修班、英伟达初创企业展示开启报名...
  2. 数据恢复软件extundelete介绍
  3. jQuery-基本选择器的种类
  4. python之旅(六) - 自省
  5. xcode 左侧导航栏 no finder results 问题的解决方法
  6. rfid4-写成platform驱动
  7. 锐捷EG易网关远程命令执行漏洞-1
  8. php日期的怎么判断同一天,php如何判断两个时间戳是一天
  9. latex中插图心得
  10. 【在路上5】实时计算助力派件管控
  11. 相对路径转成绝对路径
  12. 趣头条基于 Flink 的实时平台建设实践
  13. Postman和postwoman安装及简介
  14. java应用程序如何编译运作_开发Java应用程序的基本步骤是: 1 编写源文件, 2.编译源文件, 3.运行程序。_学小易找答案...
  15. [.NET] : 使用自定义对象当作报表数据源
  16. 根据pid查端口_PLC应用,3个PID控制实例讲解,想不会都难!
  17. 手工扒网页模板简单流程
  18. 【编解码】从零开始写H264解码器(2) NALU
  19. [高级]pdf生成(可水印)、pdf预览(可分页)、pdf打印:全栈一条龙方案
  20. linux之/proc/cpuinfo详解

热门文章

  1. 多年JAVA 基础总结
  2. linux命令--vi,vim
  3. bzoj1179[Apio2009]Atm
  4. react.js 多个组件集成示例
  5. spring interceptor 拦截方法,判断用户是否存在
  6. 6美元进公园随便挖钻石
  7. Linux 命令(38)—— fdisk 命令
  8. Python之面向对象和正则表达(代数运算和自动更正)
  9. 交互式 shell 玩转 Python
  10. JavaScript的高大强