一种语音识别模型的训练方法及装置与流程

本发明涉及语音识别研究领域，尤其涉及一种语音识别模型的训练方法及装置。

背景技术：

随着计算机技术和人工智能技术的发展，让计算能听、能说，是未来人机交互的重要发展方向，其中语音成为最被看好的人机交互方式，而且利用语音技术进行人机交互比其他的交互方式有更多的优点；

目前的语音识别技术中，语音的输入以标准普通话输入为准，目前的语音识技术对于普通话输入的语音识别的准确率很好，但是对于带有一些个人口音以及方言的语音识别的准确率很低，目前针对上述语音的识别准确率急需解决，因此，研究一种应用于用户本人的语音识别模型训练方法相当重要；

在目前的语音识别技术中，所用的语音识别模型往往是已经创建好的，且不能被用户修改的，即不能根据用户个人情况，进行语音语义纠正。

技术实现要素：

本发明提供一种语音识别模型的训练方法及装置，解决语音识别技术中对带有个人口音以及方言的语音识别的准确率低的问题。

为了解决上述的技术问题，本发明提供了一种语音识别模型的训练方法及装置，具体方法包括：

依照本发明第一方面，提供一种语音识别模型的训练方法，该方法包括：

采集任一用户输入的用户语音信号，确定该用户对应的用户语音识别模型；

利用所述用户语音识别模型对所述用户语音信号进行语音识别，确定语音识别成功时得到对应语音文本并输出，确定语音识别失败时，将所述用户语音信号上传至服务器；

获取所述服务器下发的根据所述用户语音信号从第三方语音识别平台获取的对应语音文本并输出；

利用所述用户语音信号及所述服务器下发的对应语音文本，对所述用户语音识别模型进行训练。

依照本发明第二方面，提供一种语音识别模型的训练装置，该装置包括：

语音信号采集单元，用于采集任一用户输入的用户语音信号，确定该用户对应的用户语音识别模型；

语音信号识别单元，用于利用所述用户语音识别模型对所述用户语音信号进行语音识别，确定语音识别成功时得到对应语音文本并输出，确定语音识别失败时，将所述用户语音信号上传至服务器；

语义获取单元，用于获取所述服务器下发的根据所述用户语音信号从第三方语音识别平台获取的对应语音文本并输出；

语音模型训练单元，用于利用所述用户语音信号及所述服务器下发的对应语音文本，对所述用户语音识别模型进行训练。

本发明提供的一种语音识别模型的训练方法及装置与现有技术相比，具有如下优点和有益效果：

1、在进行语音识别的过程中能有效的提高带有个人口音和方言的语音识别的准确率；

2、能根据用户个人的实际情况和需求，对语音进行训练，创建专属于用户本身的用户语音识别模型；

3、提供一种语音语义纠正的方法，能对创建的用户语音识别模型进行不断的修正，同时该发明可以对同一文本内容进行多次语音训练，及时修改语音语义，也可以对一个字或词进行训练。

附图说明

图1为一种语音识别模型的训练方法示意图；

图2为一种语音识别模型的训练方法的流程示意图；

图3为一种语音识别模型的训练装置图；

图4为一种语音识别模型的设备语音遥控器的平面示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一：

本发明提供一种语音识别模型的训练方法，步骤示意图如图1，包括：

步骤101，采集任一用户输入的用户语音信号，确定该用户对应的用户语音识别模型；

可选地，在实施中，采集任一用户输入的用户语音信号，并解析上述用户语音信号得到用户声纹特征；

可选地，可以采集同一用户输入的不同语义的用户语音信号，也可以多次采集同一用户输入的相同语义的用户语音信号，也可以采集不同用户输入的不同或相同语义的用户语音信号；

上述用户语音信号的语义内容可以是一个字或词语，也可以是一句话，上述用户可以根据自己的实际需求输入；

根据上述用户声纹特征在语音识别模型库中查找对应的用户语音识别模型，上述语音识别模型库包括与不同用户声纹特征对应的不同用户语音识别模型；

所谓声纹，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。基于声纹的这两个特征，它同指纹一样具有身份识别(认定个人)的作用，在本发明提供的方法中，根据每个用户的用户语音信号对应的用户声纹特征不同的特点，用上述用户声纹特征唯一标识上述用户对应的用户语音识别模型；

可选地，确定在上述语音识别模型库中查找不到对应的用户语音识别模型时，根据所上用户声纹特征在上述语音识别模型库创建对应的用户语音识别模型；

在具体的实施方式中，当一个用户首次用本发明方法进行语音识别模型训练时，在上述语音识别模型库中查找不到该用户的用户语音识别模型，则根据该用户首次输入的用户语音信号解析出的用户声纹特征，在上述语音识别模型库创建该用户专属的用户识别模型；

可选地，上述语音识别模型库保存着所有使用本发明方法进行语音识别模型训练的所有用户的用户语音识别模型，以解析出的用户声纹特征识别上述用户对应的用户语音识别模型；可选的具体实施方式中，以上述用户声纹特征为标识，在上述语音识别模型库中建立上述用户专属的唯一的用户语音识别模型。

可选地，在实施的过程中，可以以同一个用户的用户声纹特征为标识，在上述语音识别模型库中，建立上述用户专属的针对不同场景的用户语音识别模型，在这种情况下可以根据用户声纹特征及一些关键字词在语音识别模型库中查找对应场景的用户语音识别模型，如下例：一个可进行语音训练的用于控制家电的智能遥控器，针对某一用户的用户声纹特征在语音识别模型库建立控制电视和控制空调场景下的用户语音识别模型，分别以上述用户声纹特征及关键字“电视”和“空调”在语音识别模型库建立两个用户语音识别模型，当使用上述智能遥控器进行控制家电或进行语音训练时，可根据用户声纹特征及上述关键字查找对应的用户语音识别模型。

步骤102，利用上述用户语音识别模型对上述用户语音信号进行语音识别，确定语音识别成功时得到对应语音文本并输出，确定语音识别失败时，将上述用户语音信号上传至服务器；

可选地，在具体的实施中，利用上述用户语音识别模型对上述用户语音信号进行语音识别时，根据上述用户语音信号在上述用户语音识别模型查找正确的对应语音文本，并将上述对应语音文本输出，让用户指示上述对应语音文本与上述用户语音信号的语义是否一致，用户指示上述语义一致时，即确定语音识别成功，将对应语音文本输出，否则，确定语音识别失败；

对上述对应语音文本输出的方式不做过多限制，本领域的技术人员可根据实际需求设置，可以将对应语音文本以文字形式或转化成音频形式输出，或者其他的可以让用户识别的形式；

确定语音识别失败时，包括：确定利用上述用户语音识别模型查找不到上述用户语音信号的对应语音文本时；或者

根据用户指示确定从上述用户语音识别模型得到的上述用户语音信号的对应语音文本错误时，确定语音识别失败。

在具体的实施方式中，由于上述用户输入的用户语音信号带有个人口音或者是地方方言时，或者上述用户专属的用户语音识别模型训练程度不够时，可能会出现利用上述用户语音识别模型查找不到上述用户语音信号的对应语音文本，此时会确定语音识别失败，将上述用户语音信号上传至服务器。

步骤103，获取上述服务器下发的根据上述用户语音信号从第三方语音识别平台获取的对应语音文本并输出；

服务器在获取上述用户语音信号后，会将其上传至第三方语音识别平台进行语音识别，上述第三方语音识别平台可以是百度语音识别平台，讯飞语音识别平台或其他可以进行语音识别的平台；

上述第三方语音识别平台对用户语音信号进行语音识别后得到对应的对应语音文本，并将对应语音文本输出；

步骤104，利用上述用户语音信号及上述服务器下发的对应语音文本，对上述用户语音识别模型进行训练。

具体的实施方式中，根据输出的上述服务器下发的对应语音文本，对上述用户专属的用户语音识别进行训练；可选地，还包括，接收用户指示，根据上述用户指示确定上述服务器下发的对应语音文本与上述用户语音信号的语义是否一致；

确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义不一致时，将上述对应语音文本丢弃；

确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义一致时，将上述对应语音文本加入上述用户语音识别模型。

具体的实施方式中，用户输入的用户语音信号可能携带个人口音或方言，上述第三方语音识别平台对用户语音信号进行语音识别时可能会识别错误，即上述服务器下发的对应语音文本与上述用户语音信号的语义可能不一致，此时将上述对应语音文本与上述用户语音信号的语义一致的对应语音文本加入上述用户语音识别模型，将上述对应语音文本与上述用户语音信号的语义不一致的对应语音文本丢弃。

在上述的实施例中，上述的第三方语音识别平台具有强大的语音识别功能，在本发明的方法中，利用上述的第三方语音识别平台对上述用户语音信号进行识别，将其识别的对应语音文本输出给用户判断指示，可以辅助生成上述用户语音识别模型的训练样本，有效地解决了用户终端针对用户的个性化语音识别模型的训练。

可选地，在实施时，进行语音识别模型训练时，用户可以多次输入同一语义的用户语音信号进行语音识别模型训练，直到有正确的对应语音文本加入上述用户语音识别模型；也可以在训练完成后，也可以再次输入同一语义的用户语音信号进行语音识别模型的修正。

以下是一个语音识别模型训练的详细过程，流程图参见图2，具体过程如下：

步骤2010，采集用户语音信号，进入步骤2020；

采集可能带有个人口音的用户语音信号；

步骤2020，解析上述用户语音信号得到用户声纹特征，进入步骤2030；

利用声纹识别技术对用户语音信号解析，得到用户声纹特征；

步骤2030，根据上述用户声纹特征查找对应的用户语音识别模型，进入步骤2040；

根据上述用户声纹特征，在语音模型训练库中查找对应的用户语音识别模型；

步骤2040，判断根据上述用户声纹特征查找对应的用户语音识别模型是否成功；

确定查找成功时，进入步骤2050；确定查找不成功，进入步骤2041；

步骤2041，根据上述用户声纹特征在语音识别模型库中创建用户专属的用户语音识别模型，并进入步骤2050；

步骤2050，从上述用户语音识别模型查找用户语音信号的对应语音文本并输出，进入步骤2060；

步骤2060，确定用户指示对应语音文本与用户语音信号的语义是否一致；

确定用户指示对应语音文本与用户语音信号的语义一致时进入步骤2061，否则，进入步骤2070；

步骤2061，将对应语音文本输出，并进入步骤2100；

步骤2070，将上述用户语音信号上传至服务器；

步骤2080，获取上述服务器下发的根据上述用户语音信号从第三方语音识别平台获取的对应语音文本并输出；进入步骤2090；

步骤2090，确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义是否一致；

确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义不一致时，进入步骤2091，否则进入步骤2092；

步骤2091，将上述服务器下发的对应语音文本丢弃；进入步骤2100；

步骤2092，将上述对应语音文本加入上述用户语音识别模型，进入步骤2100；

步骤2100，结束语音识别模型训练。

实施例二：

在本实施例中，提供一种语音识别模型的训练装置，装置图如图3所述，包括：

语音信号采集单元301，用于采集任一用户输入的用户语音信号，确定该用户对应的用户语音识别模型；

可选地，在具体的实施方式中，采集任一用户输入的用户语音信号，解析上述用户语音信号得到用户声纹特征；

根据上述用户声纹特征在语音识别模型库中查找对应的用户语音识别模型，上述语音识别模型库包括与不同用户声纹特征对应的不同用户语音识别模型。

可选地，还包括，语音识别模型创建单元，用于确定在上述语音识别模型库中查找不到对应的用户语音识别模型时，根据上述用户声纹特征在上述语音识别模型库创建对应的用户语音识别模型。

语音信号识别单元302，用于利用上述用户语音识别模型对上述用户语音信号进行语音识别，确定语音识别成功时得到对应语音文本并输出，确定语音识别失败时，将上述用户语音信号上传至服务器；

可选地，在具体的实施方式中，确定利用上述用户语音识别模型查找不到上述用户语音信号的对应语音文本时；或者

根据用户指示确定从上述用户语音识别模型得到的上述用户语音信号的对应语音文本错误时，确定语音识别失败。

语义获取单元303，用于获取上述服务器下发的根据上述用户语音信号从第三方语音识别平台获取的对应语音文本并输出；

语音模型训练单元304，用于利用上述用户语音信号及上述服务器下发的对应语音文本，对上述用户语音识别模型进行训练。

可选地，还包括用于接收用户指示，根据上述用户指示确定上述服务器下发的对应语音文本与上述用户语音信号的语义是否一致；

确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义不一致时，将上述对应语音文本丢弃；

确定用户指示上述服务器下发的对应语音文本与上述用户语音信号的语义一致时，将上述对应语音文本加入上述用户语音识别模型。

实施例三：

本发明提供一种语音识别模型的训练设备，包括：

上述存储器，用于存储可执行程序；

在具体的实施方式中，上述存储器还用于存储用户语音信号，对应语音文本和语音识别模型库；

上述处理器，用于执行上述可执行程序时实现上述实施例一到实施例四的任意一项上述的语音识别模型的训练方法。

一种计算机存储介质，其特征在于，上述计算机存储介质存储有计算机程序，该计算机程序被执行时实现上述实施例一到实施例四的任意一项上述的语音识别模型的训练方法。

可选地，在具体的实施中还包括，语音采集装置，用于采集上述用户语音信号；

对上述语音采集装置不做过多限制，本领域的技术人员可根据实际需求设定，优选的具体实施方式中，可以是麦克风；

可选地，还包括，语音文本输出装置，用于输出上述对应语音文本；

对上述语音文本输出装置不做过多限制，本领域的技术人员可根据实际需求设定，优选的具体实施方式中，可以是将语音文本转化成音频输出的扬声器，也可以是显示语音文本的液晶显示器；

可选地，还包括，指示装置，用于接收用户指示，根据上述用户指示确定上述对应语音文本与上述用户语音信号的语义是否一致；

对上述指示装置不做过多限制，本领域的技术人员可根据实际需求设定，在本实施例优选的具体实施方式中，上述指示装置可以是一个有不同操作形式的机械按钮，也可以是一组相关机械按键；

语音识别模型的训练设备可以为智能语音音响，智能语音空调遥控器等，在本实施例中，上述设备是一个控制空调的语音遥控器,上述语音遥控器的平面图如图4；

上述遥控器包括：麦克风、机械按钮、存储器、处理器、扬声器以及电源装置等；

在优选的具体实施方式中，上述麦克风用于接收用户语音信号；上述扬声器用于将上述对应语音文本以音频的形式播放出来；

上述机械按钮用于采集用户语音信号及用于确定用户指示语音识别是否成功，包括：

上述机械按钮被用户按压时，采集用户语音信号；以及上述按钮被用户向顺时针旋转时，确认上述扬声器播放的对应语音文本音频上述用户语音信号的语义一致；以及上述按钮被用户向逆时针旋转时，确认上述扬声器播放的对应语音文本音频上述用户语音信号的语义不一致；

对上述机械按钮的使用方式不做过多限制，本领域的技术人员可根据实际需求设定。

应当说明的是，本发明的各个实施例的技术方案可以相互结合，但是必须是以本领域的技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

一种语音识别模型的训练方法及装置与流程相关推荐

一种语音识别的自动控制系统及方法与流程
本发明涉及语音识别技术领域,尤其涉及一种语音识别的自动控制系统及方法. 背景技术: 随着电子技术的不断发展,各种交互式系统都采用了语音交互的方式,语音交互已成为一种重要的人机交互方式,以提高与用户的互 ...
java dijkstra算法指定源宿_一种路径计算的方法和装置与流程
本发明涉及网络通信技术,尤其涉及一种路径计算的方法和装置. 背景技术: 随着软件定义网络(Software Defined Network,SDN).网络功能虚拟化(Network Function ...
人工神经网络模型是一种什么模型 - 人工神经网络的基础数学模型
不同的人工神经网络模型各有什么作用人工神经网络的优点人工神经网络是崭新且令人兴奋的研究领域,它有很大的发展潜力,但也同时遭受到一些尚未克服的困难.其优点可列举如. 1.可处理噪声:一个人工神经网络 ...
重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN，准确率高达96.04%
阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...
利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型
作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...
基于Transformer的高效、低延时、流式语音识别模型
从场景上,语音识别可以分为流式语音识别和非流式语音识别.非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别,而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别.流式语 ...
重磅！阿里开源自研语音识别模型DFSMN，准确率高达96.04%
阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech). 对 ...
CNN的几种经典模型
本文主要介绍一下CNN的几种经典模型比较.之前自己也用过AlexNet和GoogleNet,网络上关于各种模型的介绍更是形形色色,自己就想着整理一下,以备自己以后查阅方便 LeNet5 先放一张图,我 ...
基于RNN和CTC的语音识别模型，探索语境偏移解决之道
摘要:在本文介绍的工作中,我们展示了一个基于RNN和CTC的语音识别模型,在这个模型中,基于WFST的解码能够有效地融合词典和语言模型. 本文分享自华为云社区<语境偏移如何解决?专有领域端到端A ...

一种语音识别模型的训练方法及装置与流程

一种语音识别模型的训练方法及装置与流程相关推荐

最新文章

热门文章