Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech

摘要: 基于隐马尔可夫模型(HMM)和神经网络(NN)的混合模型是当前关键字识别(KWS)系统声学建模的前沿。然而,由于中间语音表示的依赖性,如何有效地训练这样一个混合系统是一个挑战。在端到端语音识别系统的驱动下,提出了一种利用端到端方法直接预测语音单元后验的普通话KWS系统。该系统基于连接时间分类器(CTC)和递归神经网络(RNN)。本系统与其他基于CTC的KWS系统的主要区别在于输出字母及其对应的关键字搜索机制。我们使用普通话音节作为输出标签,而不是音素或字符。在普通话语音数据集上进行了大量的实验。实验结果表明:
1)与基于HMM的KWS系统相比,端到端KWS系统在不增加计算成本的情况下,实现了显著的改进。
2)我们的基于音节的端到端KWS系统比目前最先进的基于汉语上下文无关(CI)音素或汉字的系统具有更好的性能。

1.介绍
关键词检测是指在给定的语音中连续检测特定的关键词。广泛应用于语音监控、呼叫中心、语音控制等领域。KWS有许多方法,如无监督方法[2,3]、关键字/填充HMM[4,5]和基于大词汇量连续语音识别(LVCSR)的方法[6,7]。基于LVCSR的方法由于改变关键字的灵活性和对关键字和语音的先验知识要求较低而得到了广泛的应用。我们的工作重点是改进基于LVCSR的KWS系统。
得益于在LVCSR中成功使用DNN进行声学建模[6,8],基于HMM-DNN的KWS系统得到了显著的改进。然而,基于HMM-DNN的系统仍然存在一些缺点,这将影响系统的性能。首先,系统建设非常复杂。它包含几个单独训练的组件,这些组件具有不一致的训练目标。因此,仅通过改进整个系统的一个组成部分来改进KWS系统是不方便的。其次,输入声特征序列的长度比输出标签序列的长度要长得多。为了解决这个问题,使用HMM映射输入和输出状态序列之间的关系。由于隐马尔可夫模型的遗传限制,该混合系统不能充分发挥神经网络的潜力,对[9]进行长序列建模。
基于上述原因,研究人员考虑建立LVCSR任务[10]的端到端声学模型。用单一的神经网络代替了传统的管道声模型。受[10]的启发,端到端声学建模技术也被应用到关键词识别领域[1,11,12]。它基于CTC和RNN的结合,不再需要HMM模型来进行标签对齐和预分割。从而大大简化了KWS声学模型的体系结构。CTC允许网络在输入序列[10]的任意点预测标签。
在本文中,我们提出的端到端KWS系统也是基于CTC和RNN相结合的。但它是为汉语普通话设计的,输出标签是音节而不是词音素或汉字。在汉语语音识别和关键字识别任务中,CTC输出标签的选择非常重要。最先进的KWS系统通常使用汉字[13,14]或语音元素[1,12]。在这些KWS系统中,关键字中的字符可能会被错误识别,因为有许多汉字具有相同的发音。KWS的性能将会下降,特别是对于那些没有语言模型的系统。因此,作为CTC输出标签,音素比汉字更合适。在本研究中,我们使用汉语音节作为输出标签,而不是在[1,12]中使用汉语音节的声母和韵母。[1,12]中的工作需要一个基于加权有限状态传感器(WFST)的解码过程来将CTC输出序列映射到单词序列。但是,我们的系统可以直接将关键字映射到输出标签(中文音节),而不需要任何额外的解码或其他过程。
本文的其余部分组织如下。在第2部分中,我们介绍了基于CTC的KWS系统。然后在第3节中,我们将系统与传统的基于HMM和其他基于CTC的KWS系统进行了比较。第4节给出了实验结果,结论见第5节。
2. CTC-based Keyword Spotting
本系统主要由基于CTC的神经网络和关键词搜索两部分组成。简要框图如图1所示。

2.1. Connectionist Temporal Classifier
基于CTC的KWS网络由卷积神经网络(CNN)、递归神经网络(RNN)和软最大输出层组成。网络的输入为语音特征序列,输出为表示汉语音节的标签序列。由于输入序列的长度远大于输出序列的长度,因此引入空白标签来平衡输入和输出序列的长度。接下来,我们将描述CTC如何将输入声学特征序列映射到输出标签序列。
给定一个输入序列x = {x1, x2,•••, xT}, CTC-based网络输出序列y = {y1, y2,•••,yT},其中yT表示在时间t输出单元的概率。输出单元包括中国所有音节标签(左)和一个额外的空白的象征,它代表了一个non-output (L’ = L U{空白})。L(’T)表示组L’序列长度,假定输出概率是独立的在不同的步伐,在路径的概率可以计算

x是输入向量序列, y_(π_t)^t表示在时间T的第π_t输出单元。
CTC-based网络的输出序列y包括的空白符号是不会出现在最终的结果。通过去除空白符号和重复标签,可以得到没有空白标签的最终标签序列。定义一个map函数,

其中L<T只包含中文音节标签。例如,序列aa–bc和a–bb -cc都映射到abc (a, b, c属于 L,“-”表示空白标签)。映射关系的F,标签序列的概率l ∈L < T表示为

方程(3)之间的关系描述CTC-based网络的输出序列和标签序列。解决了语音特征序列与汉语音节序列长度不匹配的问题。
训练神经网络的反向传播梯度下降法和目标函数是

S是训练数据的地方。由Graves[10]提出的前向-后向算法可以计算标签序列l的所有路径。
2.2. Keyword Searching
在基于CTC的ASR任务中,在yt中最大单元的标签作为t时刻的识别结果。基于CTC的ASR中最好的方法不能直接应用于基于CTC的KWS,因为它可能不准确,可能会丢失一些潜在的信息。因此,在本研究中,我们使用了一种不同的格生成方法来生成搜索格,并为关键词搜索提供了更多的候选。
2.2.1. Lattice generation
搜索格由CTC网络y的输出生成,如2.1节所述。首先,如果空白标签的概率大于固定阈值(yblank t >θ),这个框架将被删除。根据我们的实验,阈值设置在0.7到0.9之间。将概率向量序列y = {y1, y2,•••,yT}改为y = { {y1, y2,•••,yN},其中N < T。然后选取向量yt中的n个最大的单位作为t时刻的候选单位,记录每个候选单位的信息,包括对应的时间和概率。最后,我们可以在网格中执行关键字搜索
2.2.2. Searching
由于格内的单位表示汉语音节的概率,且关键字可以唯一映射到汉语音节,因此可以直接在格内搜索关键字,不需要解码过程。这样可以降低系统的复杂度,提高系统的效率。晶格中搜索关键字时,两点值得注意:
如果晶格中的相邻帧(例如yt和y (t + 1))有最大概率的相同标签,相同标签上概率更大的将保持,另一个是删除;
由于我们的关键字有固定的长度(四个汉字),所以关键字的持续时间受到限制(大约60-80 ms)。第一个字符和最后一个字符之间的持续时间必须小于固定阈值。
基于上述两点,我们可以计算出关键字在时刻t的置信度,由于基于CTC的网络在不同时刻的输出是独立的,因此关键字的后验概率为:

其中k1、k2、k3、k4为关键字k的字符,y_k1’t、y_k2(’(t+1))、y_k3(’(t+2))、y_k4(’(t+3))为关键字中对应字符的概率。k1和k4之间的持续时间必须小于阈值w。
3. Compared with other KWS systems
在本节中,我们将基于CTC的KWS系统与传统的基于HMM的系统和其他基于CTC的系统进行比较。
3.1. Compared with HMM-based KWS
基于隐马尔可夫模型的KWS系统与基于CTC的KWS系统之间的性能差距非常大。主要有以下三个方面的不同:
隐马尔可夫模型是生成模型,基于CTC的网络是判别模型。这两种模型各有优点,但基于CTC的网络更适合KWS任务。由于KWS数据缺乏先验分布,HMM只能给出标签的非标准化概率,而基于CTC的网络可以给出标签的标准化概率[9]。利用归一化概率,可以很容易地估计出置信分。
对隐马尔可夫模型的输入序列进行分割,以映射到隐状态。然而,对于大多数连续序列,相邻段之间的边界是模糊的。HMM的分割任务比较麻烦。相反,基于CTC的网络由于引入了连接主义时间分类器而没有这个问题。
HMM模型假设不同观测值的概率是独立的。实际上,输入序列是上下文相关的。因此,我们选择基于CTC的RNN作为声学建模技术,而不是基于HMM的系统。RNN的特殊结构使其能够捕获更多的上下文信息。
3.2. Compared with other CTC-based KWS
我们的系统与其他基于CTC的KWS系统的主要区别在于基于CTC的RNN网络的输出单元。我们的输出单位是汉语音节,其他基于CTC的方法中使用的单位是汉字[13,14]或汉语音素[1,12]。
由于汉语音节的数量远少于汉字音素的数量,因此我们的系统参数也更少。因此,与其他基于CTC的基于汉字的KWS系统相比,训练和测试过程的效率更高。此外,许多汉字有相同的发音,也就是说,这些发音有相同的汉语音节。在KWS任务中,我们只关注关键字的发音,而不是特定的字符。因此,在基于CTC的KWS任务中,汉语音节的输出单位要优于汉字。
除汉字外,[1,12]以汉语音素为输出单位。在这些系统中,不能直接从基于CTC的网络输出中获得识别结果。因此,它们需要一个额外的解码过程,以转换成字符的CI音素。然而,基于汉语音节的基于CTC的KWS系统并不需要这个过程。在2.2.2节中,提出了一种简洁的关键字搜索机制来实现搜索任务。它直接使用基于CTC的网络输出来计算置信度,不需要任何额外的处理(如解码)。因此,使用音节作为网络输出可以大大降低声学模型的复杂性。
4. Experiments
4.1. Dataset
基于CTC的网络训练语音数据约为12K小时(一半是安静环境下语音,一半是背景噪声语音)。测试数据集由词汇表内数据(包含关键字)和词汇表外数据(不包含关键字)两部分组成。前者用于测量真实激活率,后者用于测量错误激活性率。我们使用接收机工作特性(ROC)曲线来评估系统性能。测试使用8个关键字,所有关键字都包含4个汉字。
4.2. System Configuration
KWS系统的声学特性为106维梅尔尺度滤波器组(FBANK)。基于CTC的网络由7个RNN层和一个softmax层组成,softmax层有1356个单元(对应1355个汉语音节和空白符号)。将CTC网络的输出传输到关键字搜索模块,计算出置信度和关键字位置。如果置信分值大于阈值,并且关键字位置与真实关键字位置的重叠大于关键字长度的30%,则关键字检测是正确的,否则将该检测视为误报警。
4.3. Performance Comparison
基于HMM和基于CTC的KWS系统的性能比较如图2和表1所示。基于CTC的系统使用第4.2节中描述的配置。基于HMM的神经网络是一种时延神经网络(TDNN),它由7层和1905 senones组成。在每小时假阳性0.25次的情况下给出了详细的评价,这是实际应用的操作点。很明显,基于CTC的KWS系统性能优于基于HMMTDNN的系统,而不增加任何网络参数大小。与基于HMM-TDNN的系统相比,基于CTC的系统绝对提高了1.39%(见表1)


4.4. The influence of training data
图3和表2展示了基于CTC的KWS系统训练数据量的影响。可以看出:
• 基于CTC的系统性能随着培训数据的增加而提高。
• 当培训数据达到足够大时,绩效收益就会变小。例如,从20K小时数据训练出来的系统只比从12K小时数据训练出来的系统稍微好一点,但是神经网络训练的计算成本增加了很多。
在实际应用中,我们应该在系统性能和计算成本之间找到平衡。因此,我们选择使用12K小时的训练数据来训练系统。


4.5. Output units comparison of CTC-based network
表3和图4显示了不同类型的输出单元对基于CTC的系统的影响。比较了用汉语语音和汉字输出单元训练的基于CTC的网络。所有基于CTC的系统都是从相同的12K小时训练数据中训练出来的。从表3和图4中,我们可以得出结论:基于CTC的KWS系统和基于HMMTDNN的系统都优于基于CTC的KWS系统。这证明了基于CTC的网络比HMM-TDNN基系统具有更好的上下文信息建模能力。基于CTC的汉语音节输出网络比基于汉字的网络具有更好的性能。如第3.2节所述,输出单元在基于CTC的网络中扮演着重要的角色


5. Conclusions
本文提出了一种基于CTC的、以汉语音节为网络输出的端到端KWS系统。理论分析和实验表明:
1)基于CTC的KWS系统性能优于传统的基于HMM的系统,且不增加任何计算成本;
2)与其他基于CTC的KWS系统相比,我们的系统复杂度更低,性能更好。基于CTC的KWS的其他网络结构,如长短时记忆(LSTM)或卷积神经网络(CNN)[15]将在我们未来的工作中进行研究。

论文:Keyword Spotting Based On CTC and RNN For Mandarin Chinese Speech相关推荐

  1. A Novel Lip Descriptor for Audio-Visual Keyword Spotting Based on Adaptive Decision Fusion(2016)

    摘要 当应用于噪声剧烈变化的现实环境时,关键词识别仍然是一个挑战.在最近的研究中,由于视觉语音不受噪声的影响,视听一体化方法已显示出优越性. 然而,在视觉语音识别中,个体的话语习惯会导致混淆和错误识别 ...

  2. (ICASSP 19)END-TO-END STREAMING KEYWORD SPOTTING

    会议:ICASSP 2019 论文:END-TO-END STREAMING KEYWORD SPOTTING 作者:Raziel Alvarez, Hyun Jin Park, Google, In ...

  3. 论文笔记:Attention-based End-to-End Models for Small-Footprint Keyword Spotting

    <Attention-based End-to-End Models for Small-Footprint Keyword Spotting> 小米团队+西北工业大学,Interspee ...

  4. 基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

    语音唤醒,即关键词检索(keyword spotting, KWS).用语音唤醒设备,让设备由休眠状态切换至工作状态. 下面主要对基于端到端的深度学习方法的语音唤醒模型总结. 模型输入为语音,输出为各 ...

  5. (IEEE Access7)Effective Combination of DenseNet and BiLSTM for Keyword Spotting

    论文地址:Effective Combination of DenseNet and BiLSTM for Keyword Spotting 发表于: IEEE Access ( 第7卷) 发布日期: ...

  6. (ICASSP 18)DEEP RESIDUAL LEARNING FOR SMALL-FOOTPRINT KEYWORD SPOTTING(重点)

    会议:ICASSP 2018 论文:DEEP RESIDUAL LEARNING FOR SMALL-FOOTPRINT KEYWORD SPOTTING.链接2.GitHub 作者:Raphael ...

  7. (ICASSP 2014)Small-footprint keyword spotting using deep neural networks

    会议:ICASSP 2014 论文:Small-footprint keyword spotting using deep neural networks 作者:Guoguo Chen ; Carol ...

  8. (ICASSP 19)Federated Learning for Keyword Spotting

    会议: ICASSP 2019 论文:Federated Learning for Keyword Spotting 作者:David Leroy.Alice Coucke.Thibaut Lavri ...

  9. (ICASSP 19)FOCAL LOSS AND DOUBLE-EDGE-TRIGGERED DETECTOR FOR ROBUST SMALL-FOOTPRINT KEYWORD SPOTTING

    会议:ICASSP 2019 论文:FOCAL LOSS AND DOUBLE-EDGE-TRIGGERED DETECTOR FOR ROBUST SMALL-FOOTPRINT KEYWORD S ...

最新文章

  1. Alamofire源码解读系列(五)之结果封装(Result)
  2. numpy.sum详解
  3. 【OpenSSL】OpenSSL之MD5
  4. Java面试题!centos安装yum
  5. 一个账号可以登录几台机器_干货:一个PubMed账号可以有这么多用处!
  6. dbscan java_DBSCAN算法的Java,C++,Python实现
  7. 【工程项目经验】Bash On Windows(WSL)无法运行32Bit程序
  8. 【文献阅读】Perceptual Generative Adversarial Networks for Small Object Detection –CVPR-2017
  9. 艾伟:如何实现用返回值重载
  10. 【Linux】Linux JSON 格式化输出
  11. centos ip地址固定
  12. 计算机专业基础820考什么,820计算机专业基础考纲
  13. 基于生物特征识别认证方式对应2020版《个人信息安全规范》的解读-1
  14. 学习计划大纲(大一)
  15. chrome浏览器扩展打包成crx
  16. markman的下载与使用
  17. 思科模拟器(cisco) 交换机综合实践(笔记篇)
  18. 立方体在三维坐标中的旋转(3D,Spining)
  19. Android常见的问题
  20. Filament介绍

热门文章

  1. flutter |try using ‘as prefix‘ for one of the import directives, or hiding the name from all but one
  2. 欢迎中国电信股份有限公司云计算分公司加入openGauss社区
  3. django-生成详细的操作日志
  4. java 中int 范围越界校验算法
  5. Java初学01:学习路线
  6. 天猫观星台_观星时使用此有用的Bash脚本
  7. 人脸识别之Hog特征+SVM分类器训练与使用
  8. 题解:艾米利亚的施法
  9. 2021年安全员-C证(山东省-2021版)报名考试及安全员-C证(山东省-2021版)证考试
  10. 苹果音频线美国FCC认证办理