LM在speech recognition中的应用

今天我们来看看language model(简称LM)在speech recognition中的应用。
首先来看上图，LM主要可以预测token sequence 的几率，虽然我们的LAS中其实只需要P(Y|X)的数值即可，但在实际操作中我们还是会加上P(Y)的数值，我们知道P(Y|X)需要的都是成对的数据，但是P(Y)非常容易去收集。
我们可以看看，Google的语音训练模型一共使用了12500个小时的声音讯号，而这些基本就有一亿个词汇，相当于100套哈利波特的字数！这也说明数据量会非常的大。而如果知道BERT的话，我们可以知道BERT就可以看作一个非常大的LM,它里面会有30亿个词的样子。
在接下来我们介绍一种N-gram的方法，比如我们收集到了一句话“wreck a nice beach”，要计算它的P(y1,y2,……,yn),如果我们选择用N-gram的方法，那么我们可以选择2-gram，就可以把P(“wreck a nice beach”)拆成P(wreck|START)P(a|wreck)P(nice|a)P(beach|nice)，就比较便于我们的计算了，但是N-gram也有它的问题。
如果我们的文本数据库中没有出现一些用法的话我们的模型就会将这些搭配产生的几率设置为0，但这很明显是不对的，因此我们使用一种叫做language model smoothing的东西，来给没有出现过的词汇设置一个很小很小的几率即可。
我们再来介绍Continuous LM,这就是预测模型了，比如我们通过收集数据发现，A,C喜欢第一部凉宫春日的忧郁的同时也很喜欢第二部电磁炮，那么我们看到B很喜欢凉宫春日的忧郁，那么我们就可以给他推荐电磁炮，很有可能这也是他很喜欢的番。
我们由上图可以看出我们设置h1,h2……和v1,v2……然后可以将每一种搭配用n以及下边I,j来表示，比如n12=v1∙h2,然后呢，我们只需要分析loss函数，就是上图中L的那个式子。
如果我们发现两列的h向量非常的相似，那么我们就可以使用上文提到的language model smoothing来根据一列的来预测另一列的。
上图就是具体的模式的。
下面我们再来介绍NN -based LM，它就可以来预测下一个词汇是什么通过自己的数据库。
上图也说明了该过程，每一个单词都有一个1-of-N encoding,然后通过Neural Network,就可以得到P(next word is “****”)的几率了。
其实上述操作在03年就有科学家已经尝试过了，但是一直没有被很重视。
上面都是一些科学家的研究成果，人们最后发现其实LM并不一定需要极其复杂的模型也可以有很好的效果，所以现在的研究方向基本都不会设置一个非常复杂的模型。
下面是最后一个问题，怎样使用LM来改善LAS呢？我们有3中方法，根据什么时候来整合数据，以及如何整合数据可以分成3类。下面我们看图来分析这三类。

LM在speech recognition中的应用相关推荐

语音识别 Speech recognition 中的 CTC cost，CTC损失函数（学习心得）
seq2seq 模型在语音识别方面的应用让人激动! 什么是语音识别问题呢? 气压随着时间推移不断变化,产生了音频人的耳朵可以衡量不同频率和强度的声波输入整个原始的音频片段 raw audio cl ...
JS中的语音识别——Speech Recognition API
JS中的语音识别--Speech Recognition API 简介 HTML5中和Web Speech相关的API实际上有两类,一类是"语音识别(Speech Recognition)& ...
语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
Deep Audio-Visual Speech Recognition翻译
原文链接:https://arxiv.org/pdf/1809.02108.pdf 这是一篇较为系统的介绍音视频融合的语音识别文章.翻译参考博客园一篇翻译,进行了大量修正和增补. 摘要本文的目的是基 ...
（ICASSP 19）Streaming End-to-end Speech Recognition for Mobile Devices
会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...
Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
语音识别系列1：语音识别Speech recognition综述
名词约定: 语声识别----- VOICE RECOGNITION 语音识别-----SPEECH RECOGNITION 1 什么是语声识别VOICE RECOGNITION? 语音或说话者识别是程 ...
“Imperceptible,Robust,and Targeted Adversaria lExamples for Automatic Speech Recognition”
背景: 1.对抗样本大多用于图像领域: 2.目前用于音频的对抗样本有两个缺点: (1)容易被人类察觉改进方法:频率掩蔽.通过使用另外一种充当"掩蔽器"的信号对对抗性样本进行掩护 ...

LM在speech recognition中的应用

LM在speech recognition中的应用相关推荐

最新文章

热门文章