语音识别——语言模型

本博客主要是摘写洪青阳教授的《语言识别-原理与应用》的笔记，不足之处还请谅解。

语音识别为：根据输入的观察值序列O，找到最可能的词序列W^\hat{W}W^。按照贝叶斯准则，识别任务可做如下转化：
W^=argmax⁡WP(W∣O)=arg⁡max⁡P(W)P(O∣W)P(O)\hat{W}= {\underset {W}{\operatorname {arg max} }}\,P(W|O)=\arg\,\max\frac{P(W)P(O|W)}{P(O)} W^=WargmaxP(W∣O)=argmaxP(O)P(W)P(O∣W)
其中，P(O)P(O)P(O)和识别结果WWW无关，可忽略不急，因此W^\hat{W}W^的求解可进一步简化为：
W^=arg max⁡WP(W)P(O∣W)\hat{W}={\underset {W}{\operatorname{arg\,max}}}\,P(W)P(O|W) W^=WargmaxP(W)P(O∣W)
要找到最可能的词序列，必须使上式右侧两项的乘积最大。其中，P(O∣W)P(O|W)P(O∣W)由声学模型决定，P(W)P(W)P(W)由语言模型决定。

声学模型就是前面学过的，通过声音进行分析的模型。

语言模型用来表示词序列出现的可能性，用文本数据训练而成，是语音识别系统重要的组成部分，如下图所示。

上图即为我们熟知的语音识别框架。

语言模型用来表示词语序列出现的可能性，可以基于语法规则，也可以基于统计方法。

基于规则的语言模型：来源于语言学家掌握的语言学知识和领域知识，或者根据特定应用设定语法规则，一般仅能约束受限领域内的句子。

统计语言模型：通过对大量文本语料进行处理，获取给定词序列的概率分布，从而能够客观描述隐含的规律，适合于处理大规模真实文本。统计语言模型已被广泛应用于语音识别、机器翻译、文本校对等多个领域。

而要训练一个适用性强的统计语言模型，就需要大量的、不同的、能覆盖用户各种表达方式的文本语料。

所有的句子都有开始位置和结束位置，分别用<s>和</s>表示，可认为这两个特殊标记是两个词。语言模型刻画词与词之间的组合可能性，通过分词，将句子进一步转换为词与词之间的组合概率关系。

即统计语言模型的目标是计算出给定词序列w1,⋯,wt−1,wtw_1,\cdots,w_{t-1},w_tw1,⋯,wt−1,wt的组合概率：
P(W)=P(w1w2⋯wt−1wt)=P(w1)P(w2∣w1)P(w3∣w1w2)⋯P(wt∣w1w2⋯wt−1)P(W)=P(w_1w_2\cdots w_{t-1}w_t)\\ =P(w_1)P(w_2|w_1)P(w_3|w_1w_2)\cdots P(w_t|w_1w_2\cdots w_{t-1}) P(W)=P(w1w2⋯wt−1wt)=P(w1)P(w2∣w1)P(w3∣w1w2)⋯P(wt∣w1w2⋯wt−1)
其中，条件概率P(w1),P(w2∣w1),P(w3∣w1w2),⋯,P(wt∣w1w2⋯wt−1)P(w_1),P(w_2|w_1),P(w_3|w_1w_2),\cdots,P(w_t|w_1w_2\cdots w_{t-1})P(w1),P(w2∣w1),P(w3∣w1w2),⋯,P(wt∣w1w2⋯wt−1)就是语言模型。

计算所有这些概率值的复杂度较高，特别是长句子的计算量很大，因此需做简化，一般采用最多n个词组合的n-gram模型。

n-gram模型

所谓n-gram模型，表示n个词之间的组合概率模型。在n-gram模型中，每个预测变量wtw_twt之与长度为n-1的上下文：
P(wt∣w1⋯wt−1)=P(wt∣wt−n+1wt−n+2⋯wt−1)P(w_t|w_1\cdots w_{t-1})=P(w_t|w_{t-n+1}w_{t-n+2}\cdots w_{t-1}) P(wt∣w1⋯wt−1)=P(wt∣wt−n+1wt−n+2⋯wt−1)
即n-gram预测的词概率值依赖于前n-1个词，更长距离的上下文依赖被忽略。考虑到计算代价，在实际应用中一般取1≤n≤51\leq n \leq 51≤n≤5。

当n=1,2和3时，相应的模型分别成为一元模型、二元模型和三元模型。

一元模型和多元模型有明显的区别，一元模型没有引入“语境”，对句子的约束最小，其中的竞争最多。而多元模型对句子有更好的约束能力，解码效果更好。

但相应地，n越大，语言模型就越大，解码速度也越慢。

而语言模型的概率均从大量文本语料估计得到。针对一元模型，可简单地计算词的出现次数。

假设有1000个句子，其中：

“我们”出现100次，“明年”出现30次，“日子”出现10次，······
总共有21000个词标签，其中包括1000个结束符</s>

一元模型的计算如下：

P(“我们”) = 100/21000
P(“明年”) = 30/21000
P(“日子”) = 10/21000
P(</s>) = 1000/21000

一元模型的示意图如下：

而二元模型的计算如下。假设这1000句语料中出现下面两个词的组合情况如下：

10句以“我们”开头，5句以“明天”开头，……
2句以“日子”结尾，……
1次出现“我们明年”，3次出现“我们彼此”，……

则二元模型计算如下：

P(“我们”|) = 10/1000
P(“明天”|) = 5/1000
P(</s>| “日子”) = 2/10 ，“日子”出现10次
P(“明年”|“我们”) = 1/100 ，“我们”出现100次
P(“彼此”|“我们”) = 3/100

得到下表：

所以，二元模型的组合图如下：

三元模型用来表示前后三个词之间的组合可能性，其概率计算公式为
P(w3∣w1w2)=count(w1w2w3)/count(w1w2)P(w_3|w_1w_2)=count(w_1w_2w_3)/count(w_1w_2) P(w3∣w1w2)=count(w1w2w3)/count(w1w2)
假设“我们明天”出现2次，“我们明天开始”出现1次，则
P(开始∣我们明天)=1/2P(开始|我们明天)=1/2 P(开始∣我们明天)=1/2
当句子只有一个词，例如”是“，其实也表示三个词，即”<s>是</s>“，因此要单独识别"是"，也得有这样一个词的句子。

三元模型的概率关系图如下：

评价指标——困惑度

给定句子S,其包含词序列w1,w2,⋯,wTw_1,w_2,\cdots,w_Tw1,w2,⋯,wT，T是句子长度，则困惑度（Perplexity）表示为：
PPL(W)=P(w1w2⋯wT)−1T=1P(w1w2⋯wT)TPPL(W)=P(w_1w_2\cdots w_T)^{-\frac{1}{T}}=\sqrt[T]{\frac{1}{P(w_1w_2\cdots w_T)}} PPL(W)=P(w1w2⋯wT)−T1=TP(w1w2⋯wT)1
Perplexity又称困惑度(PPL)， PPL越小，