CTC Loss (一）

论文：https://mediatum.ub.tum.de/doc/1292048/file.pdf

在文本识别模型CRNN中，一张包含单行文本的图片输入模型经过CNN、LSTM后输出 $m\times T$ 大小的feature map，假设T=25表示时间序列长度，m=26代表需要识别的字符集的大小（假设只识别小写英文字母），对每一个时间步 $t(1\leqslant t\leqslant T)$ 接softmax后就得到识别结果的概率分布，对每一个时间步 $t$ 满足 $\sum_{k=1}^{26}y_{k}^{t}=1$ ，但是在与label进行loss计算时需要先将图片中的每一个字符与label对齐，这就需要对单个字进行位置和语义标注，非常麻烦。而且由于字体样式和大小的关系，每列输出并不一定能和每个字符一一对应。ctc loss是一种专门针对这种场景不需要对齐的loss计算方法。接下来介绍ctc loss的具体计算方法

空白blank

$L=\left \{ a,b,c,...,x,y,z \right \}$ 表示预先定义的模型待识别字符集，因为输入图片中有的位置没有文字，引入空白blank字符，下文以 - 表示blank，LSTM的输出变成 $(m+1)\times T$

$\beta$变换

定义$\beta$变换，LSTM输出首先经过decode，然后经过$\beta$变换得到最终结果。$\beta$变换包括删除连续重复字符以及blank。例如，当T=12时，下列四个输出 $\pi _{1} - \pi _{4}$ 经过$\beta$变换都变成state。

$\beta (\pi _{1})=\beta (--stta-t---e)=state$

$\beta (\pi _{2})=\beta (sst-aaa-tee-)=state$

$\beta (\pi _{3})=\beta (--sttaa-tee-)=state$

$\beta (\pi _{4})=\beta (sst-aa-t---e)=state$

给定输入 $x$ ，模型输出为 $l$ 的概率为

$\pi \in \beta ^{-1}(l)$ 表示所有经过 $\beta$ 变换后是 $l$ 的路径 $\pi$

其中，对于任意一条路径 $\pi$ 有

注意这里 $y_{\pi _{t}}^{t}$ 中的 $\pi _{t}$ ，下标 $t$ 表示路径 $\pi$ 中的每一个时刻。而上面 $\pi _{1}-\pi _{4}$ 的下标表示不同的路径

ctc的训练目标是通过梯度 $\frac{\partial p(l|x)}{\partial w}$ 调整模型权重 $w$ ，使得 $p(l|x)$ 最大

在实际训练过程中，LSTM的输出特征图T的大小少为几十多则几百，如果遍历每一条路径，复杂度是指数级的，假如识别的是汉字，字符集长度 $m$ 为几千，序列长度 $T$ 上百，那要遍历 $m^{T}$ 种选择，速度太慢。实际CTC借用了HMM的"前向 - 后向"（forward - backward)算法来计算 $p(l|x)$ ，具体过程如下

首先定义路径 $l^{'}$ 为在路径 $l$ 的头尾和每两个字符间插入blank

显然 $|l^{'}|=2|l|+1$

定义所有经 $\beta$ 变换后结果是 $l$ 且在 $t$ 时刻结果为 $l_{k}$ 的路径集和为 $\left \{ \pi |\pi \in \beta ^{-1}(l),\pi _{t}=l_{k} \right \}$ ，求导

上式中第二项与 $y_{k}^{t}$ 无关，因此

$\frac{\partial p(l| x)}{\partial y_{k}^{t}}$ 就是恰好与概率 $y_{k}^{t}$ 相关的路径，即 $t$ 时刻都经过 $l_{k}(\pi _{t}=l_{k})$

上述的 $\pi _{1},\pi _{2},\pi _{3},\pi _{4}$ 在 $t=6$ 时都经过 $\pi _{6}=a$ （此处下标代表路径 $\pi$ 的 $t$ 时刻的字符），所有类似于 $\pi _{1},\pi _{2},\pi _{3},\pi _{4}$ 经过 $\beta$ 变换后结果是 $l=state$ 且在 $\pi _{6}=a$ 的路径集和表示为 $\left \{ \pi |\pi \in \beta ^{-1}(l),\pi _{6}=a \right \}$

如图，蓝色路径和红色路径分别为上述的 $\pi _{1}$ 和 $\pi _{2}$ ， $\pi _{1}$ 和 $\pi _{2}$ 可以表示为

$\pi _{3}$ 和 $\pi _{4}$ 可以表示为

则

令

则

推广一下，所有经过 $\beta$ 变换结果为 $l$ 且 $\pi _{6}=a$ 的路径 $\left \{ \pi |\pi \in \beta ^{-1}(l),\pi _{6}=a \right \}$ 可以写成如下形式

进一步推广，所有经过 $\beta$ 变换结果为 $l$ 且 $\pi _{t}=l_{k}$ 的路径 $\left \{ \pi |\pi \in \beta ^{-1}(l),\pi _{t}=l_{k} \right \}$ 可以写成如下形式

定义前向递推概率和 $forward=\alpha _{t}(s)$

其中 $\pi \in \beta (\pi _{1:t})=l_{1:s}$ 表示路径 $\pi$ 的前 $t$ 个字符经过 $\beta$ 变换变成 $l$ 的前 $s$ 个字符， $\alpha _{t}(s)$ 代表了 $t$ 时刻经过 $l_{s}$ 的所有路径的 $1\sim t$ 的概率和，即前向递推概率和。

当 $t=1$ 时，路径只能从 $blank$ 或 $l_{1}$ 开始，所以 $\alpha _{t}(s)$ 有如下性质：

同理，定义后向递推概率和 $backward=\beta _{t}(s)$

其中 $\pi \in \beta (\pi _{t:T})=l_{s:|l|}$ 表示后 $T-t+1$ 个字符经过 $\beta$ 变换为 $l_{s:|l|}$ 后半段子路径， $\beta _{t}(s)$ 表示 $t$ 时刻经过 $l_{s}$ 的所有路径的 $t\sim T$ 的概率和，即后向递推概率和。

当 $t=T$ 时，路径只能以 $blank$ 或 $l_{|l^{'}|}$ 结束，所以 $\beta _{t}(s)$ 有如下性质：

计算递推loss

$forward$ 和 $backward$ 相乘有

当计算loss对ctc输入即LSTM输出中的某个值 $y_{k}^{t}$ 的梯度时，只需考虑所有经过 $y_{k}^{t}$ 的路径，因此可以得到

梯度如下

接下来只需计算出 $\alpha _{t}(l_{k})$ 和 $\beta _{t}(l_{k})$ 即可

前面我们给出了 $\alpha _{t}(s)$ 的初始条件，即 $t=1$ 时，路径只能从 $blank$ 或 $l_{1}$ 开始。

当 $t$ 时刻字符 $s$ 为 $blank$ 时， $\alpha _{t}(s)$ 可以由当前 $blank$ 字符 $\alpha _{t-1}(s)$ 或前一个非空白字符 $\alpha _{t-1}(s-1)$ 得到。
当 $l_{s}^{'}=l_{s-2}^{'}$ 即当前字符 $s$ 不是 $blank$ 且和前一个字符相同时， $\alpha _{t}(s)$ 可以由当前字符 $\alpha _{t-1}(s)$ 或前一个 $blank$ 字符 $\alpha _{t-1}(s-1)$ 得到，如下图所示

当 $t$ 时刻字符 $s$ 不是 $blank$ 且 $l_{s}^{'}\neq l_{s-2}^{'}$ 时， $\alpha _{t}(s)$ 可以由当前字符 $\alpha _{t-1}(s)$ 、前一个 $blank$ 字符 $\alpha _{t-1}(s-1)$ 、前一个非空白字符 $\alpha _{t-1}(s-2)$ 得到，如下图所示

由此可以得到递推公式

根据初始条件和递推公式，便可以用动态规划计算出 $\alpha _{t}(s)$ ，代码如下

import numpy as npdef alpha_vanilla(y, labels):  # labels是插入blank后的T, V = y.shape  # T: time step, V: probsL = len(labels)  # label lengthalpha = np.zeros([T, L])# initalpha[0, 0] = y[0, labels[0]]alpha[0, 1] = y[0, labels[1]]for t in range(1, T):for i in range(L):s = labels[i]a = alpha[t - 1, i]if i - 1 >= 0:a += alpha[t - 1, i - 1]if i - 2 >= 0 and s != 0 and s != labels[i - 2]:a += alpha[t - 1, i - 2]alpha[t, i] = a * y[t, s]return alpha

同理可得后向递推公式

def beta_vanilla(y, labels):T, V = y.shapeL = len(labels)beta = np.zeros([T, L])# initbeta[-1, -1] = y[-1, labels[-1]]beta[-1, -2] = y[-1, labels[-2]]for t in range(T - 2, -1, -1):for i in range(L):s = labels[i]a = beta[t + 1, i]if i + 1 < L:a += beta[t + 1, i + 1]if i + 2 < L and s != 0 and s != labels[i + 2]:a += beta[t + 1, i + 2]beta[t, i] = a * y[t, s]return beta

计算梯度

求导中，分子第一项是因为 $\alpha (k)\beta (k)$ 中分别包含一个 $y_{k}^{t}$ 项，其它项均为与 $y_{k}^{t}$ 无关的常数。

另外， $l$ 中可能包含多个 $k$ 字符，因为计算的梯度要进行累加。例如 $l=state$ ， $y_{k}^{t}=y_{k=t}^{t=20}$ ，即求 $LSTM$ 输出中 $timestep=20$ 处的 $t$ 字符的梯度，这里的 $t$ 可能通过 $\beta$ 变换成 $state$ 中的第一个 $t$ 也可能变换成第二个 $t$ 。因此，最终的梯度计算结果为

其中， $lab(l,k)=\left \{ s:l_{s}=k \right \}$

一般我们优化似然函数的对数，梯度如下

其中， $p(l|x)=\alpha _{T}(|l^{'}|)+\alpha _{T}(|l^{'}|-1)$ 可直接求得

梯度计算代码如下

def gradient(y, labels):T, V = y.shapealpha = alpha_vanilla(y, labels)beta = beta_vanilla(y, labels)p = alpha[-1, -1] + alpha[-1, -2]grad = np.zeros([T, V])for t in range(T):for s in range(V):lab = [i for i, c in enumerate(labels) if c == s]for i in lab:grad[t, s] += alpha[t, i] * beta[t, i]grad[t, s] /= y[t, s] ** 2grad /= preturn grad

参考

一文读懂CRNN+CTC文字识别 - 知乎

【Learning Notes】CTC 原理及实现_MoussaTintin的博客-CSDN博客

Sequence Modeling with CTC

CTC Loss (一）相关推荐

【项目实践】中英文文字检测与识别项目（CTPN+CRNN+CTC Loss原理讲解）
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自:opencv学堂 OCR--简介文字识别也是图像领域一 ...
DL之CNN：利用CNN(keras, CTC loss, {image_ocr})算法实现OCR光学字符识别
DL之CNN:利用CNN(keras, CTC loss)算法实现OCR光学字符识别目录输出结果实现的全部代码输出结果更新-- 实现的全部代码部分代码源自:GitHub https://r ...
语音识别：深入理解CTC Loss原理
最近看了百度的Deep Speech,看到语音识别使用的损失函数是CTC loss.便整理了一下有关于CTC loss的一些定义和推导.由于个人水平有限,如果文章有错误,还恳请各位指出,万分感谢~ ...
【OCR】CTC loss原理
1 CTC loss出现的背景在图像文本识别.语言识别的应用中,所面临的一个问题是神经网络输出与ground truth的长度不一致,这样一来,loss就会很难计算,举个例子来讲,如果网络的输出是& ...
深入浅出CTC loss
前言本片博客主要学习了CTC并在动态规划求CTC loss的理解上学习了这篇博客由于在看的过程中,还是花了很长时间反复推敲作者的理解,因此在这边用更加简单的话来解释一下CTC loss 背 ...
语音识别 CTC Loss
(以下内容搬运自 PaddleSpeech) Derivative of CTC Loss 关于CTC的介绍已经有很多不错的教程了,但是完整的描述CTCLoss的前向和反向过程的很少,而且有些公式推导 ...
『OCR_recognition』CTC loss几种解码方式
文章目录前言一.贪心搜索 (greedy search) 1.1 原理解释 1.2 图示说明 1.3 代码实现二.束搜索(Beam Search) 2.1 原理解释 2.2 图示说明 2.3 代 ...
分类回归loss函数汇总分析
2019独角兽企业重金招聘Python工程师标准>>> 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq_14845119/ar ...
10万元奖金语音识别赛进行中！CTC 模型 Baseline 助你轻松上分
随着互联网.智能硬件的普及,智能音箱和语音助手已经深入人们的日常生活,家居场景下的语音识别技术已成为企业和研究机构竞相追逐的关键技术. 目前,由北京智源人工智能研究院.爱数智慧.biendata 共同 ...

CTC Loss (一）

参考

CTC Loss (一）相关推荐

最新文章

热门文章