CTC 论文阅读笔记

Sayre’s paradox

读语音识别的论文Towards End-to-End Speech Recognition with Recurrent Neural Networks时，看到了这个名词。
Sayre’s paradox出现在1973年手写体识别的论文中：

A standard statement of the paradox is that a cursively written word cannot be recognized without being segmented and cannot be segmented without being recognized

指的是，手写单词如果不分成字母就无法识别，但是如果不识别的话就无法分成字母。

这里的意思应该是这个过程没办法完全自动完成，只能预先对输入的手写单词设置一些规则，然后通过这些规则来分割成字母。但现实生活中，这样做就减少了手写体识别的意义。
在语音识别中，可以引申为语音不分成帧就无法识别，但是如果不能识别出帧就无法分成帧。
在OCR中，有研究人员提出了直接对一个单词进行识别，而不是对字母进行识别。在语音识别中，也有研究人员提出了端到端的语音识别，不再分成帧，然后每帧打标签。

CTC的核心思想

最近学习了一下序列模型，感觉之前了解了一点的CTC记不清了。贴一张之前帮女票总结的图，有空再来重新总结一下ctc以及其和attention的区别。

公式2-11中的a指的是alignment，指的是包含blank label和重复字符的序列，并且通过映射β\betaβ能得到transcription，也就是不包括blank label和重复字符的序列。
这里的公式主要是参考Towards end-to-end speech recognition with recurrent neural networks这篇论文。

CTC相关的历史

这篇博客最早是18年5月底发的，现在是18年12月，研究生入学后也没搞语音识别，女朋友也差不多算分了，但是突然还是想起来了CTC，回来看了一遍，补充了一些内容。

CTC最早出现在Alex Graves 于2006年发表在ICML上的论文，名字是叫Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks，论文我没看，现在谷歌学术上是1100多的引用。这个成果是大佬在瑞士IDSIA研究所读PhD时发表的，导师是LSTM的发明者Schmidhuber （也是非常有故事的一个前辈…）。Alex Graves后来跟着Hinton做了博后。
到13年，Alex Graves在ICASSP这个会议上发了Speech Recognition with Deep Recurrent Neural Networks这篇文章，现在谷歌学术上显示引用3000多了，这篇文章里的实验是在TIMIT数据集上做音素级别的语音识别。
14年，Alex Graves在ICML上发了Towards end-to-end speech recognition with recurrent neural networks这篇文章，目前谷歌学术显示引用了800多，这篇文章里的实验用的数据集是Wall Street Journal corpus，做的是字符级的识别，衡量标准是词错率。此时Alex Graves的单位已经是deep mind了，并且也没有了导师Hinton的署名。
单看这两篇论文分别是在字符级和音素级上进行识别，是音素级效果更好（虽然不是一个数据集）。14年论文字符级识别的词错率跟我之前在TIMIT上实验的结果差不多。但是字符级能够接语言模型（语言模型是啥这里就不多说了），14年论文里也做了实验，性能提升非常大。而且字符级识别的结果直接就是我们想要的文本，因此论文题目才叫end-to-end。
有意思的一点是两篇论文里的introduction有很大程度的相似，介绍LSTM和BRNN的图像也是相同的，可能这就是因为会议对查重率要求不高吧，也可以让大佬们更关注于介绍自己新的东西。

CTC 论文阅读笔记相关推荐

论文阅读笔记（15）：Deep Subspace Clustering with Data Augmentation，深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强摘要 1 介绍 2 相关工作带增强的聚类方法具有一致 ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
PointConv论文阅读笔记
PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...
DCP（Deep Closest Point）论文阅读笔记以及详析
DCP论文阅读笔记前言本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
2019 sample-free（样本不平衡）目标检测论文阅读笔记
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...
keras cnn注意力机制_2019 SSA-CNN（自注意力机制）目标检测算法论文阅读笔记
背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

CTC 论文阅读笔记

Sayre’s paradox

CTC的核心思想

CTC相关的历史

CTC 论文阅读笔记相关推荐

最新文章

热门文章