CTC 论文阅读笔记
Sayre’s paradox
- 读语音识别的论文Towards End-to-End Speech Recognition with Recurrent Neural Networks时,看到了这个名词。
- Sayre’s paradox出现在1973年手写体识别的论文中:
A standard statement of the paradox is that a cursively written word cannot be recognized without being segmented and cannot be segmented without being recognized
指的是,手写单词如果不分成字母就无法识别,但是如果不识别的话就无法分成字母。
- 这里的意思应该是这个过程没办法完全自动完成,只能预先对输入的手写单词设置一些规则,然后通过这些规则来分割成字母。但现实生活中,这样做就减少了手写体识别的意义。
- 在语音识别中,可以引申为语音不分成帧就无法识别,但是如果不能识别出帧就无法分成帧。
- 在OCR中,有研究人员提出了直接对一个单词进行识别,而不是对字母进行识别。在语音识别中,也有研究人员提出了端到端的语音识别,不再分成帧,然后每帧打标签。
CTC的核心思想
最近学习了一下序列模型,感觉之前了解了一点的CTC记不清了。贴一张之前帮女票总结的图,有空再来重新总结一下ctc以及其和attention的区别。
公式2-11中的a指的是alignment,指的是包含blank label和重复字符的序列,并且通过映射β\betaβ能得到transcription,也就是不包括blank label和重复字符的序列。
这里的公式主要是参考Towards end-to-end speech recognition with recurrent neural networks这篇论文。
CTC相关的历史
这篇博客最早是18年5月底发的,现在是18年12月,研究生入学后也没搞语音识别,女朋友也差不多算分了,但是突然还是想起来了CTC,回来看了一遍,补充了一些内容。
- CTC最早出现在Alex Graves 于2006年发表在ICML上的论文,名字是叫Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks,论文我没看,现在谷歌学术上是1100多的引用。这个成果是大佬在瑞士IDSIA研究所读PhD时发表的,导师是LSTM的发明者Schmidhuber (也是非常有故事的一个前辈…)。Alex Graves后来跟着Hinton做了博后。
- 到13年,Alex Graves在ICASSP这个会议上发了Speech Recognition with Deep Recurrent Neural Networks这篇文章,现在谷歌学术上显示引用3000多了,这篇文章里的实验是在TIMIT数据集上做音素级别的语音识别。
- 14年,Alex Graves在ICML上发了Towards end-to-end speech recognition with recurrent neural networks这篇文章,目前谷歌学术显示引用了800多,这篇文章里的实验用的数据集是Wall Street Journal corpus,做的是字符级的识别,衡量标准是词错率。此时Alex Graves的单位已经是deep mind了,并且也没有了导师Hinton的署名。
- 单看这两篇论文分别是在字符级和音素级上进行识别,是音素级效果更好(虽然不是一个数据集)。14年论文字符级识别的词错率跟我之前在TIMIT上实验的结果差不多。但是字符级能够接语言模型(语言模型是啥这里就不多说了),14年论文里也做了实验,性能提升非常大。而且字符级识别的结果直接就是我们想要的文本,因此论文题目才叫end-to-end。
- 有意思的一点是两篇论文里的introduction有很大程度的相似,介绍LSTM和BRNN的图像也是相同的,可能这就是因为会议对查重率要求不高吧,也可以让大佬们更关注于介绍自己新的东西。
CTC 论文阅读笔记相关推荐
- 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...
- 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
- DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
- Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
- FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
- PointConv论文阅读笔记
PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...
- DCP(Deep Closest Point)论文阅读笔记以及详析
DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
- 2019 sample-free(样本不平衡)目标检测论文阅读笔记
点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...
- keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记
背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...
最新文章
- javamap的用法_Java Map常用的几种用法。
- 无限极分类中递归查找一个树结构
- Android Kotlin Coroutines ktx扩展
- confluence 为合并的单元格新增一行
- Ubuntu链接服务器
- Go语言逆向技术:常量字符串
- 运行VINS-mono:/home/tony-ws1/output/pose_graph/ not exists, trying to create it /home/tony-ws1/ou错误解决
- 回填用土好还是砂石料好_养猪用颗粒料好还是自配料好?其实各有优劣,养猪人要会选择...
- vue实现侧边栏手风琴效果
- [病毒木马] 什么是LSP劫持
- 51单片机驱动TM1638芯片+Proteus仿真
- 1407 :上三角矩阵的判断(c语言)
- 小米真蓝牙耳机说明书_【小米真无线蓝牙耳机Air 2评测使用说明书介绍】快充|降噪|蓝牙5.0|开盖即连|快捷操作_摘要频道_什么值得买...
- kettle | error working with XUL definition
- c语言中常用运算符号
- CQI的解释(完整版)
- 5月6阴阳师服务器维护,《阴阳师》手游5月6日维护更新公告
- 平均获客成本_互联网金融获客成本
- 【微信小程序/事件】事件响应的各种场景
- 悲观锁的实现方式java_并发编程--锁--悲观锁和乐观锁