Sayre’s paradox

  • 读语音识别的论文Towards End-to-End Speech Recognition with Recurrent Neural Networks时,看到了这个名词。
  • Sayre’s paradox出现在1973年手写体识别的论文中:

A standard statement of the paradox is that a cursively written word cannot be recognized without being segmented and cannot be segmented without being recognized

指的是,手写单词如果不分成字母就无法识别,但是如果不识别的话就无法分成字母。

  • 这里的意思应该是这个过程没办法完全自动完成,只能预先对输入的手写单词设置一些规则,然后通过这些规则来分割成字母。但现实生活中,这样做就减少了手写体识别的意义。
  • 在语音识别中,可以引申为语音不分成帧就无法识别,但是如果不能识别出帧就无法分成帧。
  • 在OCR中,有研究人员提出了直接对一个单词进行识别,而不是对字母进行识别。在语音识别中,也有研究人员提出了端到端的语音识别,不再分成帧,然后每帧打标签。

CTC的核心思想

最近学习了一下序列模型,感觉之前了解了一点的CTC记不清了。贴一张之前帮女票总结的图,有空再来重新总结一下ctc以及其和attention的区别。

公式2-11中的a指的是alignment,指的是包含blank label和重复字符的序列,并且通过映射β\betaβ能得到transcription,也就是不包括blank label和重复字符的序列。
这里的公式主要是参考Towards end-to-end speech recognition with recurrent neural networks这篇论文。

CTC相关的历史

这篇博客最早是18年5月底发的,现在是18年12月,研究生入学后也没搞语音识别,女朋友也差不多算分了,但是突然还是想起来了CTC,回来看了一遍,补充了一些内容。

  • CTC最早出现在Alex Graves 于2006年发表在ICML上的论文,名字是叫Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks,论文我没看,现在谷歌学术上是1100多的引用。这个成果是大佬在瑞士IDSIA研究所读PhD时发表的,导师是LSTM的发明者Schmidhuber (也是非常有故事的一个前辈…)。Alex Graves后来跟着Hinton做了博后。
  • 到13年,Alex Graves在ICASSP这个会议上发了Speech Recognition with Deep Recurrent Neural Networks这篇文章,现在谷歌学术上显示引用3000多了,这篇文章里的实验是在TIMIT数据集上做音素级别的语音识别。
  • 14年,Alex Graves在ICML上发了Towards end-to-end speech recognition with recurrent neural networks这篇文章,目前谷歌学术显示引用了800多,这篇文章里的实验用的数据集是Wall Street Journal corpus,做的是字符级的识别,衡量标准是词错率。此时Alex Graves的单位已经是deep mind了,并且也没有了导师Hinton的署名。
  • 单看这两篇论文分别是在字符级和音素级上进行识别,是音素级效果更好(虽然不是一个数据集)。14年论文字符级识别的词错率跟我之前在TIMIT上实验的结果差不多。但是字符级能够接语言模型(语言模型是啥这里就不多说了),14年论文里也做了实验,性能提升非常大。而且字符级识别的结果直接就是我们想要的文本,因此论文题目才叫end-to-end。
  • 有意思的一点是两篇论文里的introduction有很大程度的相似,介绍LSTM和BRNN的图像也是相同的,可能这就是因为会议对查重率要求不高吧,也可以让大佬们更关注于介绍自己新的东西。

CTC 论文阅读笔记相关推荐

  1. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  2. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  3. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  4. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  5. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  6. PointConv论文阅读笔记

    PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...

  7. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  8. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  9. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

最新文章

  1. javamap的用法_Java Map常用的几种用法。
  2. 无限极分类中递归查找一个树结构
  3. Android Kotlin Coroutines ktx扩展
  4. confluence 为合并的单元格新增一行
  5. Ubuntu链接服务器
  6. Go语言逆向技术:常量字符串
  7. 运行VINS-mono:/home/tony-ws1/output/pose_graph/ not exists, trying to create it /home/tony-ws1/ou错误解决
  8. 回填用土好还是砂石料好_养猪用颗粒料好还是自配料好?其实各有优劣,养猪人要会选择...
  9. vue实现侧边栏手风琴效果
  10. [病毒木马] 什么是LSP劫持
  11. 51单片机驱动TM1638芯片+Proteus仿真
  12. 1407 :上三角矩阵的判断(c语言)
  13. 小米真蓝牙耳机说明书_【小米真无线蓝牙耳机Air 2评测使用说明书介绍】快充|降噪|蓝牙5.0|开盖即连|快捷操作_摘要频道_什么值得买...
  14. kettle | error working with XUL definition
  15. c语言中常用运算符号
  16. CQI的解释(完整版)
  17. 5月6阴阳师服务器维护,《阴阳师》手游5月6日维护更新公告
  18. 平均获客成本_互联网金融获客成本
  19. 【微信小程序/事件】事件响应的各种场景
  20. 悲观锁的实现方式java_并发编程--锁--悲观锁和乐观锁

热门文章

  1. 幕布,为知笔记和 Effie 哪个更适合单口或脱口秀作者?
  2. 适合年会玩的互动小游戏,赶紧打开看一看
  3. Xshell的舒服配色方案,否则蓝色看不清
  4. MBA数学应试七种武器
  5. 浅谈售后服务的备件管理
  6. 什么是A、NS、别名、MS记录
  7. BT.656标准简介-内同步并口-以及波形测量
  8. GPU异构计算基础知识
  9. 【我的Android进阶之旅】你了解adb device unauthorized的原因 和 adb授权机制的中adbkey与adbkey.pub的作用吗?
  10. 学生寝室电控系统的原理功能