最近要做一些ocr的事情,阅读了文字定位的相关论文,主要是ctpn和east.下面对这两篇论文的药店进行一个记录。

CTPN

ctpn结合了卷积神经网络和循环神经网络。卷机神经网络用于提取图片特征,循环神经网络能够帮助提升对文字的定位和分类的准确度(文中对使用和不适用rnn的结果进行了对比)。

下面对网络结构进行一个介绍。

首先是通过VGG16的卷积层进行特征提取,这里使用了vgg的五层卷积。对vgg的五层卷积进行一个介绍:这五个卷积层每一层都进行了一次池化操作,池化后特征图的大小变为了原来的0.5倍。经过四次卷积层之后,特征图的大小与原图的比例为1:16.也就是说,当我们在特征图上移动一个像素位置时,在原图上则移动了16个像素位置。经过四层卷积层之后,在经过一次卷积操作,这次就不再进行池化,将得到的特征图用于之后的分类和定位。

我们得到这个特征图,假设他的shape是w*h*c,这里的w是宽度,h是高度,c是通道数。对特征图上每个位置以3*3的窗口进行滑窗,每一行都可以得到w个3*3*c的特征矩阵。我们可以知道,这里的一次滑窗(水平方向移动一个像素),在原图上对应的是在水平方向上移动16个像素。这里作者固定了水平方向上的位置,对竖直方向上的高度进行了预测。每个滑窗在原图上对应11个(可能记错了)anchor,这些anchor在水平方向上都是一样的大小和位置,但在竖直方向上的高度各不相同。这些anchor共享一个特征矩阵。

我们将得到的特征矩阵按行输入rnn中,也就是每次输入w个3*3*c的特征矩阵到rnn中,rnn输出大小为w*256的输出。将得到的输出传给全连接层进行特征的组合,再传入分类层和位置回归层。

这里的分类层将数据分为两类,分别是有字和无字。

位置回归层则根据预测的高度的偏离程度、预测的中心位置的偏离程度以及水平位置的微调进行位置回归。

损失函数的构造结合了类别分类的结果和位置偏离程度的计算。

最后将得到的宽度为16像素的框进行结合,则得到了文字的位置。

结合的判定规则比较简单,从水平距离和竖直距离上两个方向进行了判断。

注意:在训练时,输入图像的短边被resize成了600像素大小,原图像比例保持不变。

我们可以考虑调整的参数:针对具体的情景,比如如果我们要识别的文字大小是固定的,那么我们可以把anchor的高度进行调整,以更加适用于我们的具体情景。另外就是图像resize的大小,可以进行调整。其余的参数我认为没必要调整。

EAST

我认为east的思想比较简单。主要是结合了FPN的思想,将底层特征和上层特征进行了融合。据作者说,east的实验结果比之前的文字定位的效果都好,我个人还没有对训练好的结果进行实验,从思想上来说,我觉得ctpn的更加有趣些。east是一些比较经典的思想的融合,当然啦经典的常常有用。east的相比于ctpn来说,一个比较明显的优势是,它可以识别倾斜的文字,这一点ctpn是做不到的。

下面对网络结构进行一个介绍。首先是一些卷积层对特征进行了提取,然后对这些卷积得到的特征图通过上下采样的操作做融合,最后得到一个融合的特征图,这个特征图就结合了底层的细节特征,也结合了高层的语义信息。这种进行特征图融合的方式最早可以参见FPN,我在我的博客中也解读了这篇论文。融合后的特征图再输入到分类层和位置回归层中。

这里的位置回归层分为两种,分别是倾斜四边形的位置回归和矩形的位置回归。倾斜四边形的位置回归增加了一个倾角的预测。

ctpn、east阅读要点记录相关推荐

  1. spring容器_Spring容器文档阅读要点记录

    Spring容器文档阅读要点记录 相关的库代码位于 org.springframework.beans 和 org.springframework.context包下面 容器的基本的接口 基本接口:B ...

  2. java installanywhere_InstallShield InstallAnywhere 培训要点记录(一)

    posted on 2007-07-30 17:04 小牛小虾 阅读(2298) 评论(2)  编辑  收藏 评论 # re: InstallShield InstallAnywhere 培训要点记录 ...

  3. 【论文阅读】(2023.06.09-2023.06.18)论文阅读简单记录和汇总

    (2023.06.09-2023.06.12)论文阅读简单记录和汇总 2023/06/09:虽然下周是我做汇报,但是到了周末该打游戏还是得打的 2023/06/12:好累好困,现在好容易累. 目录 ( ...

  4. python二级备考一轮要点记录

    Python二级备考一轮要点记录(持续更新) 选择题公共基础部分 满二叉树与完全二叉树均为非线性结构,但可以按照层次进行顺序存储,所以非线性结构也可以用顺序存储结构. 对于关系模式,若其中的每个属性都 ...

  5. 【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总

    (2023.05.10-2023.06.08)论文阅读简单记录和汇总 2023/05/10:今天状态,复阳大残,下午淋了点雨吹了点风,直接躺了四个小时还是头晕- -应该是阳了没跑了. 2023/06/ ...

  6. Python书籍阅读与记录 6.17 I 文件和异常

    我感觉这样记录,对于我来说挺好的.因为我看两端对齐的语句容易走神,这样记录阅读的话,就很少出现之前的情况. 我写的初衷,也是自己来看,所以感觉写的不好的,请保留下意见,谢谢. 代码缩进情况,字体重复情 ...

  7. 支付宝支付开发要点记录

    完整的走完一个支付业务流程后,发现还是有不少需要注意的地方,为了避免时间长了忘记一些细节,这里先对一些流程和要点进行记录. 整体业务流程 支付宝支付分很多种支付方式,例如wap.web.app.当面付 ...

  8. 在docker 容器内安装网易云音乐要点记录

    我笔记本上现在装了Gentoo Linux, 担心不兼容,就把网易云音乐,WPS等装到Docker容器里面了,初始基于 ubuntu 镜像, docker daemon 配置成rootless con ...

  9. Python书籍阅读与记录 6.16 I 函数

    我感觉这样记录,对于我来说挺好的.因为我看两端对齐的语句容易走神,这样记录阅读的话,就很少出现之前的情况. 我写的初衷,也是自己来看,所以感觉写的不好的,请保留下意见,谢谢. 代码缩进情况,字体重复情 ...

最新文章

  1. 儿子转眼就长大:Hinton、LeCun、Bengio 口述神经网络简史
  2. 向 Internet Explorer 添加 Google 搜索
  3. Jenkins发布MVC应用程序
  4. python自动化构建工具_Python自动化构建工具scons使用入门笔记
  5. LeetCode 1221. 分割平衡字符串
  6. texture 纹理(贴图)
  7. java set的数据结构_set(集合)数据结构
  8. Adaline神经网络简单介绍和MATLAB简单实现
  9. html5变动标签新写法,HTML5新增的标签和废除的标签
  10. 02333自考软件工程知识点总结、考点串讲、考前复习
  11. sublime text3 最新注册码
  12. Java 核心编程技术干货,2019 最新整理版
  13. 薄膜压力传感器的原理和选型
  14. WIFI理论速度计算
  15. 有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二。问物几何?
  16. Problem Joseph。。。lzl==sz
  17. 倡导国稻种芯·中国水稻节 万祥军:农民丰收节金秋消费季
  18. MonkeyRunner_MonkeyRunner,MonkeyDevice,MonkeyImage可以调用的方法
  19. 英语日常用语900句(3)
  20. 打开任务管理器的方法

热门文章

  1. WampServer图标为黄色,无法启动的解决办法及思路
  2. 【SAP】为什么2023年后ABAP仍有广阔前景「来听听ChatGPT怎么说」
  3. 第七章 1什么是活动目录?活动目录有那些优点?
  4. 返利营销平台案例简略分析
  5. LeetCode-91.解码方法
  6. FileZilla使用方法
  7. 安装mysql最后一步未响应(解决方法)
  8. 转变自己的信仰——致少年的自己
  9. 可以学计算机辅修金融吗,本科计算机申请美国研究生,转金融工程,需要辅修什么专业?...
  10. 计算机视觉分析2019冠状病毒疾病的影响