云从科技的Pixel-Anchor论文解读

导读参考
目前基于深度学习的文本检测框架可以分为两类,一类是基于像素级别的图像语义分割,另一类是来源于通用的物体检测框架,譬如基于锚 (anchor) 的检测和回归。
基于像素分割的文本检测框架首先通过图像语义分割获得可能的文本像素,之后通过像素点直接回归或者对文本像素的聚合得到最终的文本定位;而基于锚检测回归的文本检测框架是在通用物体检测的基础之上,通过设置更多不同长宽比的锚来适应文本变长的特性,以达到文本定位的效果。
基于像素分割的文本检测往往具有更好的精确度,但是对于小尺度的文本,因为适用的文本像素过于稀疏,检出率通常不高,除非以牺牲检测效率为代价对输入图像进行大尺度的放大;基于锚检测回归的文本检测对文本尺度本身不敏感,对小文本的检出率高,但是对于大角度的密集文本块,锚匹配的方式会不可避免的陷入无法适从的矛盾之中,此外,由于这种方法是基于文本整体的粗粒度特征,而并不是基于像素级别的精细特征,它的检测精度往往不如基于像素分割的文本检测。对于中文这样文本长度跨度很大的语言,目前的这两种方法在长文本上的效果都不尽人意。

这是一种端到端的深度学习文本检测框架Pixel-Anchor,通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。此外,对于如中文这样文本长度跨度很大的语言,在Pixel-Anchor中,提出了一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。

pixel-anchor针对east部分的改进-pixel


针对EAST的改进,文章延续FOTS对EAST的改进,
以下插件:ASPP OHEM:对分类和回归。
ASPP来自deeplab中,其主要作用是在不降低feature map分辨率的情况下,提升网络的感受野,即可以提升模型获取上下文信息的能力。它会带来什么效果呢?
首先,是分割效果更为精准。分割一个物体,网络往往借助的是该物体周围的信息,比如,分割前景,我们需要找到背景信息;当感受野变大时,对于较长的文本或者较大的文本,可以很好的找到其边界,进而分割出较高质量的文本区域;其次,感受野的提升,会使得回归距离变长。即geo_map中的值表示,当前像素到四条边的距离。而网络建立起当前像素与边界之间的距离关系。当上下文信息充足时,可以准确的建立起距离关系,进而边界预测足够精准。因此文章加入ASPP的作用主要是以上两点,分割精准+边界定位精准。
OHEM常用来进行困难样本挖掘。对于文字区域的分割,存在样本的不平衡,文字区域往往占比比较小,背景占比比较大。同时,对于一张图中的多个文本,小的文本区域的损失往往被大文本区域损失覆盖;而且还有一种情况,背景中存在难以区分的样本,这些背景容易导致模型将类似的文本区域分为背景。因此加入OHEM,可以对这部分背景信息进行挖掘,同时在训练过程中正负样本进行均衡,避免了类别不均衡的问题。以上就是该文章对EAST部分的改进。其实OHEM来自FOTS对EAST的改进,ASPP在此之前已经尝试过,确实会带来边界预测的提升。对于这部分EAST,除了预测以往的文本区域的score_map和geo_map, 同时预测一张attention map用于对anchor-based分支的信息的辅助。

pixel-anchor针对SSD部分的改进-anchor


文章在EAST的基础上,加入了anchor-based检测分支,主要针对文字尺度以及宽高比较大的变化,文章对SSD进行了定制。如上面右图所示。文章主要利用来自ResNet50中的1/4和1/16的feature map:对于1/4的map,由于其处于底层,因此具有一定的分辨率,对于检测较小的文字具有一定优势。同时由于此处的特征语义信息较弱,文章将east分支得到的attention map用在此处,主要为了对该层加入一定的语义信息。具体操作为,对来自east的attention map输出进行exp激活,然后与1/4 feature map进行对应位置的加权。这么做的好处是,对1/4feature map上的信息,属于文本的像素进行加强,对于不属于文本的像素进行抑制,突出文本信息。文章说,这么做可以很大程度的减少错误检测。这里需要解释下为什么anchor-based的方法检测小目标会出现较高的fp.原因在于,在较高分辨率的feature map上生成proposals时,由于像素点比较多,目标较小,因此整张图中网格都处于负样本区域,极少数网格落在正样本区域。这样在预测是,负样本较正样本多,而且负样本的方差较大,因此容易导致分类的错误,因此容易出现fp.对于1/16的map,文章进一步的进行特征提取,一是为了获得更大的感受野,二是为了获得多尺度的信息。分别为1/32. 1/64, 1/64, 1/64。但是为了避免出现很小的feature map,文章在后面的feature map保持在1/64。但为了继续提升感受野,文章在后面两个尺度的的生成时,加入了空洞卷积,在分辨率不减小的情况下,获得较大感受野。对于每一层的feature map,文章在其后加入APL层,层中内容如上图右图中的左半部分所示,分别为不同的卷积核搭配不同的宽高比,实现对不同尺度,不同角度的文本的cover.如3x3为方框,3x5主要为了检测水平倾斜的文字,5x3为了检测垂直倾斜的文字。1xn,nx1主要为了检测水平和竖排长行的文字。可以看到有夸张的1:35,35:1的宽高比,这在中文场景是很常见的。在经过以上APL层之后,将得到的proposal进行拼接,预测最终搞得四边形区域。

云从科技的Pixel-Anchor论文解读相关推荐

  1. 顶会VLDB‘22论文解读:CAE-ENSEMBLE算法

    摘要:针对时间序列离群点检测问题,提出了基于CNN-AutoEncoder和集成学习的CAE-ENSEMBLE深度神经网络算法,并通过大量的实验证明CAE-ENSEMBLE算法能有效提高时间序列离群点 ...

  2. 顶会CIKM‘21论文解读:基于图神经网络的人类行为轨迹恢复模型

    摘要:本文是由华为云数据库创新Lab联合电子科技大学数据与智能实验室发表在顶会CIKM'21的文章,该文章提出首个克服人类移动轨迹数据中普遍存在的多层次周期性.周期偏移现象以及数据稀疏问题的轨迹恢复模 ...

  3. 突破性能极限——阿里云神龙最新ASPLOS论文解读

    作者 | 阿里云神龙团队 责编 | 徐威龙 封图| CSDN 下载于视觉中国 日前,ASPLOS 2020公布了计算机界最新科技成果,其中包括阿里云提交的名为<High-density Mult ...

  4. 点云配准的端到端深度神经网络:ICCV2019论文解读

    点云配准的端到端深度神经网络:ICCV2019论文解读 DeepVCP: An End-to-End Deep Neural Network for Point Cloud Registration ...

  5. AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架

    来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...

  6. AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法

    来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow 编辑 | Carol 出品 | AI科技大 ...

  7. 【0514 更新中】CVPR2019 论文解读汇总

    CVPR2019 论文解读汇总(0514 更新中) 原文 http://bbs.cvmart.net/topics/287/cvpr2019 计算机视觉顶会CVPR 2019 接收结果已经出来啦,相关 ...

  8. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  9. NLP带来的“科幻感”超乎你的想象 - ACL2020论文解读

    来源 | 京东智联云开发者 责编 | Carol 近些年,人工智能无疑是信息技术领域最热门的技术之一.人工智能战胜世界围棋冠军.人工智能战胜游戏高手.人工智能医生看病会诊--不断进步的科技正推动着人工 ...

最新文章

  1. SpringBoot实现通用的接口参数校验
  2. java datetime int_关于jodatime:Java中DateTime对象之间的小数天数
  3. Open source robotics toolkits: use virtual arenas to test your robotics algorithms
  4. 什么是O/RMapping?为什么要用O/R Mapping?
  5. iservice list方法_MyBatis-Plus 通用IService使用详解
  6. php 枚举类型比较,java 枚举类比较是用==还是equals?
  7. 带有Oracle Digital Assistant和Fn Project的会话式UI。 第二部分
  8. 支付宝手机h5网页支付不再提供「继续浏览器付款」按钮了吗
  9. 陈景润:激励青年勇攀科学高峰的典范
  10. vue-cli禁用eslint的方式
  11. Android Studio 设置代码提示和代码自动补全快捷键
  12. Python-Django框架学习笔记——第一课:Hello World
  13. 常用的php函数,PHP 常用函数汇总
  14. svchost.exe 占用 21 端口,无法开启FTP服务(已解决)
  15. 开发一个程序基本思路
  16. 【工具】免费的英语语法在线检查工具收集汇总
  17. TCL/TK文件操作
  18. [GitHub][2014-05-11 18:34:13]eqq-python
  19. 2013.08.08——— android 中文简繁体转换
  20. VS2013运行库/MD、/MDd、/MT、/MTd

热门文章

  1. nn.Sequential()
  2. 向 Dockerfile 传参 --build-arg 遇到的一些小坑
  3. 我的留英日记[转载]
  4. 视频号哪些领域值得做变现机会更大:国仁楠哥
  5. 比大衣保暖,比羽绒服显瘦!这件高级反貂绒毛衣火了!不起球不掉毛,明明毛茸茸的却巨显瘦,舒适又保暖....YYDS!...
  6. Elastic:使用 Elastic Stack 来监督系统日志及指标
  7. python函数快查快用
  8. PlayMaker 1.9 烦人的小提示
  9. 135微信编辑器html模式,135微信编辑器如何使用 135微信编辑器使用方法教程
  10. 微信小程序农历阳历日期选择器选中日期同时获取对应农/阳历日期 这个demo问题的修改