本文转载自:

http://www.cnblogs.com/lillylin/p/6118268.html

Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images


目录

  • 作者和相关链接
  • 方法概括
  • 创新点和贡献
  • 方法细节
  • 实验结果
  • 问题讨论
  • 总结与收获点
  • 参考文献

  • 作者和相关链接

    • 作者

      • Zhuoyao Zhong, z.zhuoyao@mail.scut.sdu.cn
        Lianwen Jin, lianwen.jin@gmail.com
        Shuye Zhang, shuye.cheung@gmail.com
        Ziyong Feng, feng.ziyong@mail.scut.edu.cn
      • School of Electronic and Information Engineering South China University of Technology Guangzhou, China
    • 论文下载
  • 方法概括

    • 方法称为DeepText(此方法不是Google的DeepText哦),先用Inception-RPN提取候选的单词区域,再利用一个text-detection网络过滤候选区域中的噪声区域,最后对重叠的box进行投票和非极大值抑制
  • 创新点和贡献

    • 对fasterRCNN进行改进用在文字检测上

      • Inception-RPN:RPN后接Inception,来提取候选单词区域(包括2类classification和box regression)

        • anchor的大小更加适合检测单词:4scales(32, 48, 64, 80)*6 aspect ratio(0.2, 0.5, 0.8, 1.0, 1.2, 1.5) = 24种prior bounding box
        • Inception:3*3 conv, 5*5 conv, 3*3 max-pooling
      • Multi-level region-of-interest pooling(MLRP): ROI pooling从原来只用Conv5变成了Conv5+Conv4的两层(MLRP)
      • Ambiguous Text Category(ATC): 把文字和非文字的两类变成了三类,文字(IOU>0.5),非文字(IOU<0.2),有歧义的文字(IOU在0.2~0.5之间),原理是加入了更多的监督信息,使得分类效果更好
    • 对重叠box的去重方法(亮点不多)
    • 实验结果(F值)很高,ICDAR2011-0.83,ICDAR2013-0.85,速度约是平均每张图像1.7s(gpu k40)
  • 方法细节

    • 网络框架图(Inception-RPN+text detection):两个网络,Inception-RPN和text detection网络共享了conv1~conv5(来自于VGG16)。

  • 实际测试时流程:

    1. 输入一张图像,经过Conv1~Conv5生成卷积后的feature map
    2. feature map输入到Inception-RPN得到候选区域(score, bounding box)
    3. 候选区域经过非极大值抑制,选择前k个proposals
    4. 把k个proposals对应的在1.中Conv5生成的feature map上提取每个proposal的卷积特征,输入到text detection网络中得到每个proposal的score和Bounding box(regression调整过的)
    5. 对得到的检测结果(重复,互相包含)进行迭代投票和过滤,找到分数最高的最优检测结果
  • Ambiguous Text Category(ATC)的出发点
    • 如下图,按照一般的IOU>0.5为正样本,IOU<0.5为负样本,会导致单词串的某一段本该属于正样本的被当做负样本,对分类造成干扰,因此,更好的方法是把IOU>0.5的当正样本,IOU<0.2的当负样本,IOU处在中间的这部分单独成一类,表示歧义的一类,这样会使得分类准确率更高

  • Multi-level region-of-interest pooling(MLRP)的修改

    • VGG-16的模型配置

  • ROI Pooling的修改:将Conv4_3和Conv5_3(即Conv4的第三层卷积和Conv5的第三层卷积)的feature map单独进行ROI pooling,再把这两层Pooling后的feature map用一个1*1的卷积进行融合,这里1*1的卷积除了融合多通道(两层)信息,还有一个作用,就是降维,为下一步的FC做准备。

  • 训练过程

    • 多任务损失函数

      • 总的损失(p和p*表示测试和gt的label, t和t*是测试和gt的bounding box,t = {tx, ty,tw, th}

  • Lcls是softmax loss,分类误差(下图参考softmax回归)

  • Lreg是smooth-L1 loss,回归误差(下图来自论文参考文献1)

  • 详细算法过程(讲真,太详细了有点)

    • 算法思路简述:同一个样本,先用Inception-RPN训练,再训练text detection网络,detection网络要从Inception-RPN网络中选择,最后的时候更新整个网络权值,共享的部分要把两个模块的权值更新都加上。
  • 启发式后处理
    • 包括迭代bounding box的投票(参考文献2)和过滤两个部分,实际上就是个去重的过程,文章细节也没怎么讲
  • 实验结果

    • 值得一提的是文中的模型训练数据竟然只有4072个样本!!!
    • 证明Inception-RPN比原始RPN,SS,Edgebox等方法好

  • 证明MLRP和ATC的作用

  • ICDAR2011

  • ICDAR2013

  • 效果示例图

  • 问题讨论

    • 文中没有给出中间结果的示例图,比如inception-RPN之后得到的结果
  • 总结与收获点

    • 文中比较好的参考点是作者对fasterRCNN做的几个改进(在创新点中总结了)
    • 从实验结果上看,无论是F值还是速度,都确实挺好的,学习了~~
    • 一直想看的几篇文章,先mark一下
      • M. Busta, L. Neumann, and J. Matas. Fastext: Efficient unconstrained scene text detector. In Proc. ICCV, 2015.
      • C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proc. CVPR, 2015.
      • A. Veit, T. Matera, L. Neumann, J. Matas, and S. Belongie. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arxiv preprint arXiv:1601.07140, 2016.
      • X. Yin, X. Yin, K. Huang, and H. Hao. Robust text detection in natural scene images. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 36(5):970– 983, 2014.
      • S. Zhang, M. Lin, T. Chen, L. Jin, and L. Lin. Character proposal network for robust text extraction. In Proc. ICASSP, 2016.

【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural I相关推荐

  1. 论文阅读【ACM_2020】SimSwap: An Efficient Framework For High Fidelity Face Swapping

    论文阅读[ACM_2020]SimSwap: An Efficient Framework For High Fidelity Face Swapping 论文的缩写全拼 一.摘要(问题,贡献,效果) ...

  2. 【Wax】使用Wax (framework方式,XCode 4.6)

    前情提示:[Wax]使用Wax (非framework方式,XCode 4.6) 这次,将以framework的方式来使用Wax 那么,让我们开始吧!!! 准备工作: 下载wax.framework: ...

  3. 【网络】UCX(Unified Communication X )|统一抽象通信接口

    目录 UCX 的意义 UCX 通信接口简介 支持的传输(协议) UCX社区 UCX 编程模型简介 建立连接 内存注册 异步任务处理(重点) 使用UCX 编译debug版本 构建RPM包 构建DEB 包 ...

  4. 【论文翻译】 BMN: Boundary-Matching Network for Temporal Action Proposal Generation

    BMN: Boundary-Matching Network for Temporal Action Proposal Generation 边界匹配网络[时序动作提名] 1. Introductio ...

  5. 论文笔记30 -- (视频压缩)【CVPR2021】FVC: A New Framework towards Deep Video Compression in Feature Space

    <FVC: A New Framework towards Deep Video Compression in Feature Space> CVPR 2021 的一篇Oral 提出了特征 ...

  6. 【FLACC】A Greedy Agglomerative Framework for Clustered Federated Learning

    A Greedy Agglomerative Framework for Clustered Federated Learning一种用于聚类联邦学习的贪婪聚合框架 Abstract 1.INTROD ...

  7. 【免费】win7 所有.net framework框架集合,免费下载,若要运行此应用程序,您必须首先安装net framework如何解决

    运行软件缺失框架: 若要运行此应用程序 您必须首先安装net framework如何解决 那天我看见网上下载一个框架都要收费还要100大洋,现在真的是干啥都要钱,索性就整理了一个全库供大家下载,做点好 ...

  8. 【译】Understanding Universal Composition Framework and Sprites State Channels

    围绕EOS进行了很多讨论,以及为扩展性交易一些分权是否合理. 我想我想更好地理解第2层可扩展性解决方案(例如Lightning Network,Raiden). 特别是,我正在阅读Sprites和St ...

  9. 【C#】ADO .Net Entities Framework使用查询语句时遇到的错误

    XAML代码: <Window x:Class="WpfApplication72.MainWindow" xmlns="http://schemas.micros ...

最新文章

  1. gridview列 数字、货币和日期 显示格式
  2. 张一鸣卸任CEO,立下10年之约,期望突破线性延伸
  3. mysql查询各个知识点
  4. ajax值上传不过去,ajax上传时参数提交不更新等相关问题
  5. Newtonsoft.Json使用
  6. Android Studio的配置问题——Intel HAXM is required to run this AVD,VT-x is disabled in BIOS;
  7. 00018计算机应用基础2019年4月,2019年4月自考计算机应用基础考前试题和答案00018.pdf...
  8. Linux下的sleep()和sched_yield()
  9. 2018华工计算机应用基础作业,计算机应用基础平时作业2019
  10. 无敌简单快速的文件服务器sgfs
  11. 估值指标方法20190805
  12. 《PHP入门篇之使用教程》
  13. win 10计算机查找大文件,教你如何在Win10系统中查找大文件?
  14. Verilog仿真器
  15. 一级计算机ppt切换效果怎么做,PPT翻页效果、倒计时怎么做?一分钟变电脑大神...
  16. python第六周项目华容道_华容道游戏(中)
  17. socket.io实现聊天功能——第一章 、群聊
  18. python 使用excel画图
  19. 老树开新花之shellcode_launcher免杀Windows Defender
  20. 【数据库】mysql执行计划

热门文章

  1. mysql从零基础到基础熟练
  2. 安全服务工程师的自我修养
  3. 现在用自主建站系统的步骤
  4. 1、回测平台搭建——思路
  5. 链式队列,队列篇(链式队列的出队入队操作)
  6. Android中打开扬声器关闭麦克风的代码实现
  7. 面试高并发,凉了(全程高能,赶快收藏)
  8. 艰难的mimikatz源码编译免杀 Windows Defender
  9. ASEMI整流桥MB6S参数,MB6S规格尺寸,MB6S特征应用
  10. 【MySQL】 # MySQL对用户权限的简单操作:(1)创建新用户(2)赋权限