ChengLin Liu_ICCV2017_Deep Direct Regression for Multi-Oriented Scene Text Detection

作者

关键词

文字检测、多方向、直接回归、4个点、one-stage

方法亮点

  • 第一次提出Direct Regression这个概念
  • 提出用Scale & shift方案来降低坐标位置学习的难度

方法概述

本文方法首次提出直接回归的概念,用自己搭建的FPN网络结构,直接学习四个点相对于中心点(feature map上的某个点)的偏移量,并用Scale & shift方案来缩小要学习目标的值范围。

方法框架流程

方法细节

Direct Regression概念

Faster R-CNN、SSD这种需要用anchor进行参考,学习的是目标和groundTruth参数分别相对于anchor的偏移量,这种方法称为不直接回归。直接回归指的是直接学习目标和groundTruth参数的偏移量,而不利用anchor作为中间桥梁。

Figure 1. Visualized explanation of indirect and direct regression. The solid green lines are boundaries of text “Gallery”, the dash blue lines are boundaries of text proposal, and the dashed yellow vectors are the ground truths of regression task. (a) The indirect regression predicts the offsets from a proposal. (b) The direct regression predicts the offsets from a point.

网络结构

自己设计的网络结构。

anchor方案针对长条形斜文字的问题

Figure 2. Illustration for the deficiency of anchor mechanism in detecting long and heavily inclined text words or lines. The solid yellow lines are boundaries of the text line and the dashed lines are boundaries of anchors. There is no anchor that has sufficient overlap with the text line in this image.

分类损失

分类损失
  • Scale & shift

    之所以采用这个方式是因为假设文字大小少于400。因此,本来要学习的z范围是0~400,但通过这种scale and shift之后要学习的目标范围变成了0~1,更易于回归(类似于一个normalize的过程)。

  • smooth-L1损失

Recalled Non-Maximum Suppression
  • 思路: 先用正常NMS,然后分数低的框都往分数最高的框那边移动(有overlap的情况下),最后再合并相近的框

GroundTruth生成

把距离文字中心线上像素距离为r的点为正样本,其他文字区域内的部分置位"NOT CARE"。对于某些偏小的文字或者是偏大的文字,都设为"NOT CARE"。之所以这样设计是因为减少text和non-text之间的confusion。

Figure 5. Visualized ground truths of multi-task. (a) The left map is the ground truth for classification task, where the yellow regions are positive, enclosed by “NOT CARE” regions colored in light sea-green. The right map is the ground truth of “top-left” channel for regression task. Values grow smaller from left to right within a word region as pixels are farther from the top left corner. (b) The corresponding input image of the ground truths.

其他细节点
  • 数据扩增:样本随机旋转0,90,180,270度
  • 网络的定位损失权重先减少后增加(The network should learn what the text is first and then learn to localize the text )

实验结果

  • ICDAR15

  • MSRA-TD500

  • ICDAR2013

总结与收获

这篇文章是第一次提出直接回归的概念,对后来有些文章的思想还是比较有启发性的。

转载于:https://www.cnblogs.com/lillylin/p/9954898.html

【论文速读】ChengLin_Liu_ICCV2017_Deep_Direct_Regression_for_Multi-Oriented_Scene_Text_Detection...相关推荐

  1. 【论文速读】城市自动驾驶应用的概率语义地图

    点云PCL免费知识星球,点云论文速读. 标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications 作者:D ...

  2. 【论文速读】RandLA-Net大规模点云的高效语义分割

    点云PCL免费知识星球,点云论文速读. 文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qi ...

  3. 【论文速读】基于投影方法的激光雷达点云处理比较

    点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...

  4. 【论文速读】基于图像的伪激光雷达三维目标检测

    点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...

  5. 【点云论文速读】最佳点云分割分析

    点云PCL免费知识星球,点云论文速读. 标题:Learning to Optimally Segment Point Clouds 作者:Peiyun Hu, David Held 星球ID:part ...

  6. 【点云论文速读】点云高质量3D表面重建

    点云PCL免费知识星球,点云论文速读. 标题:Local Implicit Grid Representations for 3D Scenes 作者:Chiyu "Max" Ji ...

  7. 【点云论文速读】6D位姿估计

    点云PCL免费知识星球,点云论文速读. 标题:MoreFusion: Multi-object Reasoning for 6D Pose Estimation from Volumetric Fus ...

  8. 【点云论文速读】点云分层聚类算法

    点云PCL免费知识星球,点云论文速读. 标题:PAIRWISE LINKAGE FOR POINT CLOUD SEGMENTATION 作者:Lu, Xiaohu and Yao, Jian and ...

  9. 【ECCV2016论文速读】回归框架下的人脸对齐和三维重建

    本文来源微信公众号:深度学习大讲堂,已授权发布. 作者:刘峰,四川大学计算机学院生物特征识别实验室博士三年级学生,导师游志胜教授.赵启军博士.研究方向为机器学习与模式识别(三维人脸建模与识别.二维人脸 ...

  10. 【点云论文速读】基于优化的视觉惯导里程计与GPS的紧耦合的融合方案

    转载自:https://mp.weixin.qq.com/s/Y-h7eto1Zc_Mkzlh653vpg [点云论文速读]基于优化的视觉惯导里程计与GPS的紧耦合的融合方案 原创 dianyunPC ...

最新文章

  1. Android自定义Application的作用
  2. 【独家】搜狗黎志:创新和竞争是推动时代发展的原动力
  3. CentOSserverMysql主从复制集群结构
  4. pydev集成mysql_【Python】Windows平台下Python、Pydev连接Mysql数据库
  5. 怎么实现阴影效果呢?
  6. Docker部署自己的短链接服务
  7. 晨哥真有料丨对她越好,越难脱单!
  8. pip install 报错 Error: Cannot uninstall ‘pyparsing‘ 的解决方法
  9. 信息泄露案件_圆通回应运单信息泄露案件:系主动报案,涉4万余条敏感信息...
  10. LOJ2424「NOIP2015」子串
  11. OpenSesame免费提供新冠病毒防疫准备和远程工作培训
  12. 08CMS之AJAX
  13. cad画钟表_CAD中,如何绘制时钟表? 来看看吧
  14. ae合成设置快捷键_ae技巧,使用ae实用小技巧
  15. vue 中使用 vue-amap(高德地图) 【'AMapUI' is not defined 】
  16. 关于通用人工智能的思考
  17. 类名.this与类名.class
  18. 如何理解电容电流超前电压90度
  19. 查看linux服务器的内存和CPU信息
  20. LeetCode数据库SQL题目记录(难度:简单)

热门文章

  1. mysql 日志 iteye_MySQL 日志
  2. pdo query获取mysql单行结果_php代码连不上mysql的可能?看看这个也许能给你点启发...
  3. springboot响应结果超长(7.8M)浏览器无法接收
  4. 腾讯IM可以实现聊天信息保存到本地服务器吗
  5. geotools绘制椭圆API
  6. Ubuntu提示软件更新
  7. nginx 配置路由
  8. 《万物互联》——2.3 理解智能设备
  9. 浅析java中clone()方法
  10. Sublime Text 全程指南