在SSD的结构上做了一些改进使之更适合场景文字识别。
文字识别有助于区分文本和背景。

Contribution:一个端到端的场景文字识别模型。结合了检测和识别。高效。

文字检测可以大概分为三类:
1. Character-based: 单个字符的检测,之后组成words
2. Word-based:类似于一般的目标检测方法,生成一些word candidate,送到CNN中训练
3. Text-line-based:Text-line are detected and then broken into words.
TextBoxes是第三种。CRNN输出图像的文字序列,结合TextBoxes和CRNN。使用CRNN的confidence scores 输出去修正TextBoxes的dectections 输出。

TextBoxes 的结构:

多层输出连接到Text-box layers,之后接非极大值抑制(NMS)
Text-box layers 是TextbBoxes的关键。类似于SSD,输出buondingbox坐标和分类分数。
default box 的应该根据任务来设计。words倾向于比较大的ratio aspect,扁长形。同时取消在垂直方向上的bounding box。即flip = False 。因为垂直方向上大的ration aspect 的default box和groundtruth 重合的很少。
在Text-box layers 中使用1*5的卷积代替3*3的卷积。长方形的感受野和扁长型的words更合适。
和SSD具有相同的损失函数,不过分类L(conf)从多分类变成两类,文本和背景。
多尺度输入。测试的时候将图片变成不同的尺度输入网络,进行预测。不同于训练,训练的时候还是只有一个尺度。

CRNN进行文本识别
a recognizer can help eliminating false-positive detection results that are unlikely to be meaningful words
将TextBoxes产生的boundingbox,应用用S来代替原来的分数,之后再接一个NMS。CRNN是一个训练好的模型。
text spotting:和文字检测不同的是,可以利用带字典的文字识别进行调整检测结果,最终是用文字检测的结果进行评判

对SSD的修改(根据自己的数据修改):
max_ration
aspect_ration
normalizations
mbox_layer{kernel_size:[1,5],pad=[0,2]}
flip
min_dim
resize_height
resize_width

论文: TextBoxes相关推荐

  1. AI 博士生获201万最高档年薪,华科学子连续三年入选华为“天才少年”!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 文末送5本北京大学出版社<GAN生成对抗神经网络> 来源 ...

  2. 年薪201万!华中科大AI博士生入选华为天才少年计划!

    来源 | 楚天都市报极目新闻等 转载自:AI科技评论  | 编辑:维克多.青暮 近日,华中科技大学电信学院2017级博士生廖明辉及该校计算机学院本科毕业生武敏颜,一起入选华为"天才少年&qu ...

  3. 华为200万年薪“天才少年”,来自985华中科技大学

    转载于 软科 近日,华中科技大学电信学院2017级博士生廖明辉,及计算机学院本科毕业生武敏颜,二人一起入选华为"天才少年"计划.其中,廖明辉斩获最高档年薪201万元!武敏颜年薪也超 ...

  4. 华科学子连续三年入选华为 “天才少年” !毕业生获201万最高档年薪!

    点击"开发者技术前线",选择"星标????" 让一部分开发者看到未来 来源 | 楚天都市报极目新闻等 转自 | AI科技评论 近日,华中科技大学电信学院2017 ...

  5. 年薪201万!华中科大CV博士生入选华为天才少年计划!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 来源 | 楚天都市报极目新闻等 转载自:AI科技评论  | 编辑:维克多.青暮 近日,华中科技大学电信学院2 ...

  6. 《TextBoxes: A Fast Text Detector with a Single Deep Neural Network》论文笔记

    参考博文: 日常阅读论文,这是在谷歌学术上搜索其引用CRNN的相关文献中被引数量比较高的一篇OCR方向的文章,这里拿来读一读. 文章目录 make decision step1:读摘要 step2:读 ...

  7. (OCR论文)Mask TextSpotter V3机翻

    <Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting>,ECCV 2020, ...

  8. 干货 | 一文总结旋转目标检测全面综述:论文方法与代码

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|计算机视觉联盟 1.RRPN(两阶段文字检测 华科白翔组 ...

  9. 【每周CV论文】深度学习文本检测与识别入门必读文章

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 文本检测和识别是计算机视觉的一个非常重要的应 ...

最新文章

  1. python avg函数_学习python第三天之多行函数
  2. Linux Shell 命令--grep
  3. Chrome V8系列--浅析Chrome V8引擎中的垃圾回收机制和内存泄露优化策略
  4. mapreduce shuffle过程
  5. epoll使用详解(精髓)
  6. 【哲学】《哲学的故事》笔记
  7. java如何写线程外部类_廖雪峰Java读书笔记(六)--多线程(或称并发)
  8. uwp选取文件夹并读取其中的图片
  9. 二进制求和Python解法
  10. 如何用spring boot写一个注册页面
  11. 数据迁移测试_自动化数据迁移测试
  12. 禅道备份功能_更新禅道燃尽图及数据备份
  13. Java SAO操作-使用lambda代替字符串
  14. Python基础-高级变量类型
  15. iOS企业证书申请介绍
  16. 万事俱备只欠东风 区块链数字资产一定是财富的未来!
  17. css与javascript小案例,使用css3和javascript开发web拾色器实例代码
  18. 优酷中转码是什么意思
  19. C#dataGridView 知识(示例代码)以及相关的经验技巧
  20. Windows bat 脚本简单用法

热门文章

  1. 计算机考试不在学籍库,有消息!中考报名将由学籍库直接导入,取消学校考试排名........
  2. 上善若水,水利万物而不争
  3. 视频倍速调整(ffmpeg)
  4. 进程调度之5:系统调用exit与wait4
  5. 什么是内网穿透技术?简单实用、永久免费内网穿透工具有哪些?
  6. python爬取公众号文章数据库,爬取微信公众号所有文章的请教
  7. UI文案设计技巧,视觉与内容兼具不再是梦
  8. kodexplorer可道云插件之控制台
  9. 【vue】vue用了keep-alive生命周期只执行一次怎么办?
  10. 趁1024,来总结2022年流走的10个月