Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition,2020

自说自话:
本篇论文的贡献可以分为两大部分(目前先就下面第一点记录一下,别的就先不聊了。):

  • 针对文字识别任务的文本图像扩增方法和工具,相比普通的扩增方法能够达到更好的识别效果,核心原因是更能模仿场景文字的各种弯曲变形。另外,手写体的千变万化也给识别带来困难,本扩增方法对手写体识别也有很大益处。
  • 提出一种方法和网络让模型“学习如何扩增”(更有效/更难的数据)。

这个扩增方法在 github 上开源了代码,项目名为 Text Image Augmentation,后面就称其为 TIA 吧。TIA 被 PP-OCR 采用作为文本图像扩增方法之一,其与其他普通扩增方法的对比效果如下图 1。可以看到打印体以及手写体的扩增效果对比,TIA 更能/像场景图片中以及手写体中的妖娆模样 23333。


上图中主要体现的是 “变形” distort,在代码实现中还有其他两种“拉扯”stretch 和多段仿射变换 perspective,论文里面好像重点说的 distort。distort 过程中会先将图片分成高度不变宽度变小的若干片段,然后根据片段的宽度的大小按照 1/3 的比例确定各个分割点的“活动范围”,然后就随机让各点在各自的范围内随机取值,然后分段 warp 再拼接,示意图如下:

3 种效果的对比如下。
Distort:

Perspective:

Stretch:

另外:
如果扩增模型和识别模型是同时训练的,那有点对抗的意思;如果识别模型完全没动,那就是生成更好的样本。整体的示意图如下图 2,其中 Recognizer 有 loss,所以应该是对抗的:

Abstract

Introduction

Related Work

Methodology

Overall Framework

Text Augmentation

Learnable Agent

Experiments

Scene Text Datasets

Handwritten Text Datasets

Implementation Details

Ablation Study

Integration with State-of-the-art Methods

Conclusion

TIA(Text Image Augmentation) + LtA(Learn to Augmentation):文本图像扩增工具 + 学习生成更有效的训练样本相关推荐

  1. R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置x轴的标签文本使用粗体字体)

    R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置x轴的标签文本使用粗体字体) 目录

  2. R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置y轴的标签文本使用粗体字体)

    R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置y轴的标签文本使用粗体字体) 目录

  3. C++ text search文本检索在较长的文本段落中搜索单词的算法(附完整源码)

    C++ text search文本检索在较长的文本段落中搜索单词的算法 C++ text search文本检索在较长的文本段落中搜索单词的算法完整源码(定义,实现,main函数测试) C++ text ...

  4. python中text格式_python读取各种格式的文本

    1. 读取word文本 Python可以利用python-docx模块处理word文档,处理方式是面向对象的,python-docx模块会把word文档中的段落.文本.字体等都看做对象,对对象进行处理 ...

  5. Excel TEXT函数怎么把数值转换成文本

    Excel TEXT函数怎么把数值转换成文本 使用text()和&符号合并两个文本 =TEXT(B3,"0")&" - "&TEXT(C ...

  6. Text to image论文精读PDF-GAN:文本生成图像新度量指标SSD Semantic Similarity Distance

    SSD,全称为Semantic Similarity Distance,是一种基于CLIP的新度量方式,是西交利物浦大学学者提出的一种新的文本生成图像度量指标,受益于所提出的度量,作者进一步设计了并行 ...

  7. Learn Emacs in 21 Days: day 3 学习笔记

    子龙山人Learn Emacs in 21 Days: day 3 学习笔记 Youtube youku 用git 来管理emacs配置文件 廖雪峰的Git教程 外部程序修改init.el 自动重新加 ...

  8. learn more study less:如何高效学习

    博主狂言 几句有用的话 两个序 前言 如何使用本书 整体性学习策略-learn more study less 什么是整体性学习 结构 模型 熟悉的结构成熟结构 高速公路 整体性学习的顺序 获取阶段 ...

  9. 【文本图像超分辨】Scene Text Image Super-Resolution in the Wild

    引言 这是一篇最新发出来的论文,看样子要投NIPS2020,这个论文可以看作我以前介绍过的TextSR的升级版,两个作者都是同一个人.这篇论文的主要想法就是提出一个专门用来进行文本超分辨的数据集,并且 ...

最新文章

  1. Java中Thread中的实例方法_Java多线程2:Thread中的实例方法
  2. Android 用Animation-list实现逐帧动画
  3. 线程中CreateEvent和SetEvent及WaitForSingleObject的用法
  4. 电机PID实验--一文让你看透PID​
  5. Mendix将升级低代码软件开发平台,发布全新数字化生态系统、行业云
  6. CSS那些不大不小的事
  7. 推荐系统之粗排扮演的角色和算法发展历程
  8. python3.7怎么安装turtle_Python turtle安装和使用教程
  9. 地方舆情监测软件排名怎么评估的参考方法详解
  10. SAP官网学习教程(3) HANA数据库开发
  11. 使用 android adb命令 录像 screenrecord 和 截屏 screencap
  12. mysql start until_mysql 利用新建从库 使用 start slave until 恢复方法
  13. 数据分析中的统计检验方法- t检验、f检验、卡方检验、互信息
  14. Failed to introspect annotated methods on class 异常
  15. Mybatis-plus的Service
  16. Squid代理服务器(缓存加速之Web缓存层)
  17. 自媒体视频搬运,技术分享给大家!
  18. 模型基础——模型与材质
  19. 2D中小游戏开发C++游戏教程
  20. 计算机网络通信技术的重要性,浅议计算机网络通信的技术特点与发展前景

热门文章

  1. 【转】iTunes下载速度太慢?两招帮你提速!
  2. python集合(set)
  3. 他们成了爆款制造机!踩女性痛点精准到可怕,销售几乎都来自直播
  4. 【图像处理】CImage类的简单应用
  5. Zookeeper的学习与应用
  6. 儿童体验馆室内人员定位管理系统,儿童安全得到保障-新导智能
  7. 【渝粤教育】电大中专学前儿童科学教育 (4)作业 题库
  8. 华云数据又搞事情,这次是和VMware搞一个大事情
  9. Fire Spell Effects特效简单记录
  10. Cesium使用技巧 - 离线情况下使用自定义地图服务(取消对Bing地图的访问)