TIA（Text Image Augmentation） + LtA（Learn to Augmentation）：文本图像扩增工具 + 学习生成更有效的训练样本

2024-03-24 18:40:58

Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition，2020

自说自话：
本篇论文的贡献可以分为两大部分（目前先就下面第一点记录一下，别的就先不聊了。）：

针对文字识别任务的文本图像扩增方法和工具，相比普通的扩增方法能够达到更好的识别效果，核心原因是更能模仿场景文字的各种弯曲变形。另外，手写体的千变万化也给识别带来困难，本扩增方法对手写体识别也有很大益处。
提出一种方法和网络让模型“学习如何扩增”（更有效/更难的数据）。

这个扩增方法在 github 上开源了代码，项目名为 Text Image Augmentation，后面就称其为 TIA 吧。TIA 被 PP-OCR 采用作为文本图像扩增方法之一，其与其他普通扩增方法的对比效果如下图 1。可以看到打印体以及手写体的扩增效果对比，TIA 更能/像场景图片中以及手写体中的妖娆模样 23333。

上图中主要体现的是 “变形” distort，在代码实现中还有其他两种“拉扯”stretch 和多段仿射变换 perspective，论文里面好像重点说的 distort。distort 过程中会先将图片分成高度不变宽度变小的若干片段，然后根据片段的宽度的大小按照 1/3 的比例确定各个分割点的“活动范围”，然后就随机让各点在各自的范围内随机取值，然后分段 warp 再拼接，示意图如下：

3 种效果的对比如下。
Distort:

Perspective：

Stretch：

另外：
如果扩增模型和识别模型是同时训练的，那有点对抗的意思；如果识别模型完全没动，那就是生成更好的样本。整体的示意图如下图 2，其中 Recognizer 有 loss，所以应该是对抗的：

Abstract

Introduction

Related Work

Methodology

Overall Framework

Text Augmentation

Learnable Agent

Experiments

Scene Text Datasets

Handwritten Text Datasets

Implementation Details

Ablation Study

Integration with State-of-the-art Methods

Conclusion

TIA（Text Image Augmentation） + LtA（Learn to Augmentation）：文本图像扩增工具 + 学习生成更有效的训练样本相关推荐

R语言ggplot2可视化：ggplot2中使用element_text函数设置轴标签文本粗体字体（bold text,只设置x轴的标签文本使用粗体字体）
R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置x轴的标签文本使用粗体字体) 目录
R语言ggplot2可视化：ggplot2中使用element_text函数设置轴标签文本粗体字体（bold text,只设置y轴的标签文本使用粗体字体）
R语言ggplot2可视化:ggplot2中使用element_text函数设置轴标签文本粗体字体(bold text,只设置y轴的标签文本使用粗体字体) 目录
C++ text search文本检索在较长的文本段落中搜索单词的算法(附完整源码)
C++ text search文本检索在较长的文本段落中搜索单词的算法 C++ text search文本检索在较长的文本段落中搜索单词的算法完整源码(定义,实现,main函数测试) C++ text ...
python中text格式_python读取各种格式的文本
1. 读取word文本 Python可以利用python-docx模块处理word文档,处理方式是面向对象的,python-docx模块会把word文档中的段落.文本.字体等都看做对象,对对象进行处理 ...
Excel TEXT函数怎么把数值转换成文本
Excel TEXT函数怎么把数值转换成文本使用text()和&符号合并两个文本 =TEXT(B3,"0")&" - "&TEXT(C ...
Text to image论文精读PDF-GAN：文本生成图像新度量指标SSD Semantic Similarity Distance
SSD,全称为Semantic Similarity Distance,是一种基于CLIP的新度量方式,是西交利物浦大学学者提出的一种新的文本生成图像度量指标,受益于所提出的度量,作者进一步设计了并行 ...
Learn Emacs in 21 Days: day 3 学习笔记
子龙山人Learn Emacs in 21 Days: day 3 学习笔记 Youtube youku 用git 来管理emacs配置文件廖雪峰的Git教程外部程序修改init.el 自动重新加 ...
learn more study less：如何高效学习
博主狂言几句有用的话两个序前言如何使用本书整体性学习策略-learn more study less 什么是整体性学习结构模型熟悉的结构成熟结构高速公路整体性学习的顺序获取阶段 ...
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild
引言这是一篇最新发出来的论文,看样子要投NIPS2020,这个论文可以看作我以前介绍过的TextSR的升级版,两个作者都是同一个人.这篇论文的主要想法就是提出一个专门用来进行文本超分辨的数据集,并且 ...

最新文章

热门文章