SPIN:用于场景文本识别的保留结构的内部偏移网络

Paper : 论文地址

本文提出的方法主要解决色彩失真的图片。如下图中的(c)和(d)

SPIN(Structure-Preserving Inner Offset Network),一种可学习的几何无关的矫正,可以对网络中的原数据进行颜色处理。可以在任何识别体系结构之前插入此模块,以减轻下游任务的负担,使神经网络能够主动转换输入亮度,而不仅仅是空间校正。 它也可以作为已知空间变换的补充模块,并以独立和协作的方式与它们一起工作。

色彩失真可以分为两种情况(上图),分别称为模式间(inter-pattern)和模式内(intra-pattern)问题。 把有相同亮度的所有像素表示为结构模式(structure-pattern)模式间问题意味着噪声模式接近文本模式(例如,对比度或亮度差)或紧密文本模式的亮度分散。 因此,它需要将文本模式和背景模式分开,同时将字符聚合为统一的文本模式。如上图(a),分离开 “ L”,“ O”,“ V”,“ E”和背景的亮度后,文本变得更容易识别,而字符的亮度保持接近。模式内问题意味着文本模式会受到阴影,遮挡等噪声的干扰。上图(b)所示,左下方的阴影与“ L”混合,这个问题应该避免。 因此,一个好的色彩矫正器应该有能力同时处理这两种情况。

首先解释两个概念:通道亮度偏移量(表示为内部偏移量 inner offset)和空间偏移量 (表示为外部偏移量 outter offset)。内部偏移量旨在减轻色彩失真,例如提到的模式间和模式内的问题,而外部偏移量则包含了几何校正。

Chromatic Transformation

SPIN(Structure-Preserving Inner Offset Network) 网络旨在从更广的角度纠正输入模式,并解决 STR 任务中出现的颜色或亮度问题,减轻了色彩失真,使物体的形状更清晰。SPIN包括两个部分:SPN(Structure Preserving Network)和 AIN(Auxiliary Inner-offset Network)。SPN 负责减轻模式间问题引起的不规则现象。 AIN 是一个辅助网络,用于区分由模式内问题引起的不规则性。这两个组成部分可以相互促进。 因此,对于固有的形状的文本,校正后的图像将在视觉上变得更清晰,然后更易于识别。

Structure Preserving Network (SPN)

受结构保留变换(SPT 1)的启发,发现这种失真通常对基于深度学习的分类器而言是致命的,还发现基于 SPT 的变换还可以通过强度操纵来纠正颜色失真的图像。

给定输入图像 x∈Ix \in \mathcal{I}x∈I,让 x′∈I′x' \in \mathcal{I}'x′∈I′ 表示变换后的图像。在图像 I\mathcal{I}I 上的变换 T\mathcal{T}T 可以表示为:
x′(i,j)=T[x(i,j)]x'(i, j) = \mathcal{T}[x(i, j)] x′(i,j)=T[x(i,j)]
其中 x(i,j)x(i,j)x(i,j) 和 x′(i,j)x'(i,j)x′(i,j) 分别是输入和输出图像在坐标 (i,j)(i,j)(i,j) 的的亮度。SPT 的一般形式定义为多个幂函数的线性组合:
x′=T(x)=sigmoid(∑iωixβi)x' = \mathcal{T} (x) = sigmoid(\sum_{i} \omega_i x^{\beta_i}) x′=T(x)=sigmoid(i∑​ωi​xβi​)
其中 βi\beta_iβi​ 是第 iii 个基本幂函数的指数,ωi\omega_iωi​ 是相应的权重。通过将每个像素的强度归一化到 [0,1] 中,总强度空间可以分散到 K 个子空间中。 每个空间可以在一定的线性约束下通过指数函数建模 yi=xiβiy_i = x_i^{\beta_i}yi​=xiβi​​ ,其中 xi=i2(K+1),yi=1−i2(K+1),i=1,2,3,...,K+1x_i = \frac{i}{2(K+1)}, y_i = 1 - \frac{i}{2(K+1)}, i = 1, 2,3,..., K+1xi​=2(K+1)i​,yi​=1−2(K+1)i​,i=1,2,3,...,K+1 。然后,成对的 2K + 1参数可以表示为:
βi={round(log⁡(1−i2(K+1))log⁡i2(K+1),2),1≤i≤K+1round(1βi−(K+1),2),K+1≤i≤2K+1\beta_i = \begin{cases} round(\frac{\log(1 - \frac{i}{2(K+1)})}{\log{\frac{i}{2(K+1)}}}, 2), 1 \leq i \leq K+1 \\ round(\frac{1}{\beta_{i-(K+1)}}, 2), K+1 \leq i \leq 2K+1 \end{cases} βi​=⎩⎨⎧​round(log2(K+1)i​log(1−2(K+1)i​)​,2),1≤i≤K+1round(βi−(K+1)​1​,2),K+1≤i≤2K+1​
这些 β\betaβ 指数可以基于域来选择,或者为了简单起见可以预先固定。 K 定义了转换亮度的复杂度。 较大的 K 将支持更复杂和更细粒度的色彩空间。 ω\omegaω 是从通过卷积生成的。 因此,基于 SPN 的转换可以概括为:
x′=T(x)=sigmoid(∑iW(i)sHSPN(x)xβi)x' = \mathcal{T}(x) = sigmoid(\sum_{i} W_{(i)}^s \mathcal{H_{SPN}}(x)x^{\beta_i}) x′=T(x)=sigmoid(i∑​W(i)s​HSPN​(x)xβi​)
其中 WsW^sWs 和 HSPN(⋅)\mathcal{H_{SPN}}(\cdot)HSPN​(⋅) 分别是 Block8 权重的部分和特征提取器, WsHSPN(⋅)W^s \mathcal{H_{SPN}}(\cdot)WsHSPN​(⋅) 是从 Block8 中输出的 (2K+1) 维的部分,总共有 (2K+2) 维。

本质上是通过过滤输入图像的亮度级别来实现结构保留。原始图像中所有具有相同亮度级别的像素在变换后的图像中具有相同的亮度级别,其中将亮度级别为 c 的集合 {(i,j)∣x(i,j)=c}\{ (i,j) | x(i,j) = c\}{(i,j)∣x(i,j)=c} 定义为结构模式。在两个方面利用这种基于单例的逐像素方式变换来提出 SPN,用于校正色彩失真:1. 通过将它们变为不同的强度级别,将有用的和不利的结构模式分离开来,产生更好的对比度和亮度;2. 通过将结构模式映射到接近的亮度级别来聚合不同级别的结构模式,有利于减轻碎片,渲染更统一的图像。这些适用于处理模式间问题,但对其他问题无能为力。

Auxiliary Inner-offset Network(AIN)

由于 SPN 试图通过利用单词或字符的空间不变性来分离和聚合特定的结构模式,因此莫名其妙地假设这些模式处于不一致的亮度下,即不同级别的结构模式。 但是,它没有考虑到干扰模式的亮度可以与有用模式的亮度度相似,即模式混淆(pattern confusion),从而引起模式内问题。所以提出了 AIN,通过解耦几何和色偏, AIN 将在每个坐标上生成色彩偏移( inner offset)。色彩偏移定义为:
g(x)=(1−α)∘x+α∘xoffsets,α=sigmoid(WzHSPN(x)),xoffsets=WaHAIN(x)\begin{aligned} & g(x) = (1 - \alpha) \circ x + \alpha \circ x_{\text{offsets}}, \\ & \alpha = sigmoid(W^z\mathcal{H_{SPN}}(x)), \\ & x_{\text{offsets}} = W^a \mathcal{H_{AIN}}(x) \end{aligned} ​g(x)=(1−α)∘x+α∘xoffsets​,α=sigmoid(WzHSPN​(x)),xoffsets​=WaHAIN​(x)​
WzW^zWz 是训练参数,Block8 的部分输出。WaW^aWa 是 AIN 模块的训练参数。HAIN(⋅)\mathcal{H_{AIN}}(\cdot)HAIN​(⋅) 是特征提取器,与 SPN 共享前 3 个 blocks 的参数。通过一个可学习的更新门 α\alphaα ,接收来自 SPN 的信号并感知不同任务的难度,负责控制输入图像 xxx 和预测的辅助内部偏移之间的平衡。 g(x)g(x)g(x)(或 xxx)是更新(或输入)的图像。 xoffsetsx_{\text{offsets}}xoffsets​由 AIN 预测。由于色彩变换是每个坐标上的像素到像素映射,因此不需要空间移位。AIN 首先将图像分成小块,然后预测每个块的偏移量。 所有偏移值都由 sigmoid(⋅)sigmoid(\cdot)sigmoid(⋅) 激活,并通过通用的上采样(例如,双线性插值)映射到输入图像的大小。辅助内部偏移量可以通过每个坐标 (i,j)(i,j)(i,j) 上的轻微强度级扰动 xoffsets(i,j)x_{\text{offsets}}(i,j)xoffsets​(i,j) 来减轻模式混淆。 在 AIN 的协助下,将对更新后的图像进行增强的转换,公式为:
x′^=T^(x)=sigmoid(∑iωi(g(x))βi)\hat{x'} = \hat{\mathcal{T}} (x) = sigmoid(\sum_{i} \omega_i (g(x))^{\beta_i}) x′^=T^(x)=sigmoid(i∑​ωi​(g(x))βi​)

Geometric-Absorbed Extension

空间变换通过预测相应的坐标来纠正模式的位置偏移,这将生成几何偏移(即外部偏移)。然后根据这些点对整个图像进行重新采样,这可以写为:
x′~(i′,j′)=S(x,f(i′,j′))=S(x,(i,j)){\tilde{x'}(i', j')} = \mathcal{S}(x, f(i', j')) = \mathcal{S}(x, (i,j)) x′~(i′,j′)=S(x,f(i′,j′))=S(x,(i,j))
其中 (i,j)(i,j)(i,j) 或 (i′,j′)(i', j')(i′,j′) 是原始坐标或通过外部偏移调节后的坐标,S(x,⋅)\mathcal{S}(x, \cdot)S(x,⋅) 代表采样器,通过对 x(i,j)x(i,j)x(i,j) 的邻居进行插值生成转换后的图像,fff 代表不同的转换函数(Affine, TPS等)。不同的是,在提出的色彩变换中,在每个坐标上生成内部偏移量。两者都是用于简化下游阶段的独立模块,而它们可以整合成统一的变换:
x′¨(i′,j′)=S(x′^,f(i′,j′))=S(T^(x),f(i′,j′))\ddot{x'}(i', j') = \mathcal{S}(\hat{x'}, f(i', j')) = \mathcal{S}(\hat{\mathcal{T}}(x), f(i', j')) x′¨(i′,j′)=S(x′^,f(i′,j′))=S(T^(x),f(i′,j′))
将色彩和几何校正的统一称为 Geometric-Absorbed Extension(GA-SPIN)。色彩变换 T^(⋅)\hat{\mathcal{T}}(\cdot)T^(⋅) 和几何变换 f(⋅)f(\cdot)f(⋅) 中的学习参数是同时预测的。当加上 TPS 之类的空间校正时,GA-SPIN 与 SPIN 相比唯一的区别是将 Block8 的输出通道数量设置为 2K+2+N 而不是 2K+2,其中 N 是 TPS 的参数。

Experiments




  1. Peng, D.; Zheng, Z.; and Zhang, X. 2019. StructurePreserving Transformation: Generating Diverse and Transferable Adversarial Examples. CoRR abs/1809.02786. ↩︎

SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition —— 论文阅读笔记相关推荐

  1. 《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记

    日常阅读论文 名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ...

  2. MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记

    MSR: Multi-Scale Shape Regression for Scene Text Detection 1. 基本信息 文章来源:arxiv(录用期刊或会议未知) SAST链接 上传时间 ...

  3. 论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition

    论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ...

  4. EAST: An Efficient and Accurate Scene Text Detector 论文阅读

    EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ...

  5. RFA-Net: Residual feature attention network for fine-grained image inpainting 论文阅读笔记

    RFA-Net: Residual feature attention network for fine-grained image inpainting 论文阅读笔记 摘要 尽管大多数使用生成对抗性 ...

  6. 解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

    解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记 一.Abstract 二.引言 三. ...

  7. iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

    摘要 本文研究场景图中人-物交互问题.其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分.为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根 ...

  8. Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记

    笔记 这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克 ...

  9. 《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记

    论文阅读笔记 去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...

最新文章

  1. Python之Selenium的爬虫用法
  2. 给普通用户赋予docker权限
  3. JAVA js的escape函数、解析用js encodeURI编码的字符串、utf8转gb2312的函数
  4. 知己知彼 防范攻击:网络攻击步骤与黑客攻击原理
  5. 【转载】Gradle学习 第一章:引言
  6. [SEO]让你的Asp.Net网站自动生成Sitemap——XmlSitemap
  7. eShopOnContainers 看微服务 ①:总体概览
  8. PostgreSQL 11 1Kw TPCC , 1亿 TPCB 7*24 强压耐久测试
  9. 内存数据库和关系数据库之间的数据同步原理
  10. vue require图片_手把手教你使用require.context实现前端自动化
  11. IP地址,开放端口,http与https的区别
  12. 多模态学习方法综述(期刊论文)
  13. 开启虚拟机电脑自动重启的解决
  14. sis最新地址获取方法_微信表情悄悄更新,获取最新表情方法!
  15. SAP 用户菜单如何更直观整洁
  16. UVa OJ 126 - The Errant Physicist (粗心的物理学家)
  17. js-xlsx 读取Excel解析
  18. 中国武术职业联赛(WMA)
  19. 基于关键链的项目风险管理
  20. 【拼题A】 520 钻石争霸赛 2023 题解

热门文章

  1. 20180925-2 功能测试
  2. 虾扑 - 货源采集便捷无忧
  3. android 打卡统计日历表,GitHub - lw1243925457/clickApp: 一个日常事务打卡和统计的APP,用于日常任务记录、任务所需时间记录、任务花费时间统计显示...
  4. 成功实现NAS家庭服务器(流媒体播放、文件共享及下载机)
  5. python ln()怎么实现_python循序渐进_python简介
  6. input输入框无法输入值的解决方案
  7. opencv获取灰度图像的像素值
  8. js二级联动,购物车
  9. 如何在html中播放本地视频文件【兼容ie、火狐、谷歌、360浏览器等】
  10. win10隐藏输入法指示器的设置方法