Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes

最新的视觉短语基础方法侧重于一般的目标对象，但本文探索了提取指定文本和预测明确的场景文本信息，即从自然语言描述中准确定位和识别杂乱图像中的特定目标文本实例。

我们在本手稿中提出的方法包括三个模块（场景文本检测、检索和识别）

从文本提取中列出离散和无序的单词

该方法是第一个将基于图像的场景文本定位与基于语言的本地化文本实例描述联合建模的解决方案

通过LSTM网络，DTLN可以记住之前生成的文本边界框，避免在同一目标的多个尺度上重复检测。DTLN作为一种顺序定位模型

512*20*15的空间特征图

DTLN:

通过卷积编码网络将场景图像的跨步区域编码为512维特征向量。构建了一个循环解码器，对所有潜在目标对象（在我们的框架中是场景文本实例）按顺序进行联合预测。

基于LSTM的解码器依次输出新的边界框及其相应的置信度分数。该分数表示在边界框位置找到以前未检测到的文本实例的概率。边界框按置信度得分递减的顺序生成。当基于LSTM的解码器无法在跨步区域中找到更多置信度较高的边界框时，将生成一个停止符号以结束整个解码过程。

在每个步骤中，我们将VGG-16特征映射与前一个LSTM单元的输出连接起来，并将结果输入下一个LSTM单元。该网络通过LSTM解码器学习在文本实例的边界框上精确回归。

在测试阶段，低于预先规定阈值的置信度分数被解释为停止符号。置信度越高，表示边界框越有可能覆盖真正的文本实例。

基于CNN的编码器与基于LSTM的解码器的结合在我们的框架中起着关键作用。它可以生成可变长度的连贯预测集。

循环文本识别：

VGG-16体系结构用于获取特征映射，从中提取一系列特征向量，作为后续循环解码器的输入。

序列特征向量生成后，采用叠加双向LSTM遍历序列特征，并将其解码成与特征序列中所有向量对应的分布。LSTM中的循环层能够捕获序列中的上下文信息，这比将文本序列划分为单独字符进行独立处理更有效、更稳定。

转录是在每向量预测的条件下找到概率最高的字符序列。

在检索到的文本实例上用于文本识别的整个编码-解码过程。

遵循CNN-RNN编码器-解码器体系结构进行文本识别。

CRTR：

给定一幅图像，以及一个自然语言查询文本序列和一组候选文本边界框（基本事实或由提议的DTLN生成）

模型有三个LSTM单元（lang,local,global）,一个局部和全局CNN，以及单词嵌入和预测层。

在查询文本序列中，将单词表示为一个热向量，通过线性单词嵌入矩阵进行嵌入，并以LSTMlang作为输入时间序列进行处理。

CNN local（处理局部单词补丁的局部卷积网络）和CNN global（处理整个图像的全局卷积网络）都是从完全卷积VGG网络初始化的，整个CRTR网络通过反向传播进行端到端训练。

将语义空间缩减为只包含单个文本实例和单个上下文对象之间的关系，因为所有可能的关系对的语义空间都比单个文本实例和上下文对象的语义空间大得多。可视关系被表示为语言查询{text relationship context}将语言三元组与图像中的像素区域对齐。

单词预测层根据局部图像区域框、整个图像、空间结构和所有之前的输入单词预测下一个单词的条件概率分布。具体地，单词预测层指示/基于所有当前和先前预测的信息/预测下一单词的条件概率分布的Softmax层。

评估协议：标准PASCAL VOC检测标准（联合的交叉点在其边界框和真实数据之间超过50%）DetEval标准（一种更强调检测质量的评估指标）

DTLN仍然无法处理一些具有挑战性的情况，例如曝光过度和字符间距过大

precision@1关于单个文本检索评估的度量，recall@1（得分最高的文本边框提案正确的百分比），recall@5（前五名得分最高的文本框提案中至少有一个提案的百分比是正确的）

拓展理解：

在nlp任务中，计算机不会直接处理文本信息，而是需要先将句子转化为矩阵进行处理。通常，先将句子划分为单词，每个单词用一个固定维数的向量表示（比如300），而句子的维数也会固定为一个常值(max_len)，并进行补齐。词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵。

深度学习模型在训练过程中，从输入端（输入数据）到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递（反向传播），每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束，这是端到端的。

本地化就是使应用适合与本地区用户习惯的过程。本地化涉及多方面内容，包括文字、货币、日期和图片，甚至语音都需要本地化。

Referring Expression（指称表达）是指任何一个目的为识别某一特定人物、地点、事物的词或者短语。通常是一个名词、名词短语或者代词。

数据集中，有大量图片及其对应的文字描述，在训练时候，将文字描述和对应的图像区域对齐。然后，在输入一张图片的时候，在数据集中找到和图片本身每个像素区域对应概率分布最大的图片像素区域，并使用它的文字描述，接着通过cnn-rnn生成输入图片的文字描述，rnn可以根据之前生成的单词预测下一个单词的概率分布。

Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes相关推荐

《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读
参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...
论文阅读2--Video text localization based on Adaboost（基于Adaboost的视频文本定位）阅读笔记
目录写在前面: 0.Abstract 1.Introduction 2.The candidate TEXT areas detection(检测候选文本区域) 2.1 Gray processin ...
笔记：PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes (Robotics: ...
Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes
Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes 在杂乱无 ...
论文笔记（三）：PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括摘要 1. ...
PoseCNN(A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes)复现记录
PoseCNN: A Cbjonvolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 挖个坑,希望研究 ...
论文阅读笔记《PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes》
核心思想本文提出一种基于卷积神经网络的物体分割与位姿估计的方法(PoseCNN).如下图所示,输入图像经过卷积层特征提取之后,分成三个任务分支:语义分割.平移矩阵预测和旋转矩阵(四元数)预测.最 ...
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017（笔记）
PoseCNN:用卷积神经网络估计杂乱场景中目标6D姿态-2017(笔记) 文章提出了新的PoseCNN姿态估计网络,通过CNN提取图像特征,然后分三路进行目标分割标签标注.平移估计和姿态估计得到目标 ...
论文笔记01——PoseCNN：A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
参考链接: https://blog.csdn.net/nwu_NBL/article/details/83176353 论文标题:<PoseCNN:杂乱场景中物体6D姿态估计的卷积神经网络&g ...

Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes

Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes相关推荐

最新文章

热门文章