最新的视觉短语基础方法侧重于一般的目标对象,但本文探索了提取指定文本和预测明确的场景文本信息,即从自然语言描述中准确定位和识别杂乱图像中的特定目标文本实例。

我们在本手稿中提出的方法包括三个模块(场景文本检测、检索和识别)

从文本提取中列出离散和无序的单词

该方法是第一个将基于图像的场景文本定位与基于语言的本地化文本实例描述联合建模的解决方案

通过LSTM网络,DTLN可以记住之前生成的文本边界框,避免在同一目标的多个尺度上重复检测。DTLN作为一种顺序定位模型

512*20*15的空间特征图

DTLN:

通过卷积编码网络将场景图像的跨步区域编码为512维特征向量。构建了一个循环解码器,对所有潜在目标对象(在我们的框架中是场景文本实例)按顺序进行联合预测。

基于LSTM的解码器依次输出新的边界框及其相应的置信度分数。该分数表示在边界框位置找到以前未检测到的文本实例的概率。边界框按置信度得分递减的顺序生成。当基于LSTM的解码器无法在跨步区域中找到更多置信度较高的边界框时,将生成一个停止符号以结束整个解码过程。

在每个步骤中,我们将VGG-16特征映射与前一个LSTM单元的输出连接起来,并将结果输入下一个LSTM单元。该网络通过LSTM解码器学习在文本实例的边界框上精确回归。

在测试阶段,低于预先规定阈值的置信度分数被解释为停止符号。置信度越高,表示边界框越有可能覆盖真正的文本实例。

基于CNN的编码器与基于LSTM的解码器的结合在我们的框架中起着关键作用。它可以生成可变长度的连贯预测集。

循环文本识别:

VGG-16体系结构用于获取特征映射,从中提取一系列特征向量,作为后续循环解码器的输入。

序列特征向量生成后,采用叠加双向LSTM遍历序列特征,并将其解码成与特征序列中所有向量对应的分布。LSTM中的循环层能够捕获序列中的上下文信息,这比将文本序列划分为单独字符进行独立处理更有效、更稳定。

转录是在每向量预测的条件下找到概率最高的字符序列。

在检索到的文本实例上用于文本识别的整个编码-解码过程。

遵循CNN-RNN编码器-解码器体系结构进行文本识别。

CRTR:

给定一幅图像,以及一个自然语言查询文本序列和一组候选文本边界框(基本事实或由提议的DTLN生成)

模型有三个LSTM单元(lang,local,global),一个局部和全局CNN,以及单词嵌入和预测层。

在查询文本序列中,将单词表示为一个热向量,通过线性单词嵌入矩阵进行嵌入,并以LSTMlang作为输入时间序列进行处理。

CNN local(处理局部单词补丁的局部卷积网络)和CNN global(处理整个图像的全局卷积网络)都是从完全卷积VGG网络初始化的,整个CRTR网络通过反向传播进行端到端训练。

将语义空间缩减为只包含单个文本实例和单个上下文对象之间的关系,因为所有可能的关系对的语义空间都比单个文本实例和上下文对象的语义空间大得多。可视关系被表示为语言查询{text relationship context}将语言三元组与图像中的像素区域对齐。

单词预测层根据局部图像区域框、整个图像、空间结构和所有之前的输入单词预测下一个单词的条件概率分布。具体地,单词预测层指示/基于所有当前和先前预测的信息/预测下一单词的条件概率分布的Softmax层。

评估协议:标准PASCAL VOC检测标准(联合的交叉点在其边界框和真实数据之间超过50%)DetEval标准(一种更强调检测质量的评估指标)

DTLN仍然无法处理一些具有挑战性的情况,例如曝光过度和字符间距过大

precision@1关于单个文本检索评估的度量,recall@1(得分最高的文本边框提案正确的百分比),recall@5(前五名得分最高的文本框提案中至少有一个提案的百分比是正确的)

拓展理解:

在nlp任务中,计算机不会直接处理文本信息,而是需要先将句子转化为矩阵进行处理。通常,先将句子划分为单词,每个单词用一个固定维数的向量表示(比如300),而句子的维数也会固定为一个常值(max_len),并进行补齐。词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵。

深度学习模型在训练过程中,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这是端到端的。

本地化就是使应用适合与本地区用户习惯的过程。本地化涉及多方面内容,包括文字、货币、日期和图片,甚至语音都需要本地化。

Referring Expression(指称表达)是指任何一个目的为识别某一特定人物、地点、事物的词或者短语。通常是一个名词、名词短语或者代词。

数据集中,有大量图片及其对应的文字描述,在训练时候,将文字描述和对应的图像区域对齐。然后,在输入一张图片的时候,在数据集中找到和图片本身每个像素区域对应概率分布最大的图片像素区域,并使用它的文字描述,接着通过cnn-rnn生成输入图片的文字描述,rnn可以根据之前生成的单词预测下一个单词的概率分布。

Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes相关推荐

  1. 《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读

    参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...

  2. 论文阅读2--Video text localization based on Adaboost(基于Adaboost的视频文本定位)阅读笔记

    目录 写在前面: 0.Abstract 1.Introduction 2.The candidate TEXT areas detection(检测候选文本区域) 2.1 Gray processin ...

  3. 笔记:PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes (Robotics: ...

  4. Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes

    Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes 在杂乱无 ...

  5. 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...

  6. PoseCNN(A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes)复现记录

    PoseCNN: A Cbjonvolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 挖个坑,希望研究 ...

  7. 论文阅读笔记《PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes》

    核心思想   本文提出一种基于卷积神经网络的物体分割与位姿估计的方法(PoseCNN).如下图所示,输入图像经过卷积层特征提取之后,分成三个任务分支:语义分割.平移矩阵预测和旋转矩阵(四元数)预测.最 ...

  8. PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)

    PoseCNN:用卷积神经网络估计杂乱场景中目标6D姿态-2017(笔记) 文章提出了新的PoseCNN姿态估计网络,通过CNN提取图像特征,然后分三路进行目标分割标签标注.平移估计和姿态估计得到目标 ...

  9. 论文笔记01——PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    参考链接: https://blog.csdn.net/nwu_NBL/article/details/83176353 论文标题:<PoseCNN:杂乱场景中物体6D姿态估计的卷积神经网络&g ...

最新文章

  1. stm32 DMA使用详解
  2. 认识计算机硬件实验项目,实验1 认识计算机的硬件与硬件组装
  3. 使用 Xshell 连接矩池云 GPU服务器
  4. 为什么jvm要分为堆、方法区等?原理是什么?_「JVM」知识点详解一:JVM运行原理详解...
  5. paip.索引的种类以及实现attilax 总结
  6. FastAPI中Jinjia2使用
  7. 百度收录批量查询-免费百度整站批量收录查询工具
  8. 什么是物联网应用开发(IoT Studio)
  9. CSS 深入理解absolute
  10. FFMPEG 常用命令一览
  11. WIN7常用使用设置
  12. ps在当前的图片添加一张图片进来
  13. 水卡修改金额_【技术分享】关于IC卡,水卡修改控制位教程
  14. JS 时间函数实现9宫格抽奖
  15. 【PyTorch教程】P30 GPU加速
  16. golang 微信支付介绍
  17. html网络语言什么意思,网络语言开车什么意思 网络用语开车是什么意思
  18. 骷髅创意设计灵感_20种创意旅行应用程序设计,激发您的灵感
  19. html的slider位置调整,ios设置UISlider的起始位置和增量
  20. 华为手机android7价格,【华为手机大全】华为手机报价及图片大全-列表版-ZOL中关村在线...

热门文章

  1. 成长经历:DIV标签设置背景色,没有显示背景色
  2. JS中1900-2100区间内的公历、农历互转的工具类
  3. 算法速成记录贴Day3
  4. 电路仿真软件详谈(九),proteus电路仿真软件及版本问题
  5. python将图片按照文件名分类,并移入相应文件夹
  6. 当你使用笔记本电脑插入公司的局域网后你的wifi功能无法上网了,而且公司局域网没有外网,怎么既可以进公司局域网又可以上外网
  7. pythonturtle画图库使用技巧_Python画图库turtle使用方法简介
  8. 剑指Offer——网易笔试题+知识点总结
  9. 企业项目文档库管理系统推荐
  10. [英语阅读]保时捷与大众共商合并大计