简介

在TrOCR中,提出了一种基于预先训练好的图像Transformer和文本Transformer模型的端到端文本识别方法。

实验表明,TrOCR模型在印刷、手写和场景文本识别任务上优于目前最先进的模型,达到SOTA。

与现有的文本识别模型不同,TrOCR是一种简单而有效的模型,它不使用CNN作为骨干。TrOCR使用与ViT/swin Transformer相同的图像Transformer方法,

它首先将输入文本图像调整为384×384,然后将图像分割成16x16patch的序列,用作图像Transformer的输入。

为了有效地训练TrOCR模型,编码器可以用预训练的ViT模型初始化,而解码器可以用预训练过的Bert模型初始化。

TrOCR优点有以下几个:

  1. TrOCR使用预先训练好的图像Transformer和文本Transformer模型,它们利用大规模的未标记数据来进行图像理解和语言建模,而不需要一个外部语言模型。
  2. TrOCR不需要任何卷积网络作为主干,也不引入任何特定于图像的归纳偏置(归纳偏置,让算法优先某种解决方案,这种偏好是独立于观测的数据的。常见的归纳偏置,包括:贝叶斯算法中的先验分布、使用某些正则项来惩罚模型、设计某种特殊的网络结构等),这使得模型非常容易实现和维护。
  3. .在OCR数据集上的实验结果表明,TrOCR可以在印刷、手写和场景文本图像数据集上实现最先进的结果,而无需任何复杂的前后处理 操作步骤。

网络结构

在TrOCR中采用了Transformer编解码器结构。Encoder用于获得图像patch的表示,Decoder用于生成视觉特征的指导的wordpiece序列和预测结果。

Encoder可以采用BEiT和DeiT初始化,区别在于BEiT缺少了Distill token。训练中随机mask掉图像的patch,然后让图像恢复原始的图像token。

Decoder使用过RoBERTa和MiniLM算法来进行初始化。

【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models相关推荐

  1. 光学字符识别 OCR (Optical Character Recognition)是什么?

    OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...

  2. 光学字符识别(OCR,Optical Character Recognition)

    简介 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形 ...

  3. OCR(Optical Character Recognition,光学字符识别)技术详解

    OCR(Optical Character Recognition,光学字符识别)技术是一种将图像中的文字信息转换为文本的技术.在计算机视觉和人工智能领域,OCR 技术是一个非常重要的应用,它可以帮助 ...

  4. OCR(Optical Character Recognition 光学字符识别)扫盲

    了解OCR OCR是英文Optical Character Recognition 的缩写,中文意思就是通过光学技术对文字进行识别.OCR概念的产生是在1929年,德国的科学家Tausheck首先提出 ...

  5. 关于OCR(Optical Character Recognition,光学字符识别)

    OCR(Optical Character Recognition,光学字符识别),是属于图型识别(Pattern Recognition,PR)的一门学问.其目的就是要让计算机知道它到底看到了什么, ...

  6. Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)

    Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...

  7. A Survey on Optical Character Recognition System 光学字符识别系统综述

    论文题目: 2017-A Survey on Optical Character Recognition System 摘要   光学字符识别(OCR)是近年来研究的热点.它被定义为将文档图像数字化为 ...

  8. 入门深度学习OCR(Optical character recognition)开发

    前言: 光学字符识别(OCR)指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.目前OCR主要落地应用场景包括:自然场景文本检测识别.文档类印刷体文本检测识别.手写体文本检测识别.自然 ...

  9. OCR EasyOCR + PaddleHub 光学字符识别(Optical Character Recognition, OCR)

    EasyOCR pip install opencv-python pip3 install easyocr 简单测试一下 import os import easyocr import cv2 fr ...

最新文章

  1. float向u8和s8的转换
  2. 人工智能市场兴起,哪款聊天机器人能提供最好的投资回报?
  3. 汇编 - ORG指令详解
  4. 用IIS建立的.net网站通过IP地址不能访问解决方法
  5. SFB 项目经验-55-另类更新Exchange 2016 KB
  6. 程序员计算器HEX、EDC、OCT等等的意思
  7. Unity2020.1新功能探路:编辑器相关更新
  8. 解决IE、firefox浏览器下JS的new Date()的值为Invalid Date、NaN-NaN的问题
  9. easyui ---- jEasyUI-定制提示信息面板组件
  10. arraycolumn php5.4以下怎么用,兼容php5.4和更低版本php的array_column公共方法
  11. CPU虚拟化技术解析
  12. 多个Excel合并为一个Excel表
  13. 读 疯狂的程序员 有感
  14. 【UX/UI原型模板】中国地图元件库操作说明(省份+直辖市+自治区+行政特区详细地图)
  15. Python—爬取全国城市名称案例(Xpath方法)
  16. 友盟分享 qq没有存储权限 分享失败
  17. Landsat 数据集合集(Landsat 5/7/8/9)
  18. 没看到能打的,遍历目录并读取目录下的文件列表。(C语言,SDK)
  19. elasticsearch 出现yellow 分片有unassigned现象原因
  20. DGV:人类基因组结构变异数据库

热门文章

  1. 邮箱POP3及SMTP服务器地址大全
  2. Sanitize小知识
  3. 通过沉浸式虚拟现实观察动作增强运动想象训练
  4. Unity可视化编程插件: Bolt,可以像UE4的蓝图那样啦
  5. 使用tushare筛选某一天的ST股票
  6. bpf学习2-hello epf
  7. 栈的存储——顺序存储与链式存储
  8. C语言中union与struct的区别及sizeof的计算方式
  9. [Windows]PDF转Word工具 需配合 WPS 使用
  10. Matlab画动图并保存成gif之七——逐渐变大的透明球体+箭头