【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
简介
在TrOCR中,提出了一种基于预先训练好的图像Transformer和文本Transformer模型的端到端文本识别方法。
实验表明,TrOCR模型在印刷、手写和场景文本识别任务上优于目前最先进的模型,达到SOTA。
与现有的文本识别模型不同,TrOCR是一种简单而有效的模型,它不使用CNN作为骨干。TrOCR使用与ViT/swin Transformer相同的图像Transformer方法,
它首先将输入文本图像调整为384×384,然后将图像分割成16x16patch的序列,用作图像Transformer的输入。
为了有效地训练TrOCR模型,编码器可以用预训练的ViT模型初始化,而解码器可以用预训练过的Bert模型初始化。
TrOCR优点有以下几个:
- TrOCR使用预先训练好的图像Transformer和文本Transformer模型,它们利用大规模的未标记数据来进行图像理解和语言建模,而不需要一个外部语言模型。
- TrOCR不需要任何卷积网络作为主干,也不引入任何特定于图像的归纳偏置(归纳偏置,让算法优先某种解决方案,这种偏好是独立于观测的数据的。常见的归纳偏置,包括:贝叶斯算法中的先验分布、使用某些正则项来惩罚模型、设计某种特殊的网络结构等),这使得模型非常容易实现和维护。
- .在OCR数据集上的实验结果表明,TrOCR可以在印刷、手写和场景文本图像数据集上实现最先进的结果,而无需任何复杂的前后处理 操作步骤。
网络结构
在TrOCR中采用了Transformer编解码器结构。Encoder用于获得图像patch的表示,Decoder用于生成视觉特征的指导的wordpiece序列和预测结果。
Encoder可以采用BEiT和DeiT初始化,区别在于BEiT缺少了Distill token。训练中随机mask掉图像的patch,然后让图像恢复原始的图像token。
Decoder使用过RoBERTa和MiniLM算法来进行初始化。
【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models相关推荐
- 光学字符识别 OCR (Optical Character Recognition)是什么?
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...
- 光学字符识别(OCR,Optical Character Recognition)
简介 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形 ...
- OCR(Optical Character Recognition,光学字符识别)技术详解
OCR(Optical Character Recognition,光学字符识别)技术是一种将图像中的文字信息转换为文本的技术.在计算机视觉和人工智能领域,OCR 技术是一个非常重要的应用,它可以帮助 ...
- OCR(Optical Character Recognition 光学字符识别)扫盲
了解OCR OCR是英文Optical Character Recognition 的缩写,中文意思就是通过光学技术对文字进行识别.OCR概念的产生是在1929年,德国的科学家Tausheck首先提出 ...
- 关于OCR(Optical Character Recognition,光学字符识别)
OCR(Optical Character Recognition,光学字符识别),是属于图型识别(Pattern Recognition,PR)的一门学问.其目的就是要让计算机知道它到底看到了什么, ...
- Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)
Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...
- A Survey on Optical Character Recognition System 光学字符识别系统综述
论文题目: 2017-A Survey on Optical Character Recognition System 摘要 光学字符识别(OCR)是近年来研究的热点.它被定义为将文档图像数字化为 ...
- 入门深度学习OCR(Optical character recognition)开发
前言: 光学字符识别(OCR)指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.目前OCR主要落地应用场景包括:自然场景文本检测识别.文档类印刷体文本检测识别.手写体文本检测识别.自然 ...
- OCR EasyOCR + PaddleHub 光学字符识别(Optical Character Recognition, OCR)
EasyOCR pip install opencv-python pip3 install easyocr 简单测试一下 import os import easyocr import cv2 fr ...
最新文章
- float向u8和s8的转换
- 人工智能市场兴起,哪款聊天机器人能提供最好的投资回报?
- 汇编 - ORG指令详解
- 用IIS建立的.net网站通过IP地址不能访问解决方法
- SFB 项目经验-55-另类更新Exchange 2016 KB
- 程序员计算器HEX、EDC、OCT等等的意思
- Unity2020.1新功能探路:编辑器相关更新
- 解决IE、firefox浏览器下JS的new Date()的值为Invalid Date、NaN-NaN的问题
- easyui ---- jEasyUI-定制提示信息面板组件
- arraycolumn php5.4以下怎么用,兼容php5.4和更低版本php的array_column公共方法
- CPU虚拟化技术解析
- 多个Excel合并为一个Excel表
- 读 疯狂的程序员 有感
- 【UX/UI原型模板】中国地图元件库操作说明(省份+直辖市+自治区+行政特区详细地图)
- Python—爬取全国城市名称案例(Xpath方法)
- 友盟分享 qq没有存储权限 分享失败
- Landsat 数据集合集(Landsat 5/7/8/9)
- 没看到能打的,遍历目录并读取目录下的文件列表。(C语言,SDK)
- elasticsearch 出现yellow 分片有unassigned现象原因
- DGV:人类基因组结构变异数据库