文章目录

  • 本文参考
  • UIE理论部分
  • step0、UIEX原始模型使用
    • 网页体验
    • 本机安装使用
      • 环境安装
      • 使用docker的环境安装
      • 快速开始
  • step1、UIEX模型微调(小样本学习)
    • 数据标注(label_studio)
    • 导出数据转换
    • 微调训练:
    • 评估:
    • 定制模型一键预测
    • 微调模型对比
  • step2、服务化部署
  • step3、提升推理速度
    • 封闭域模型蒸馏(bug)
    • 模型量化
    • 更换模型(精度急剧下降)
    • fast-tokenizer(不支持)
    • 提高batch_size(没用)

大模型时代来咯!讲究的就是一个通用!
本文记录我使用PaddleNLP中UIE做增值税发票信息提取的过程,同理适用于任何图片信息提取

首先上个图镇场子,里面红底的就是做图片信息提取,所需要重点关注的文件

本文参考

  • 项目
    PaddleNLP:https://github.com/PaddlePaddle/PaddleNLP
    其中UIE部分:
    https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
    发票信息提取使用的UIEX:
    https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document

  • 教程/文档
    跨模态文档通用信息抽取模型UIE-X来了
    uie的简单介绍b站视频【AI快车道|通用信息抽取技术与产业应用实战】 https://www.bilibili.com/video/BV1Q34y1E7SW/?share_source=copy_web&vd_source=679c63061dfbdf7484b5a4a666d4b9e1
    AI快车道PaddleNLP系列直播课https://aistudio.baidu.com/aistudio/education/group/info/24902
    UIE(Universal Information Extraction)

UIE理论部分

  • UIE原始论文
    论文阅读笔记

  • Paddle-UIE-X

UIE(Universal Information Extraction):Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力,PaddleNLP借鉴该论文的方法,基于ERNIE 3.0知识增强预训练模型,训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
来源:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

官方大佬对UIEX的解释:https://zhuanlan.zhihu.com/p/592422623
paddle基于论文中的UIE做了修改,论文中的UIE是对text文本字段进行实体抽取、关系抽取、事件抽取、情感分析四种任务处理的,Paddle全新升级UIE-X,除已有纯文本抽取的全部功能外,新增文档抽取能力,具体来说paddle就是在前面增加了paddleOCR的det和rec功能,图片转化为识别出来的文本,再送入进行UIE,再结合布局分析等功能做了优化。UIE-X把这个功能端到端打通了。使用起来非常方便

step0、UIEX原始模型使用

网页体验

【PaddleNLP-kie】关键信息抽取2:UIE模型做图片信息提取全流程相关推荐

  1. 【PaddleOCR-kie】关键信息抽取1:使用VI-LayoutXLM模型推理预测(SER+RE)

    背景:在训练自己数据集进行kie之前,想跑一下md里面的例程,但md教程内容混乱,而且同一个内容有多个手册,毕竟是多人合作的项目,可能是为了工程解耦,方便更新考虑--需要运行的模型和运行步骤散落在不用 ...

  2. 信息抽取实战 基于 paddlenlp 的简历信息抽取实战 完整代码

    完整项目演示:信息抽取实战 基于 paddlenlp 的简历信息抽取实战 视频简介链接自取_哔哩哔哩_bilibili 项目介绍: 输入一段简历的文本,然后将信息进行解析,根据不同的内容 解析,存储到 ...

  3. 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...

  4. 详解预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生.我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资 ...

  5. 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、语法分析、文本处理...

    在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...

  6. 覆盖5大任务,30+特色模型,高性能、全流程开发套件PaddleRS助力遥感影像智能解译化繁为简...

    近年来,随着卫星技术的发展和深度学习的火热,基于深度学习的遥感影像智能解译得到了前所未有的关注,并已成功应用于建筑物变化检测.SAR影像船舶检测.道路提取.多光谱影像分类等任务中.高精度.高速度.自动 ...

  7. 文本关键信息抽取——实体抽取代码实现

    使用paddlenlp中与训练好的语言模型来进行实体抽取: # Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved. # # Li ...

  8. 简历信息提取二:PaddleNLP完成简历信息抽取

    向AI转型的程序员都关注了这个号

  9. 把声音画出来,会长成什么样?——HMM模型实例展示语音识别全流程

    一.项目简介 语音识别是人工智能领域的一个重要的应用场景,那么程序究竟是如何听懂语音的呢? 本文将用真实的音频案例,用代码呈现语音识别的基本原理和流程. 同时,将各种声音信号的MFCC矩阵进行可视化, ...

最新文章

  1. 为什么重启路由器 经常重启让WiFi更快
  2. a 中调用js的几种方法整理及使用推荐
  3. slf4j + logback 输出日志:mybatis sql语句
  4. 123. Leetcode 72. 编辑距离 (动态规划- 字符串系列)
  5. VC++2013出现bug: 无法打开源文件“stdafx.h”
  6. linux通信--信号量
  7. pythonunittest接口测试_基于python+unittest +requests接口测试
  8. 盘点大厂的那些开源项目 - 小米科技
  9. 虚拟软件VMware workstation安装
  10. 计算机网络专业运动会入场式,高校运动会方阵入场式花样百出
  11. vscode 使用pem文件免密连接服务器
  12. cisco1841(cisco1841路由器设置步骤)
  13. latex参考文献bib基本格式_在Latex中利用.bib进行参考文献管理
  14. DPI vs DFI
  15. m计算机基本拓扑结构,计算机网络的拓扑结构
  16. ubuntu上打开md文件_Linux_查看.md
  17. VMware Workstation 12序列号: 5A02H-AU243-TZJ49-GTC7K-3C61N
  18. ccc 邮箱_CCC的完整形式是什么?
  19. K8S 集群部署(快速部署一个 K8S 集群)
  20. nginx-2-讲解与使用

热门文章

  1. Python写一个股价计算的脚本
  2. android 读取usb 文件,android开发:手机连接电脑读取文件
  3. 如何高效地进行大规模数据迁移?
  4. 闲下来了,去听了一次现场音乐会
  5. 工程师如何对待开源 --- 一个老工程师的肺腑之言
  6. linux查询日志命令加过滤,Linux记录-筛选日志sed、find、tail,du,awk命令
  7. 第一、二周20120302
  8. 01星球第3天2023/3/1
  9. Java中的深克隆与浅克隆
  10. 2015最新AppStore上架流程