【PaddleNLP-kie】关键信息抽取2:UIE模型做图片信息提取全流程
文章目录
- 本文参考
- UIE理论部分
- step0、UIEX原始模型使用
- 网页体验
- 本机安装使用
- 环境安装
- 使用docker的环境安装
- 快速开始
- step1、UIEX模型微调(小样本学习)
- 数据标注(label_studio)
- 导出数据转换
- 微调训练:
- 评估:
- 定制模型一键预测
- 微调模型对比
- step2、服务化部署
- step3、提升推理速度
- 封闭域模型蒸馏(bug)
- 模型量化
- 更换模型(精度急剧下降)
- fast-tokenizer(不支持)
- 提高batch_size(没用)
大模型时代来咯!讲究的就是一个通用!
本文记录我使用PaddleNLP中UIE做增值税发票信息提取的过程,同理适用于任何图片信息提取
首先上个图镇场子,里面红底的就是做图片信息提取,所需要重点关注的文件
本文参考
项目
PaddleNLP:https://github.com/PaddlePaddle/PaddleNLP
其中UIE部分:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
发票信息提取使用的UIEX:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document教程/文档
跨模态文档通用信息抽取模型UIE-X来了
uie的简单介绍b站视频【AI快车道|通用信息抽取技术与产业应用实战】 https://www.bilibili.com/video/BV1Q34y1E7SW/?share_source=copy_web&vd_source=679c63061dfbdf7484b5a4a666d4b9e1
AI快车道PaddleNLP系列直播课https://aistudio.baidu.com/aistudio/education/group/info/24902
UIE(Universal Information Extraction)
UIE理论部分
UIE原始论文
论文阅读笔记
Paddle-UIE-X
UIE(Universal Information Extraction):Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力,PaddleNLP借鉴该论文的方法,基于ERNIE 3.0知识增强预训练模型,训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
来源:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
官方大佬对UIEX的解释:https://zhuanlan.zhihu.com/p/592422623
paddle基于论文中的UIE做了修改,论文中的UIE是对text文本字段进行实体抽取、关系抽取、事件抽取、情感分析四种任务处理的,Paddle全新升级UIE-X,除已有纯文本抽取的全部功能外,新增文档抽取能力,具体来说paddle就是在前面增加了paddleOCR的det和rec功能,图片转化为识别出来的文本,再送入进行UIE,再结合布局分析等功能做了优化。UIE-X把这个功能端到端打通了。使用起来非常方便
step0、UIEX原始模型使用
网页体验
【PaddleNLP-kie】关键信息抽取2:UIE模型做图片信息提取全流程相关推荐
- 【PaddleOCR-kie】关键信息抽取1:使用VI-LayoutXLM模型推理预测(SER+RE)
背景:在训练自己数据集进行kie之前,想跑一下md里面的例程,但md教程内容混乱,而且同一个内容有多个手册,毕竟是多人合作的项目,可能是为了工程解耦,方便更新考虑--需要运行的模型和运行步骤散落在不用 ...
- 信息抽取实战 基于 paddlenlp 的简历信息抽取实战 完整代码
完整项目演示:信息抽取实战 基于 paddlenlp 的简历信息抽取实战 视频简介链接自取_哔哩哔哩_bilibili 项目介绍: 输入一段简历的文本,然后将信息进行解析,根据不同的内容 解析,存储到 ...
- 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
- 详解预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生.我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资 ...
- 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、语法分析、文本处理...
在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求. 但这里我们要面对的现实是,行业上90%以上的NLP工程师是"不合格的" ...
- 覆盖5大任务,30+特色模型,高性能、全流程开发套件PaddleRS助力遥感影像智能解译化繁为简...
近年来,随着卫星技术的发展和深度学习的火热,基于深度学习的遥感影像智能解译得到了前所未有的关注,并已成功应用于建筑物变化检测.SAR影像船舶检测.道路提取.多光谱影像分类等任务中.高精度.高速度.自动 ...
- 文本关键信息抽取——实体抽取代码实现
使用paddlenlp中与训练好的语言模型来进行实体抽取: # Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved. # # Li ...
- 简历信息提取二:PaddleNLP完成简历信息抽取
向AI转型的程序员都关注了这个号
- 把声音画出来,会长成什么样?——HMM模型实例展示语音识别全流程
一.项目简介 语音识别是人工智能领域的一个重要的应用场景,那么程序究竟是如何听懂语音的呢? 本文将用真实的音频案例,用代码呈现语音识别的基本原理和流程. 同时,将各种声音信号的MFCC矩阵进行可视化, ...
最新文章
- 为什么重启路由器 经常重启让WiFi更快
- a 中调用js的几种方法整理及使用推荐
- slf4j + logback 输出日志:mybatis sql语句
- 123. Leetcode 72. 编辑距离 (动态规划- 字符串系列)
- VC++2013出现bug: 无法打开源文件“stdafx.h”
- linux通信--信号量
- pythonunittest接口测试_基于python+unittest +requests接口测试
- 盘点大厂的那些开源项目 - 小米科技
- 虚拟软件VMware workstation安装
- 计算机网络专业运动会入场式,高校运动会方阵入场式花样百出
- vscode 使用pem文件免密连接服务器
- cisco1841(cisco1841路由器设置步骤)
- latex参考文献bib基本格式_在Latex中利用.bib进行参考文献管理
- DPI vs DFI
- m计算机基本拓扑结构,计算机网络的拓扑结构
- ubuntu上打开md文件_Linux_查看.md
- VMware Workstation 12序列号: 5A02H-AU243-TZJ49-GTC7K-3C61N
- ccc 邮箱_CCC的完整形式是什么?
- K8S 集群部署(快速部署一个 K8S 集群)
- nginx-2-讲解与使用
热门文章