相关文章:
1.快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
3.快递单信息抽取【三】–五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
1)PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
2)PaddleNLP–UIE(二)–小样本快速提升性能(含doccona标注)
!强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

本项目链接:
https://aistudio.baidu.com/aistudio/projectdetail/4160689?contributionType=1

项目主页:
https://aistudio.baidu.com/aistudio/usercenter

0.信息抽取定义以及难点

自动从无结构或半结构的文本中抽取出结构化信息的任务, 主要包含的任务包含了实体识别、关系抽取、事件抽取、情感分析、评论抽取等任务; 同时信息抽取涉及的领域非常广泛,信息抽取的技术需求高,下面具体展现一些示例


  • 需求跨领域跨任务:领域之间知识迁移难度高,如通用领域知识很难迁移到垂类领域,垂类领域之间的知识很难相互迁移;存在实体、关系、事件等不同的信息抽取任务需求。
  • 定制化程度高:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。
  • 训练数据无或很少:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高。

针对以上难题,中科院软件所和百度共同提出了一个大一统诸多任务的通用信息抽取技术 UIE(Unified Structure Generation for Universal Information Extraction),发表在ACL‘22。UIE在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能。

PaddleNLP结合文心大模型中的知识增强NLP大模型ERNIE 3.0,发挥了UIE在中文任务上的强大潜力,开源了首个面向通用信息抽取的产业级技术方案,不需要标注数据(或仅需少量标注数据),即可快速完成各类信息抽取任务。

**链接指路:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie )

1.使用PaddleNLP Taskflow工具解决信息抽取难点(中文版本)

1.1安装PaddleNLP

! pip install --upgrade paddlenlp
! pip show paddlenlp

1.2 使用Taskflow UIE任务看看效果

人力资源入职证明信息抽取

from paddlenlp import Taskflow
schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie = Taskflow('information_extraction', schema=schema)
schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie.set_schema(schema)
ie('兹证明凌霄为本单位职工,已连续在我单位工作5 年。学历为嘉利顿大学毕业,目前在我单位担任总经理助理  职位。近一年内该员工在我单位平均月收入(税后)为  12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的,真实的。')
[{'姓名': [{'text': '凌霄','start': 3,'end': 5,'probability': 0.9042383385504706}],'毕业院校': [{'text': '嘉利顿大学','start': 28,'end': 33,'probability': 0.9927952662605009}],'职位': [{'text': '总经理助理','start': 44,'end': 49,'probability': 0.9922470268350594}],'月收入': [{'text': '12000 元','start': 77,'end': 84,'probability': 0.9788556518998917}],'身体状况': [{'text': '良好','start': 92,'end': 94,'probability': 0.9939678710475306}]}]
# Jupyter Notebook默认做了格式化输出,如果使用其他代码编辑器,可以使用Python原生包pprint进行格式化输出from pprint import pprint
pprint(ie('兹证明凌霄为本单位职工,已连续在我单位工作5 年。学历为嘉利顿大学毕业,目前在我单位担任总经理助理  职位。近一年内该员工在我单位平均月收入(税后)为  12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的,真实的。'))

医疗病理分析

schema = ['肿瘤部位', '肿瘤大小']
ie.set_schema(schema)
ie('胃印戒细胞癌,肿瘤主要位于胃窦体部,大小6*2cm,癌组织侵及胃壁浆膜层,并侵犯血管和神经。')
[{'肿瘤部位': [{'text': '胃窦体部','start': 13,'end': 17,'probability': 0.9601818899487213}],'肿瘤大小': [{'text': '6*2cm','start': 20,'end': 25,'probability': 0.9670914301489972}]}]

1.3使用Taskflow UIE进行实体抽取、关系抽取、事件抽取、情感分类、观点抽取

# 实体抽取
schema = ['时间', '赛手', '赛事名称']
ie.set_schema(schema)
ie('2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!')
[{'时间': [{'text': '2月8日上午','start': 0,'end': 6,'probability': 0.9857379716035553}],'赛手': [{'text': '中国选手谷爱凌','start': 24,'end': 31,'probability': 0.7232891682586384}],'赛事名称': [{'text': '北京冬奥会自由式滑雪女子大跳台决赛','start': 6,'end': 23,'probability': 0.8503080086948529}]}]
# 关系抽取
schema = {'歌曲名称': ['歌手', '所属专辑']}
ie.set_schema(schema)
ie('《告别了》是孙耀威在专辑爱的故事里面的歌曲')
[{'歌曲名称': [{'text': '告别了','start': 1,'end': 4,'probability': 0.629614912348881,'relations': {'歌手': [{'text': '孙耀威','start': 6,'end': 9,'probability': 0.9988381005599081}],'所属专辑': [{'text': '爱的故事','start': 12,'end': 16,'probability': 0.9968462078543183}]}},{'text': '爱的故事','start': 12,'end': 16,'probability': 0.28168707817316374,'relations': {'歌手': [{'text': '孙耀威','start': 6,'end': 9,'probability': 0.9951415104192272}]}}]}]
# 事件抽取
schema = {'地震触发词': ['地震强度', '时间', '震中位置', '震源深度']}  # 事件需要通过xxx触发词来选择触发词
ie.set_schema(schema)
ie('中国地震台网正式测定:5月16日06时08分在云南临沧市凤庆县(北纬24.34度,东经99.98度)发生3.5级地震,震源深度10千米。')
[{'地震触发词': [{'text': '地震','start': 56,'end': 58,'probability': 0.9977425555988333,'relations': {'地震强度': [{'text': '3.5级','start': 52,'end': 56,'probability': 0.998080217831891}],'时间': [{'text': '5月16日06时08分','start': 11,'end': 22,'probability': 0.9853299772936026}],'震中位置': [{'text': '云南临沧市凤庆县(北纬24.34度,东经99.98度)','start': 23,'end': 50,'probability': 0.7874014521275967}],'震源深度': [{'text': '10千米','start': 63,'end': 67,'probability': 0.9937974422968665}]}}]}]
# 情感倾向分类
schema = '情感倾向[正向,负向]' # 分类任务需要[]来设置分类的label
ie.set_schema(schema)
ie('这个产品用起来真的很流畅,我非常喜欢')
[{'情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.9990024058203417}]}]
# 评价抽取
schema = {'评价维度': ['观点词', '情感倾向[正向,负向]']}  # 评价抽取的schema是固定的,后续直接按照这个schema进行观点抽取
ie.set_schema(schema) # Reset schema
ie('地址不错,服务一般,设施陈旧')
[{'评价维度': [{'text': '地址','start': 0,'end': 2,'probability': 0.9888139270606509,'relations': {'观点词': [{'text': '不错','start': 2,'end': 4,'probability': 0.9927845886615216}],'情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.998228967796706}]}},{'text': '设施','start': 10,'end': 12,'probability': 0.9588298547520608,'relations': {'观点词': [{'text': '陈旧','start': 12,'end': 14,'probability': 0.928675281256794}],'情感倾向[正向,负向]': [{'text': '负向', 'probability': 0.9949388606013692}]}},{'text': '服务','start': 5,'end': 7,'probability': 0.9592857070501211,'relations': {'观点词': [{'text': '一般','start': 7,'end': 9,'probability': 0.9949359182521675}],'情感倾向[正向,负向]': [{'text': '负向', 'probability': 0.9952498258302498}]}}]}]
# 跨任务跨领域抽取
schema = ['寺庙', {'丈夫': '妻子'}]  # 抽取的任务中包含了实体抽取和关系抽取
ie.set_schema(schema)
ie('李治即位后,让身在感业寺的武则天续起头发,重新纳入后宫。')
[{'寺庙': [{'text': '感业寺','start': 9,'end': 12,'probability': 0.9888581774497425}],'丈夫': [{'text': '李治','start': 0,'end': 2,'probability': 0.989690572797457,'relations': {'妻子': [{'text': '武则天','start': 13,'end': 16,'probability': 0.9987625986790256}]}}]}]

1.4使用Taskflow UIE一些技巧

1.4.1. 调整batch_size提升预测效率

from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2) #资源不充裕情况,batch_size设置小点,利用率增加。。
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])
[{'费用': [{'text': '46块钱','start': 13,'end': 17,'probability': 0.9781786110574338}]},{'费用': [{'text': '110元','start': 11,'end': 15,'probability': 0.9504088995163151}]},{'费用': [{'text': '46元','start': 21,'end': 24,'probability': 0.9753814247531167}]},{'费用': [{'text': '21元','start': 15,'end': 18,'probability': 0.9761294626311425}]}]

1.4.2. 使用UIE-Tiny模型来加快模型预测速度

from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2, model='uie-tiny') #
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])
[{'费用': [{'text': '46块钱','start': 13,'end': 17,'probability': 0.8945340489542026}]},{'费用': [{'text': '110元','start': 11,'end': 15,'probability': 0.9757676375014448}]},{'费用': [{'text': '46元','start': 21,'end': 24,'probability': 0.860397941604333}]},{'费用': [{'text': '21元','start': 15,'end': 18,'probability': 0.8595131018474689}]}]

2.小样本提升UIE效果

Taskflow中的UIE基线版本我们是通过大量的有标签样本进行训练,但是UIE抽取的效果面对部分子领域的效果也不是令人满意,UIE可以通过小样本就可以快速提升效果。
为什么UIE可以通过小样本来提升效果呢?UIE的建模方式主要是通过 Prompt 方式来建模, Prompt 在小样本上进行微调效果非常有效,下面我们通过一个具体的case
来展示UIE微调的效果。

2.1语音报销工单信息抽取

1. 背景

在某公司内部可以通过语音输入来报销打车费用,通过语音ASR模型可以将语音识别为文字,同时对文字信息进行信息抽取,抽取的信息主要是包括了4个方面,时间、出发地、目的地、费用,通过对文字4个方面的信息进行抽取就可以完成一个报销工单的填写。

2. 挑战

目前Taskflow UIE任务对于这种非常垂类的任务效果没有完全达到工业使用水平,因此需要一定的微调手段来完成UIE模型的微调来提升模型的效果,下面是一些case的展现

ie.set_schema(['时间', '出发地', '目的地', '费用'])
ie('10月16日高铁从杭州到上海南站车次d5414共48元')  # 无法准确抽取出发地、目的地
[{'时间': [{'text': '10月16日','start': 0,'end': 6,'probability': 0.9552445817793149}],'出发地': [{'text': '杭州','start': 9,'end': 11,'probability': 0.5713024802221334}],'费用': [{'text': '48元','start': 24,'end': 27,'probability': 0.8932524634666485}]}]

2.2 标注数据

参考链接详细版本—doccano标注过程
我们推荐使用数据标注平台doccano 进行数据标注,本案例也打通了从标注到训练的通道,即doccano导出数据后可通过doccano.py脚本轻松将数据转换为输入模型时需要的形式,实现无缝衔接。为达到这个目的,您需要按以下标注规则在doccano平台上标注数据:

Step 1. 本地安装doccano(请勿在AI Studio内部运行,本地测试环境python=3.8)

$ pip install doccano

Step 2. 初始化数据库和账户(用户名和密码可替换为自定义值)

$ doccano init

$ doccano createuser --username my_admin_name --password my_password

Step 3. 启动doccano

  • 在一个窗口启动doccano的WebServer,保持窗口

$ doccano webserver --port 8000

  • 在另一个窗口启动doccano的任务队列

$ doccano task

Step 4. 运行doccano来标注实体和关系

  • 打开浏览器(推荐Chrome),在地址栏中输入http://127.0.0.1:8000/后回车即得以下界面。

  • 登陆账户。点击右上角的LOGIN,输入Step 2中设置的用户名和密码登陆。

  • 创建项目。点击左上角的CREATE,跳转至以下界面。

    • 勾选序列标注(Sequence Labeling
    • 填写项目名称(Project name)等必要信息
    • 勾选允许实体重叠(Allow overlapping entity)、使用关系标注(Use relation labeling
    • 创建完成后,项目首页视频提供了从数据导入到导出的七个步骤的详细说明。

  • 设置标签。在Labels一栏点击ActionsCreate Label手动设置或者Import Labels从文件导入。

    • 最上边Span表示实体标签,Relation表示关系标签,需要分别设置。
  • 导入数据。在Datasets一栏点击ActionsImport Dataset从文件导入文本数据。

    • 根据文件格式(File format)给出的示例,选择适合的格式导入自定义数据文件。
    • 导入成功后即跳转至数据列表。
  • 标注数据。点击每条数据最右边的Annotate按钮开始标记。标记页面右侧的标签类型(Label Types)开关可在实体标签和关系标签之间切换。

    • 实体标注:直接用鼠标选取文本即可标注实体。
    • 关系标注:首先点击待标注的关系标签,接着依次点击相应的头尾实体可完成关系标注。
  • 导出数据。在Datasets一栏点击ActionsExport Dataset导出已标注的数据。

将标注数据转化成UIE训练所需数据

  • 将doccano平台的标注数据保存在./data/目录。对于语音报销工单信息抽取的场景,可以直接下载标注好的数据。

各个任务标注文档

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md

! wget https://paddlenlp.bj.bcebos.com/datasets/erniekit/speech-cmd-analysis/audio-expense-account.jsonl
! mv audio-expense-account.jsonl ./data/

运行以下代码将标注数据转换为UIE训练所需要的数据
splits 0.2 0.8 0.0 训练集 测试集 验证集

可配置参数说明

  • doccano_file: 从doccano导出的数据标注文件。
  • save_dir: 训练数据的保存目录,默认存储在data目录下。
  • negative_ratio: 最大负例比例,该参数只对抽取类型任务有效,适当构造负例可提升模型效果。负例数量和实际的标签数量有关,最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效,默认为5。为了保证评估指标的准确性,验证集和测试集默认构造全负例。
  • splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。
  • task_type: 选择任务类型,可选有抽取和分类两种类型的任务。
  • options: 指定分类任务的类别标签,该参数只对分类类型任务有效。
  • prompt_prefix: 声明分类任务的prompt前缀信息,该参数只对分类类型任务有效。
  • is_shuffle: 是否对数据集进行随机打散,默认为True。
  • seed: 随机种子,默认为1000.
! python preprocess.py --input_file ./data/audio-expense-account.jsonl --save_dir ./data/ --negative_ratio 5 --splits 0.2 0.8 0.0 --seed 1000

2.3 训练UIE模型

  • 使用标注数据进行小样本训练,模型参数保存在./checkpoint/目录。

tips: 推荐使用GPU环境,否则可能会内存溢出。CPU环境下,可以修改model为uie-tiny,适当调下batch_size。

增加准确率的话:–num_epochs 设置大点多训练训练

可配置参数说明:

  • train_path: 训练集文件路径。
  • dev_path: 验证集文件路径。
  • save_dir: 模型存储路径,默认为./checkpoint
  • learning_rate: 学习率,默认为1e-5。
  • batch_size: 批处理大小,请结合显存情况进行调整,若出现显存不足,请适当调低这一参数,默认为16。
  • max_seq_len: 文本最大切分长度,输入超过最大长度时会对输入文本进行自动切分,默认为512。
  • num_epochs: 训练轮数,默认为100。
  • model: 选择模型,程序会基于选择的模型进行模型微调,可选有uie-baseuie-tiny,默认为uie-base
  • seed: 随机种子,默认为1000.
  • logging_steps: 日志打印的间隔steps数,默认10。
  • valid_steps: evaluate的间隔steps数,默认100。
  • device: 选用什么设备进行训练,可选cpu或gpu。
! python finetune.py --train_path ./data/train.txt --dev_path ./data/dev.txt --save_dir ./checkpoint --model uie-tiny --learning_rate 1e-5 --batch_size 2 --max_seq_len 512 --num_epochs 50 --seed 1000 --logging_steps 10 --valid_steps 10
#! python finetune.py --train_path ./data/train.txt --dev_path ./data/dev.txt --save_dir ./checkpoint --model uie-base --learning_rate 1e-5 --batch_size 16 --max_seq_len 512 --num_epochs 50 --seed 1000 --logging_steps 10 --valid_steps 10
  • 使用小样本训练后的模型参数再次测试无法正确抽取的case。
from paddlenlp import Taskflowschema = ['时间', '出发地', '目的地', '费用']few_ie = Taskflow('information_extraction', schema=schema, task_path='./checkpoint/model_best')few_ie(['10月16日高铁从杭州到上海南站车次d5414共48元','10月22日从公司到首都机场38元过路费'])
[{'时间': [{'text': '10月16日','start': 0,'end': 6,'probability': 0.9998620769863464}],'出发地': [{'text': '杭州','start': 9,'end': 11,'probability': 0.997861665709749}],'目的地': [{'text': '上海南站','start': 12,'end': 16,'probability': 0.9974161074329579}],'费用': [{'text': '48','start': 24,'end': 26,'probability': 0.950222029031579}]},{'时间': [{'text': '10月22日','start': 0,'end': 6,'probability': 0.9995716364718135}],'目的地': [{'text': '首都机场','start': 10,'end': 14,'probability': 0.9984550308953608}],'费用': [{'text': '38','start': 14,'end': 16,'probability': 0.9465688451171062}]}]

PaddleNLP--UIE(二)--小样本快速提升性能(含doccona标注)相关推荐

  1. 快速提升性能的SQL语句,建议收藏

    来源:cnblogs.com/SimpleWu/p/9929043.html 本文会提到 52 条 SQL 语句性能优化策略. 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 WHERE 及 O ...

  2. 如何快速提升 Go 程序性能?

    快速提升 Go 程序性能的实用技巧,你值得了解一下. 作者 | Stephen Whitworth 译者 | 弯月,责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 我对软件性能的话题十分 ...

  3. go bson转换成json_如何快速提升 Go 程序性能?

    快速提升 Go 程序性能的实用技巧,你值得了解一下. 作者 | Stephen Whitworth 译者 | 弯月,责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 我对软件性能的话题十分 ...

  4. 傅里叶变换 一维和二维快速傅里叶变换(代码和性能的优化)

    1.介绍. 在类FourierUtils的fftProgress方法中,有这个代码段,我们可以将Complext.euler(flag * i)提前计算好,设置大小为2次幂N,如果没有的话,也要调节到 ...

  5. 工作5年左右的程序员如何在职业瓶颈期内快速提升自己的身价?提升后如何有效变现自己的高质量技能?...

    当一般的程序员工作5年左右后,往往会遇到事业上的一个瓶颈期:能力上已经达到高级开发,工资比上不足比下有余,而且至少能在所在城市站稳脚跟. 不过根据行业现状,这类程序员再要向上提升,难度就不小了,具体表 ...

  6. 在校生如何快速提升竞争力

    一个从事技术岗位的毕业生,要想在短期内提升竞争力,获得周边同事,直属leader的认可和赞扬,我觉得需要关注以下的一些方面. 一 代码能力 无论你用什么语言,做什么项目.代码能力就是基础中的基础.说实 ...

  7. 掌握这 25 条小贴士,快速提升数据可视化能力!

    英文:Katy French,翻译:优设 可视化不是单纯的数据展示,其真正价值是设计出可以被读者轻松理解的数据展示.设计过程中的每一个选择,最终都应落地于读者的体验,而非设计者个人. 本文提到了一些常 ...

  8. [NewLife.XCode]高级查询(化繁为简、分页提升性能)

    NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netcore,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量结合示例代码和 ...

  9. 工作5年左右的程序员如何在职业瓶颈期内快速提升自己的身价?提升后如何有效变现自己的高质量技能?

    当一般的程序员工作5年左右后,往往会遇到事业上的一个瓶颈期:能力上已经达到高级开发,工资比上不足比下有余,而且至少能在所在城市站稳脚跟. 不过根据行业现状,这类程序员再要向上提升,难度就不小了,具体表 ...

  10. 非好学校科班出身的程序员,该如何快速提升自己

    目前一般的大点的公司,往往会在招聘时(尤其在招聘3年以下工作经验的程序员时)会设置学校的门槛,比如需要211或985相关专业毕业.这里我无意贬低不在这个范围的程序员,相反在本文里还将根据我所见和我所闻 ...

最新文章

  1. 2021-12-09把文件夹1中的与文件夹2里同名图片删除或者保存至另一个文件夹
  2. 翻译 | 2015年的最佳Material Design集锦 【上篇】
  3. 用YSlow分析我们页面
  4. PTA L2-001 紧急救援 (点带权最短路)
  5. 浏览器兼容性问题汇总及解决方案
  6. C和指针之IO流和缓冲区
  7. safari的一些问题
  8. c# mysql代码中写事务_代码中添加事务控制 VS(数据库存储过程+事务) 保证数据的完整性与一致性...
  9. CBOW模型正向传播、矩阵乘积层实现
  10. Qt工作笔记-使用QFileSystemWatcher监控文件是否改变
  11. 98.验证二叉搜索树
  12. django和scrapy创建项目命令
  13. Oracle统计大小语句(用户、表、分区表、索引等)
  14. 学习小感之浅谈学习兴趣之路
  15. 【常见Web应用安全问题】---12、URL redirection
  16. 桌面超简单小代码 bat形式
  17. 天线工作原理以及如何计算天线长度
  18. 如何将图片转为excel表格文件?
  19. 偏差、方差、标准差、协方差
  20. Prometheus普罗米修斯监控的使用_v1.0.5

热门文章

  1. linux vim yy,linux vim的使用方法
  2. 旅游管理系统(包含旅游最短路径规划算法等,包含系统分析的各种uml图和界面图)
  3. 含泪推荐5款极为实用的软件
  4. 单片机应用系统设计技术——扩展行列式键盘
  5. python自动化办公——python操作Excel、Word、PDF集合大全
  6. ssh 远程连接、上传下载命令
  7. Web前端三大框架的总结,你是否知道呢?
  8. Tushare最好用的金融数据接口之一
  9. 手工打造迅雷9超精简版
  10. cad立体图怎么旋转看图_CAD趣事之对CAD图纸进行旋转,360°无死角查看的方法-dwg文件查看器...