UIE多语言版

和蒸馏版发布

信息抽取是NLP领域的重要任务之一,想必各位有信息抽取业务的NLPer都使用过UIE(Universal Information Extraction,通用信息抽取)技术了。UIE多任务统一建模特性大幅降低了模型开发成本和部署机器成本,相较于传统的预训练-微调范式,UIE基于Prompt的零样本抽取和少样本迁移能力更是惊艳!例如,在金融领域的事件抽取任务上,仅仅标注5条样本,F1值就提升了25个点!

表1:UIE在中文信息抽取数据集上零样本和小样本效果

(F1-score)

UIE由中科院软件所和百度共同提出,在实体、关系、事件和情感分析等4个信息抽取任务,13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能,这项成果发表在ACL 2022[1]。

今年5月,飞桨PaddleNLP结合文心大模型中的知识增强NLP大模型ERNIE 3.0[2],发挥了UIE在中文任务上的强大潜力,并且在论文的基础上针对实际落地进行进一步优化,开源了首个面向通用信息抽取的产业级技术方案,一经发布,即被广泛使用。近日,PaddleNLP又带来UIE两大升级:

UIE两大升级点

  • UIE多语言版本UIE-M,支持中英文混合抽取

  • 蒸馏版UIE,提速100倍以上

UIE-M介绍

UIE-M基于百度自研的多语言预训练模型ERNIE-M。作为UIE系列的多语言版本,UIE-M模型不仅支持使用中文Prompt抽取中文和使用英文Prompt抽取英文还支持中英文交叉抽取,例如,输入英文Prompt,能够同时抽取中文和英文文本中的关键信息(如下图),可以说非常酷炫了!仅需3行代码,调用PaddleNLP Taskflow API,即可快速使用:

>>> from pprint import pprint
>>> from paddlenlp import Taskflow
>>> schema = ['Time', 'Player', 'Competition', 'Score']
>>> ie = Taskflow('information_extraction', schema=schema, model="uie-m-base", schema_lang="en")
>>> pprint(ie(["2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!", "Rafael Nadal wins French Open Final!"]))
[{'Competition': [{'end': 23,'probability': 0.9373889907291257,'start': 6,'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],'Player': [{'end': 31,'probability': 0.6981119555336441,'start': 28,'text': '谷爱凌'}],'Score': [{'end': 39,'probability': 0.9888507878270296,'start': 32,'text': '188.25分'}],'Time': [{'end': 6,'probability': 0.9784080036931151,'start': 0,'text': '2月8日上午'}]},
{'Competition': [{'end': 35,'probability': 0.9851549932171295,'start': 18,'text': 'French Open Final'}],'Player': [{'end': 12,'probability': 0.9379371275888104,'start': 0,'text': 'Rafael Nadal'}]}]

UIE-M后续可以扩展到96种语言的信息抽取,同时这种跨语言信息抽取能力有较好的模型迁移能力,支持高资源语言到低资源语言的信息抽取迁移学习。

UIE蒸馏版介绍

为了满足开发者在精度、性能方面的多样性需求,PaddleNLP开源了多种规模的UIE模型,如图:

图1:PaddleNLP中开源的UIE模型

以上模型能够满足大部分开发者的需求。针对某些对性能要求极高或硬件性能较差的场景,PaddleNLP又双叒叕开源了UIE蒸馏版,进一步提升训练和预测性能。

PaddleNLP基于数据蒸馏技术构建了UIE蒸馏版,其原理是通过数据作为桥梁,将开放域的UIE信息抽取能力,通过大量无监督数据迁移到封闭域信息抽取小模型中,同时在UIE蒸馏版中提出关系抽取SPO三元组、情感分析ASO三元组统一解码策略,统一了封闭域信息抽取模型结构,在精度损失较小的情况下,能达到100倍以上的预测速度提升

对UIE技术细节感兴趣的朋友,可前往PaddleNLP中进行了解:

建议各位STAR收藏起来

https://github.com/PaddlePaddle/PaddleNLP

UIE在金融风控

业务中的应用

图2:UIE在各行业中的应用示例

如上图所示,UIE发布以来,已被广泛应用于金融、医疗、互联网等各行各业中。下面以金融领域——上市公司风险识别业务为例,介绍UIE的行业应用效果。

上市公司风险识别是金融市场参与者共同关心的议题。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

针对证监会、银监会发布的监管处罚的公告,上市公司公告中对于证券价格影响较大的事件、媒体发布的关于损害公司声誉的负面言论等各类风险舆情,业务人员需要定时进行搜索、归集,然后撰写每日风险总结报告。人工进行公告信息抽取不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动。目前,已有众多金融科技企业应用UIE技术,解决了这一难题。

图3:上市公司信息抽取效果直观展示

中国金融科技行业龙头企业金仕达基于UIE针对性地研发智能文档分析技术,将各类非结构化文档进行统一收集与分析,抽取重要事件、知识信息,信息抽取准确率达到95%,大幅降低业务人员信息录入与文件审核成本,支撑两类典型应用:

  • 应用一:从微观(单篇)和宏观(多篇)层面分析、汇总、展示重要信息;

  • 应用二:为上层的金融应用场景分析算法提供重要因子,大幅提高传统机器学习算法的效果。

图4:UIE在金融场景中的典型应用

课程预告

众多周知,在AI技术落地业务应用过程中,往往不单单涉及深度学习模型的调用,还包括与规则系统、传统机器学习算法的融合,这一现象在金融领域尤其明显。

为进一步加速金融科技行业人工智能融合创新与产业落地,百度飞桨联合百度智能云举办主题为“乘风而起,AI赋能智慧金融创新发展”的行业经验系列分享课程,包含4周系统课程,4大主流场景,10+代码全开源的实践范例,邀请行业内专家共同探讨科技金融的未来发展,分享产业实践。9月8日(本周四)将由金仕达AI实验室负责人、高级研究员——孙科,进行线上直播分享,名额有限,感兴趣的朋友可扫码预约课程

金仕达作为资本市场专业化技术服务商,依托在监管科技领域丰富的业务积累和对场景的深度理解,运用飞桨深度学习平台,采用NLP(自然语言处理)、数据科学等技术构建金融智能信息处理引擎,支撑智能风控、合规审计、反洗钱、量化交易等核心业务。

图5:金融智能信息处理引擎

课程中,孙科老师将分享UIE技术的扎实实践,还将带来金融领域合规管理、风险管理、量化投研等业务的算法应用与产品落地宝贵经验分享:

  • 需求理解不对称,客户说的真的是他想要的吗?

  • 场景方案复用性差,只能做定制化解决方案吗?

  • AI技术与客户需求间的鸿沟巨大,如何逾越?

  • 金融领域机器学习、深度学习之谜?

更多内容,欢迎参加直播课了解

附:“乘风而起,AI赋能智慧金融创新发展”系列课程海报(如已在前文扫码入群,则报名成功,无需重复操作)

关键技术已在PaddleNLP中开源

欢迎STAR支持:

https://github.com/PaddlePaddle/PaddleNLP

参考

[1] Unified Structure Generation for Universal Information Extraction

[2]https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/ernie-3.0

拓展阅读

四大"AI+金融"场景,10+真实产业范例,智慧金融行业实战课火爆开启

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

通用信息抽取技术UIE能力升级及其在金融业务中的落地应用相关推荐

  1. PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

    相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

  2. 真量技术践行“场景化”战略 货车金融业务突破11亿元

    成都2018年8月16日电 /美通社/ -- 本月14日,国内首个货运行业独立金融服务商 -- 真量技术实现累计放款超11亿元.真量技术业务覆盖运费垫资.货车分期.车商质押贷.汽运公司货车抵押.应收账 ...

  3. 美团技术:设计模式在美团外卖营销业务中的实践

    1.前言 随着美团外卖业务的不断迭代与发展,外卖用户数量也在高速地增长.在这个过程中,外卖营销发挥了"中流砥柱"的作用,因为用户的快速增长离不开高效的营销策略.而由于市场环境和业务 ...

  4. 技术思考:也谈知识图谱平台中的数据流程与构建范式思考

    笔者之前写过一篇文章<关于知识图谱标准化构建平台的思考:知识图谱只能做项目,不能做平台?>,地址:https://blog.csdn.net/lhy2014/article/details ...

  5. 深度|人脸图像的技术原理及在电商业务中的应用

    1.概述 时至今日,计算机视觉和深度学习的迅速发展,给很多技术领域带来了颠覆性的变化. 人脸图像处理(Face Image Processing)就是其中的典型例子:在互联网时代,该技术通过各种各样的 ...

  6. 区块链技术成为金融业务应用热点

    近日,中国银行业协会发布了<中国贸易金融行业发展报告(2019-2020)>(以下简称"<报告>"),这也是中银协连续第四年发布该报告. <报告> ...

  7. 聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

    信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注.传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与 ...

  8. 网上信息抽取技术纵览

    网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003 ...

  9. 新国货美妆品牌数字营销能力升级“三步法”

    受疫情冲击,越来越多国货美妆品牌意识到数字化的重要性,逐渐由"流量思维"转向"用户思维",纷纷开始试水私域运营,利用数字化工具加强 DTC(Direct-To- ...

最新文章

  1. 【JSP/Servlet】getParameter和getAttribute的使用、区别
  2. 12月碎碎念-随便聊聊这一年
  3. java 封装 继承 堕胎_Java的继承、封装和多态
  4. LINUX任务(jobs)详解
  5. 开发人员不可不知的六大JavaScript框架 传统网站网页转移动端方式
  6. php软件开发--mongodb
  7. 直接插入排序(C语言)实现
  8. Xshell连接redhat乱码问题
  9. ICPC2020小米网络选拔赛第一场复盘
  10. mysql从一个表中拷贝数据到另一个表中sql语句
  11. UNIQUE constraint failedの原因
  12. linux .otf文件,如何在Linux上将OTF或是TTF字库案转成WOFF或是WOFF2网页字库案?
  13. 软件测试主要流程分享
  14. 前端实习一个多月总结
  15. 马氏距离 java实现_马氏距离(Mahalanobis Distence) [python]
  16. 动词ing基本用法_动词ing的几种常见用法
  17. Vue3 中如何加载动态菜单?
  18. 强化学习 11 —— REINFORCE 算法推导与 tensorflow2.0 代码实现
  19. 统计人数-C语言实现
  20. RFID手持机助力仓储物流信息化管理

热门文章

  1. TensorFlow CNN卷积神经网络实现工况图分类识别(一)
  2. JS RPC-sekiro直接得到加密参数结果进行爬虫(同花顺)
  3. NIRX、Shimadzu2nirs的格式转换.nirs格式,供Homer2、3、FC-nirs进行分析方法
  4. C# dotnet 使用 OpenXml 解析 PPT 里面的视频
  5. Google Earth Engine(GEE)——以MODIS/006/MCD19A2为例批量下载逐天AOD数据逐天的均值、最大值、最小值、标准差、方差统计分析和CSV下载(北京市各区为例)
  6. 从零搭建本地PLC仿真环境:SIMATIC_PLCSIM_Advanced、Portal、KEPServer、OPCUA客户端工具
  7. 兆芯最新X86 CPU曝光:性能与英特尔/AMD相比,没落后10年
  8. PHP最新计算个人所得税
  9. 【论文笔记】A data value metric for quantifying information content and utility
  10. 移动互联改变了我们的生活