近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型+相对少量的监督样本进行任务精调(fine-tuning)”,可以大幅提升各类NLP任务的效果。

由于效果显著和应用机制简单,预训练语言模型以前所未有的速度在业界得到广泛应用,各大厂纷纷发布自己的预训练模型。现在,我们已毫不怀疑预训练语言模型的能力,并坚信它的发展必将持续提升各类NLP任务的效果。但是,对其能力的上限仍有疑问:预训练语言模型能带领我们彻底理解语言吗?

预训练语言模型的不足

2020年,GPT-3[1] 发布,再一次引发大家对“通用人工智能”的热情。在一开始被GPT-3的效果惊艳之后,GPT-3的不足也暴露出来:虽然GPT-3能自动从海量的无监督语料中学习到丰富的共现知识,并成功应用于下游任务上,但GPT-3并未真正理解语言,它只是成功地记住和拟合了语料。

如上图GPT-3关于眼睛的问答例子所示,如果一个事实没有出现在语料中,预训练语言模型只能通过已经记住的语料分布去泛化,这会导致出现不可控的答案。因为,大量的事实知识是不能泛化的,即使个体是相似的,它们各自的属性值也不能随意互换。举个例子,如果一个模型的训练语料是童话故事,那么它从故事中学到的事实知识(如,太阳是个老爷爷)是无法用于现实世界的。

这自然引出了一个问题,模型没有见过的事实,通过知识去补足它,无法泛化的事实,通过知识去约束它,是否可行呢?这就是知识图谱在尝试解决的问题。

用知识弥补模型的不足

知识图谱通过将客观世界中实体、概念、及其事实性描述以结构化的方式显示表述出来,提供了一种更好地组织、管理、理解和使用知识的能力,并在搜索推荐、智能问答、大数据分析与决策等领域得到了成功应用。

不同领域的知识图谱有不同的知识表示范围和问题解决目标,例如:医疗图谱主要描述疾病、症状、药物、诊断相关知识,可用于辅助问诊、辅助诊断、治疗方案推荐等场景;商品知识图谱主要描述商品属性、特征、关联关系等,可用于导购、客服、营销等场景。

那么,除了这些具体的领域事实知识和领域应用之外,还有哪些通用知识是模型欠缺的,能帮助模型像人一样理解语言?

实际上,人对事实知识的记忆能力是远逊于模型的(模型可以轻易记住上亿的精准事实知识,而人做不到),但人的语言理解能力却远远超过任何模型。每个人的知识背景都不尽相同,但不同年龄、不同国家、不同专业的人,互相之间可以交流。一本架空小说,描述的事实和我们生活的真实世界完全不同,但读者却可以无障碍地理解。

我们自然会认为,一定存在一个通用且相对稳定的知识体系,能够让不同的人互相交流,能够让人读懂从未见过的文章,能够让一个人给另一个人讲解清楚新出现的名词。但是,这样的通用知识体系是什么样的?如何表征和构建?如何应用到NLP模型和任务中?遗憾的是,在人工智能领域,虽然从几十年前已开始研究这些问题,但目前仍无共识性的答案,依然是大家共同努力探索的方向。

百度发布“解语”开源工具集,就是尝试从中文词汇理解和句子理解的角度,对这些问题进行初步探索:构建一个通用且相对稳定的中文词汇知识体系,将文本与词汇知识体系相关联,让模型对中文句子的理解能力更接近于人

直播提醒

72119:00本文作者将直播分享项目详情!加入PaddleNLP技术交流群即。可观看

解语:关联中文文本与词汇知识

为了能够区分通用知识和领域知识,我们选择这样的切入点:当一个人看到一个句子,如果事先不知道句子涉及的事实知识,怎么理解这个句子

显然,人对句子的理解至少包括以下三层:

1.        理解句子里都有哪些词;

2.        理解这些词大概的意义,即便有不认识的词,也能大概猜出这个词指的是一个人、一件事、还是一种疾病;

3.        理解这些词之间的关系,并与脑海里已有的知识关联。

基于这样的考虑,我们构建了“解语”,主要包括两部分:

A. 百科知识树(TermTree):是一个描述所有中文词汇(包括概念、实体/专名、领域术语、语法词等,统一称之为Term)的树状知识库。

B. 中文词类知识标注工具(WordTag):是首个能够覆盖所有中文词汇的词类知识标注工具,结合百科知识树可实现定制化词类序列标注。

解语主页
https://www.paddlepaddle.org.cn/textToKnowledge

百科知识树(TermTree)

百科知识树由两部分构成

•          TermType词类体系:覆盖所有中文词汇词类的树状知识体系,是对中文词汇集合的一种全划分层次表示;

•          Term关系和属性值:描述具体Term之间关系和Term属性值网状图谱,用于整合各应用知识图谱;

本次开源的百科知识树V1.0试用版中,包含了简化版的TermType体系,以及约100万数量的term集合[3]。

与其他常见应用知识图谱不同,百科知识树的核心是概念词,而非专名实体词。因为在中文文本中,概念词的含义是相对稳定的,而专名实体词随应用变化(例如,不同电商有不同的商品实体集,不同的小说站有不同的小说实体集),因此,百科知识树通过 “提供常用概念集 + 可插拔的应用实体集/应用知识图谱” 来达到支持不同的应用适配。

百科知识树的主要特点:

1. 采用树状结构(Tree),而不是网状结构(Net/Graph

•          树结构是对知识空间的全划分,网状结构是对相关关系的描述和提炼。树结构能够更加方便做到对词类体系的全面描述,也可以方便地与网状结构结合使用;

•          树结构适合概念层次的泛化推理,网状结构适合相关性的泛化推理。树结构的知识对统计相关知识有很好的互补作用,在应用中能够更好地弥补统计模型的不足。

2:覆盖所有中文词汇词类,经过大规模产业应用实践

•          百科知识树的词类体系是在大规模产业应用实践(如百科文本解析挖掘、query理解)中打磨出来的中文词类体系,在理论上可能不是一个完备体系,但很适合通用领域中文解析挖掘任务。

中文词类知识标注工具(WordTag)

WordTag是首个能够覆盖所有中文词汇的词类知识标注工具,旨在为中文文本解析提供全面、丰富的知识标注结果,可以应用于模板(挖掘模板、解析模板)生成

与匹配、知识挖掘(新词发现、关系挖掘)等自然语言处理任务中,提升文本解析与挖掘精度;也可以作为中文文本特征生成器,为各类机器学习模型提供文本特征。

使用WordTag工具可以方便为中文句子标注上词类序列知识。如下图所示,在PaddleNLP工具包中只需要三句代码,就可以得到给定中文句子的词类序列标注结果:

Wordtag与中文分词、词性标注、命名实体识别等工具的区别如下图所示:

由于中文是孤立语,没有词的形态变化,句法结构弱,主要依赖“词+词序”表达语义。通过WordTag词类知识标注产出完整的Term边界以及上位词类序列,能够为文本提供更加丰富的词汇知识特征,比一般分词粒度稳定,比词性特征区分度高,比命名实体识别覆盖面广,无论是直接用于挖掘,还是作为知识特征加入到DNN模型中,都是更全面的知识补充。

WordTag的理想目标是在词类序列标注这一维度上逼近人对句子的理解能力,也就是说,当句子中出现未知词汇时,能够通过句子中其他的词及词类知识划分它的边界并分辨出它大概率是什么词类。当前WordTag的效果距离这个目标还有相当大的距离,但通过不断基于百科知识树扩充和优化训练样本,WordTag会持续优化,逐步逼近这个目标。

不同场景下的文本解析可能有各自的特殊需求,结合百科知识树,WordTag可实现定制化词类序列标注。

解语的应用场景示例

应用场景1:分词、命名实体识别、专名挖掘

有别于其他的分词工具,WordTag的切分目标是尽可能将Term的完整边界切分出来,使之更加适用于下游的挖掘任务,在实际应用中,也可以结合其他基础粒度的中文分词结果共同使用。

同时,WordTag的标注词类覆盖了中文所有词汇,其结果可以直接作为命名实体识别的候选结果使用,也可以结合百科知识树进行更细粒度的词类筛选,或直接用于专名挖掘。

例如上文的例子:

WordTag结果:李伟\人物类_实体 拿出\场景事件 具有\肯定词 科学性\信息资料 、\w 可操作性\信息资料 的\助词 《\w 陕西省高校管理体制改革实施方案\作品类_实体 》\w

可直接作为分词结果,也可通过作品类_实体标签、人物类_实体标签得到实体候选,还可以结合百科知识树进行其他词类的挖掘和过滤。

应用场景2:文本挖掘模板/解析模板生成与匹配

在知识挖掘、query解析、语义一致性判定等应用中,文本挖掘/解析模板是最常用的规则模型。WordTag包含了覆盖中文所有词汇的词类标注体系,在生成模板以及模板匹配上有着天然的优势。用户可以根据WordTag标注的样本词类序列,自动生成或配置更加丰富、精准的挖掘/解析模板,然后对目标文本使用WordTag标注,即可利用模板进行匹配,从而大大降低人工配置模板的代价,显著提升生产效率。

例如,输入文本:美人鱼是周星驰执导的电影,可将抽取出的词类直接构造成为挖掘匹配模板:

[作品类_实体][肯定词|是][人物类_实体][场景事件|执导][作品类_概念|电影]

利用该模板,以及结合百科知识树进行概念扩展,可以匹配出所有该句式的文本,例如:

《狂人日记》是鲁迅创作的第一个短篇白话日记体小说

《千王之王2000》是一部王晶于1999年执导的喜剧电影

《射雕英雄传》是金庸创作的长篇武侠小说

WordTag的标注结果中,区分了“人物类_实体”和“人物类_概念”,以及“作品类_实体”和“作品类_概念”,使得模板生成更为精准。同时,百科知识树中也区分了命名实体词(eb: entity base)与非实体词(cb: concept base),这样,可以利用百科知识树分别进行实体扩展(e.g., 周星驰->王晶)和概念扩展(e.g., 电影->小说),生成更加丰富多样的模板,支持更细化的应用场景。

此外,模板也可用于文本分类和文本挖掘的样本优化:使用WordTag产出样本模板,再利用百科知识树进行泛化约束,筛选出高置信度的样本,或者过滤不合格的样本。

应用场景3:词类知识增强的DNN模型

很多研究在尝试将知识引入模型,以获得更好的应用效果。例如,[2]提出在关系抽取模型中增加实体类型的信息,以达到更优的知识抽取效果。

开发者们可以利用WordTag生成词类特征,与知识增强的挖掘模型结合,应用于自己的中文挖掘任务;研究者们也可以利用WordTag与百科知识树提供的丰富的词类特征,探索更好的知识增强的中文挖掘模型。

除下游任务外,也可以将词类知识应用于预训练中,例如使用词类知识控制预训练语言模型的掩码过程,让预训练语言模型具备更强的通用知识。

总结与展望

让NLP模型对语言的理解能力逼近人类,是所有NLPer的努力目标。一方面,我们希望模型能自动学得语料中隐含的知识,另一方面,我们也希望将人类积累的通用知识通过更高效的方式融入到模型中,弥补语料的分布缺陷。

“解语”是从中文词汇理解和句子理解的角度尝试构建词汇层次上的通用知识,并将其应用到中文文本知识标注中。目前的知识体系及标注效果还在持续优化中,此次作为开源数据和工具发布,也希望能和大家共同探索通用知识的表征与应用方案,打造更具有知识理解能力的NLP模型。

直播提醒

看完文章是不是有很多疑问想与作者交流?

请锁定飞桨B站直播间!

72119:00

本文作者将直播分享项目详情!

扫描下方二维码进入PaddleNLP技术交流群,技术专家在线答疑解惑,直播链接也将同步到交流群中

解语试用地址:
https://www.paddlepaddle.org.cn/textToKnowledge

解语项目地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge

访问PaddleNLP了解更多应用,Star 收藏跟进最新功能吧:
https://github.com/PaddlePaddle/PaddleNLP

参考资料

[1] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. arXiv preprint arXiv:2005.14165, 2020.
[2] Zhong Z, Chen D. A Frustratingly Easy Approach for Entity and Relation Extraction[J]. arXiv preprint arXiv:2010.12812, 2020.

[3] https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz

点击阅读原文获取直播链接

Beyond 预训练语言模型,NLP还需要什么样的知识?相关推荐

  1. 开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?

    近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本.2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过"超大规模无监督语料上的预训练语言 ...

  2. NLP判断语言情绪_网易严选nlp预训练语言模型的应用

    随着2018年底bert的发布,预训练(pre-train)成为nlp领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了nlp模型的标配.本文将介绍几种常见的语言模型的基本原理和使用 ...

  3. 哈工大SCIR倾力打造NLP新书,详解预训练语言模型

    自然语言处理被誉为"人工智能皇冠上的明珠"! 深度学习等技术的引入为自然语言处理技术带来了一场革命,近年来也出现了自然语言处理的新范式. 为什么自然语言是"人工智能皇冠上 ...

  4. 应用在生物医学领域中的NLP预训练语言模型(PubMedBERT)

    文章目录 1. 背景 2. 在生物医学和专业领域建立神经语言模型的新范式 3. 创建一个全面的基准和排行榜,以加快生物医学NLP的进度 4. PubMedBert:优于之前所有的语言模型,并获得最新生 ...

  5. 学习AI之NLP后对预训练语言模型——心得体会总结

    一.学习NLP背景介绍:      从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...

  6. 送书福利 | 哈工大SCIR倾力打造NLP新书,详解预训练语言模型

    车万翔,郭江,崔一鸣 著 电子工业出版社-博文视点 2021-07-01 ISBN: 9787121415128 定价: 118.00 元 新书推荐 ????今日福利 |关于本书| 自然语言处理被誉为 ...

  7. NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略

    NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介.架构组成.模型训练.使用方法之详细攻略 目录 PLUG的简介 PLUG的得分 PLUG的特点 PLUG的架构组成 PLUG的模型训 ...

  8. 自然语言处理NLP,如何使用AMBERT算法建立多粒度token预训练语言模型

    字节跳动 Xinsong Zhang.李航两位研究者在细粒度和粗粒度标记化的基础上,提出了一种新的预训练语言模型,他们称之为 AMBERT(一种多粒度 BERT).在构成上,AMBERT 具有两个编码 ...

  9. 赠书 | 一文了解预训练语言模型

    来源 | 博文视点 头图 | 下载于视觉中国 近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展.而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注. 通过大数据预训 ...

最新文章

  1. 小巧的日志记录组件 - 开源研究系列文章
  2. 对话阿里巴巴贾扬清:如何成为一名优秀的 AI 架构师?
  3. iframe 在 SAP 三款产品中的三个应用场景
  4. 楼宇计算机网络是如何工作的,【干货】建筑楼宇智能化如何应用 4C 技术
  5. python做视频抽帧图_python-opencv-视频截取帧图片
  6. C++文件读写 ifstream ofstream 完成复制文件功能
  7. wangEditor 全屏 预览 查看源码
  8. paip.输入法编程---输入法ATIaN历史记录 v8b
  9. NodeMCU(ESP8266) WIFI配网及保存WiFi密码信息
  10. 同款视频一键制作生成微信小程序源码下载恶搞视频,特效视频,唯美视频等等
  11. 叉乘点乘混合运算公式_七(上)数学:有理数混合运算常考题型笔记100%整理,收藏+学习...
  12. Facebook TSDB论文翻译
  13. 世界上最权威的68句创业名言
  14. 电影天堂python分页爬取
  15. 手机助手+for+linux,你的手机助手(com.microsoft.appmanager) - 3.5.8 - 应用 - 酷安
  16. 思维导图软件freemind的使用教程
  17. 104 polkadot substrate : 许可网络
  18. Vue + Spring Boot 项目实战(二十二):生产环境初步搭建
  19. 电路原理实验八:受控源特性测试
  20. k8s部署apollo

热门文章

  1. 批量创建文件夹并命名
  2. ios 渐变透明背景_骚气渐变色的海报设计怎么做?
  3. 理解left join的多次连续使用
  4. 262-Trips and Users
  5. 2021年R1快开门式压力容器操作最新解析及R1快开门式压力容器操作证考试
  6. ACL 2022事件相关(事件抽取、事件关系抽取、事件预测等)论文汇总
  7. 项目总结3 类似网易云音乐导航栏指示器(个性推荐、歌单等)的简单实现(一)
  8. oracle数据库exp/imp导出导入数据
  9. 天龙八部修改服务器经验,端游【天龙八部万象归一服务端】万象量一第7版一键端架设客户端+详细修改教程...
  10. java scope是什么意思_Tutorial:Javascript中的作用域(scope)是什么?(一)(试用FIREBUG了解)...