来源:机器之心

本文约1700字建议阅读7分钟

百度提出知识增强的语义表示模型ERNIE,并发布了基于PaddlePaddle的开源代码与模型。

[ 导读 ]近日,百度提出知识增强的语义表示模型 ERNIE(Enhanced Representation from kNowledge IntEgration),并发布了基于 PaddlePaddle 的开源代码与模型,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理(NLP)各类中文任务上的验证显示,模型效果全面超越 BERT。

ERNIE Github 项目地址:

https://github.com/PaddlePaddle/LARK/tree/develop/ERNI

近年来,无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 任务的效果。早期的工作聚焦于上下文无关的词向量建模,而之后提出的 Cove,ELMo,GPT 等模型,构建了语句级的语义表示。Google 近期提出的 BERT 模型,通过预测屏蔽的词,利用 Transformer 的多层 self-attention 双向建模能力,取得了更好的效果。

无论是稍早提出的 Cove、Elmo、GPT, 还是能力更强的 BERT 模型,其建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。例如,对于乒 [mask] 球,清明上 [mask] 图,[mask] 颜六色这些词,BERT 模型通过字的搭配,很容易推测出掩码的字信息,但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。

设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个 NLP 任务效果。因此百度提出了基于知识增强的 ERNIE 模型。ERNIE 模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。

具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

举个例子:

  • Learned by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

  • Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

在 BERT 模型中,通过“哈的局部共现,即可判断出字,模型没有学习与哈尔滨相关的知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出哈尔滨黑龙江的关系,学到哈尔滨黑龙江的省会以及哈尔滨是个冰雪城市。

ERNIE 模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色,绿色,蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。

此外,ERNIE 的训练语料引入了多源数据知识。除了百科类文章建模,还对新闻资讯类、论坛对话类数据进行学习,这里重点介绍下论坛对话建模。对于对话数据的学习是语义表示的重要途径,往往相同回复对应的 Query 语义相似。基于该假设,ERINE 采用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,通过该方法建模进一步提升模型语义表示能力。

ERNIE 对实体概念知识的学习以及训练语料的扩展,增强了模型语义表示能力。为验证 ERNIE 的知识学习能力,研究者利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉,让模型推理其答案。

可以看到 ERNIE 在基于上下文知识推理能力上表现的更加出色。

对于知识推理能力,ERNIE 在自然语言推断任务上做了进一步实验。XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。ERNIE 与 Google 公布的 BERT 进行了比较:

实验表明,ERNIE 模型相较于 BERT,在语言推断效果上更胜一筹。

多个公开的中文数据集上的进一步效果验证显示,相较 BERT,ERNIE 模型均取得了更好的效果:

1. 语义相似度任务 LCQMC

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。

2. 情感分析任务 ChnSentiCorp

ChnSentiCorp 是中文情感分析数据集,其目标是判断一段话的情感态度。

3. 命名实体识别任务 MSRA-NER

MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。

4. 检索式问答匹配任务 NLPCC-DBQA

NLPCC-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是选择能够回答问题的答案。

研究团队表示,此次技术突破将被应用于多种产品和场景,进一步提升用户体验。未来百度将在基于知识融合的预训练模型上进一步深入研究。例如使用句法分析或利用其他任务的弱监督信号进行建模。此外,百度也会将该思路推广到其他语言,在其他语言上进一步验证。

百度自然语言处理(Natural Language Processing,NLP)以“理解语言,拥有智能,改变世界为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

编辑:黄继彦

校对:龚力

中文任务全面超越BERT:百度正式发布NLP预训练模型ERNIE(附项目地址)相关推荐

  1. 【NLP】万字梳理!BERT之后,NLP预训练模型发展史

    作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...

  2. 万字梳理!BERT之后,NLP预训练模型发展史

    作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...

  3. 一文读懂最强中文NLP预训练模型ERNIE

    基于飞桨开源的持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果.本文带你进一步深入了解ER ...

  4. 深度学习核心技术精讲100篇(八十一)-NLP预训练模型ERNIE实战应用案例

    前言 基于飞桨开源的持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果.本文带你进一步深入了 ...

  5. 超详细中文预训练模型ERNIE使用指南-源码

    作者 | 高开远,上海交通大学,自然语言处理研究方向 最近在工作上处理的都是中文语料,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对 ...

  6. 超详细中文预训练模型ERNIE使用指南

    作者 | 高开远,上海交通大学,自然语言处理研究方向 最近在工作上处理的都是中文语料,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对 ...

  7. 【视频】超越BERT的最强中文NLP预训练模型艾尼ERNIE官方揭秘

    分章节视频链接:http://abcxueyuan.cloud.baidu.com/#/course_detail?id=15076&courseId=15076 完整视频链接:http:// ...

  8. 直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...

  9. 最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】

    "最近刚好在用ERNIE写毕业论文" "感觉还挺厉害的" "为什么叫ERNIE啊,这名字有什么深意吗?" "我想让艾尼帮我写作业& ...

最新文章

  1. 如何使用python numpy中的数组复制
  2. AbstractFactoryPattern(23种设计模式之一)
  3. 图像形状特征提取c语言,OpenCV_局部图像特征的提取与匹配_源代码
  4. springboot公共模块打包_SpringBoot 整合篇
  5. 如何使用 tinypng 进行批量压缩
  6. 取消android所有动画,android – 动画取消动画
  7. Java中取多个集合的交集——retainAll()
  8. 赠书 | 程序员学数学和算法基础畅销书单
  9. Towards Real-Time Multi-Object Tracking(JDE)
  10. 132 个 Web 设计工具(上)
  11. 无纸化会议转型,做可持续发展企业
  12. 北都南, 神月あおい - 小悪魔lovers
  13. 毒品犯罪论文的英文文献去哪找?
  14. c语言程序设计新编教程答案钱雪忠,新编C语言程序设计教程
  15. 【云原生-DevOps】企业级DevOps平台搭建及技术选型-项目管理篇
  16. Codeforces Round #702 (Div. 3)——B
  17. 读取绘制visio文件
  18. 解决xp系统进不了安全模式的问题
  19. TXT文件转Pascal voc数据集XML格式标注文件
  20. 财务分析和决策学习笔记

热门文章

  1. Nginx HTTP 负载均衡和反向代理
  2. Windows 7中200M神秘隐藏分区
  3. HTML form 标签的 method 属性
  4. js基础--javascript基础概念之String 类型
  5. MVC应用程序播放RealPlayer(rmvb)视频
  6. Entity Framework Code First添加修改及删除单独实体
  7. 一个空值_MySQL数据库表中 NULL 和空值到底有什么区别呢?
  8. matplotlib输出图形到网页_【Python】No.2 Numpy和Matplotlib初体验
  9. 四肢切割_四肢瘫痪者用大脑信号和先进的假肢完成吃饭动作
  10. Java接口和Java抽象类