前言

基于飞桨开源的持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。本文带你进一步深入了解ERNIE的技术细节。

一:ERNIE 简介

1.1 简介

Google 最近提出的 BERT 模型,通过随机屏蔽15%的字或者word,利用 Transformer 的多层 self-attention 双向建模能力,在各项nlp 下游任务中(如 sentence pair classification task, singe sentence classification task, question answering task) 都取得了很好的成绩。但是,BERT 模型主要是聚焦在针对字或者英文word粒度的完形填空学习上面,没有充分利用训练数据当中词法结构,语法结构,以及语义信息去学习建模。比如 “我要买苹果手机”,BERT 模型 将 “我”,“要”, “买”,“苹”, “果”,“手”, “机” 每个字都统一对待,随机mask,丢失了“苹果手机” 是一个很火的名词这一信息,这个是词法信息的缺失。同时 我 + 买 + 名词 是一个非常明显的购物意图的句式,BERT 没有对此类语法结构进行专门的建模,如果预训练的语料中只有“我要买苹果手机”,“我要买华为手机”,哪一天出现了一个新的手机牌子比如栗子手机,而这个手机牌子在预训练的语料当中并不存在,没有基于词法结构以及句法结构的建模,对于这种新出来的词是很难给出一个很好的向量表示的,而ERNIE 通过对训练数据中的词法结构,语法结构,语义信息

深度学习核心技术精讲100篇(八十一)-NLP预训练模型ERNIE实战应用案例相关推荐

  1. 深度学习核心技术精讲100篇(十一)-Google利器超强特征提取网络(Transformer)

    前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界.目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器. Transform ...

  2. 深度学习核心技术精讲100篇(五十八)- 如何量化医学图像分割中的置信度?

    前言 在过去的十年里,深度学习在一系列的应用中取得了巨大的成功.然而,为了验证和可解释性,我们不仅需要模型做出的预测,还需要知道它在做出预测时的置信度.这对于让医学影像学的临床医生接受它是非常重要的. ...

  3. 深度学习核心技术精讲100篇(八)-keras 实战系列之深度学习中的多任务学习(Multi-task learning)

    多任务学习(Multi-task learning)简介 多任务学习(Multi-task learning)是迁移学习(Transfer Learning)的一种,而迁移学习指的是将从源领域的知识( ...

  4. 深度学习核心技术精讲100篇(二十)-如何通过树模型实现梯度提升树(GBDT)+LR,随机森林(RandomForest) +LR

    前言 在讲如何通过树模型做特征工程之前,首先让我们回顾一下一个机器学习(除去深度学习项目部分)项目的大致流程: 从业务场景中抽象出问题--分类问题,回归问题,还是聚类问题等, 接下来是数据获取,数据清 ...

  5. 深度学习核心技术精讲100篇(六)-keras 实战系列之知识蒸馏(Knowledge Distilling)

    前言 深度学习在这两年的发展可谓是突飞猛进,为了提升模型性能,模型的参数量变得越来越多,模型自身也变得越来越大.在图像领域中基于Resnet的卷积神经网络模型,不断延伸着网络深度.而在自然语言处理领域 ...

  6. 深度学习核心技术精讲100篇(三十五)-美团餐饮娱乐知识图谱——美团大脑揭秘

    前言 " I'm sorry. I can't do that, Dave." 这是经典科幻电影<2001: A Space Odyssey>里HAL 9000机器人说 ...

  7. 深度学习核心技术精讲100篇(七)-keras 实战系列之深度学习模型处理多标签(multi_label)

    前言 最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(multi-class) ...

  8. 深度学习核心技术精讲100篇(五)-通过CTR预估对比深度学习模型(deepfm)梯度提升模型(catboost)

    前言 CTR预估模型的特点: 毫无疑问这个任务的是个二分类任务,预测点击与否. CTR 预估的特征一般是 用户的日志特征和画像特征,包含类别特征和数值型特征两种. 此任务的评估指标是 AUC 得分 或 ...

  9. 深度学习核心技术精讲100篇(十九)--GBDT(梯度提升树) 和 Resnet (残差网络)的原理

    残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...

最新文章

  1. Android下常见终端模拟器和SSH客户端感受及几个Tips
  2. wxWidgets:调试
  3. JavaScript 详说事件机制之冒泡、捕获、传播、委托
  4. junit 测试目录_JUnit 5测试中的临时目录
  5. RabbitMQ-镜像队列配置相关
  6. .net知识和学习方法系列(二十五) .net中的windows service与服务操作
  7. AD14简单使用教程
  8. java开发环境有哪些_Java学习开发环境配置大全
  9. 打造属于自己的量化投资系统3——利用backtrader创建加权移动平均线策略
  10. 六大设计原则之SRP
  11. 网络邻居上的计算机没权限,WinXP打开网上邻居提示“您可能没有权限使用网络资源”怎么办?...
  12. python:修改图片的尺寸
  13. 为什么在Excel文档单元格中输入长段数字就变为公式?干货来啦!如何解决在excel单元格中输入数字变为公式的问题?
  14. word 分栏后转html,word分栏后怎么到另一栏
  15. 怎么恢复格式化的sd卡呢?
  16. FSA(有限状态自动机)python代码实现 自然语言处理作业
  17. 【计算思维题】少儿编程 蓝桥杯青少组计算思维题真题及解析第2套
  18. 总谐波失真计算公式_黄金声学GR495四声道功放 低失真宽频响低调却有硬实力
  19. oracle trim没用,Oracle中Trim函数的使用方法
  20. STC89C52RC最小系统程序下载方法

热门文章

  1. 购物车Demo,前端使用AngularJS,后端使用ASP.NET Web API(2)--前端,以及前后端Session
  2. 二十四、oracle pl/sql 变量
  3. Android Launch Mode的学习记录
  4. 基于Linux的socket编程模板
  5. BLE Mesh(2)—— 基本术语及含义
  6. java 并发编程 aqs_Java并发编程之AQS
  7. 北航计算机考研 跨考,过来人分享:给外校跨考北航同学的建议
  8. python实现文件共享_改进的一行Python实现文件共享--支持并发
  9. python定义字典列表_[Python基础]五、列表、元组和字典
  10. android端与服务端差别,Android客户端和服务器端编程