这两个月打比赛的时候,有些小伙伴提到了electra这个预训练模型,说是能用roberta预训练运算量的1/4,甚至更少,使下游任务性能达到与roberta相当效果。为此,up打开了这篇论文,快速预览了一波,看看它到底何方神圣。

论文地址:https://openreview.net/pdf?id=r1xMH1BtvB

在很久之前,笔者已经更新了BERT的原理与应用,electra又是和bert相类似的预训练模型。笔者在这里就直接拿BERT的预训练方式和electra来做对比,看看electra到底有什么不一样的地方。

1.1 关键思想

Electra采用的预训练方式主要是GAN思想主导的预训练,笔者之前也介绍过GAN到底是怎么回事,不会的小伙伴可以去翻阅一下生成对抗网络 | 原理及训练过程

我们知道BERT是直接采用15%的“[MASK]”来掩盖某些字符(token),让模型在预训练过程中预测被“[MASK]”掉的字符(token)。

而electra则采用将这个思想用在Gan(generator)的生成器中,先随机“[MASK]”掉一些字符(token),然后用一个生成器(generator)对被“[MASK]”的字符生成相应的“伪字符(fake token)”,而discriminator辨别器(也就是electra)用来判断哪些字符(token)被更换过,论文作者将这个预训练任务称之为RTD(replaced token detection)。

1.2 总结

这篇文章主要的贡献是提出了一种最新的BERT类模型的预训练方式:RTD(replaced token detection)。关键思想是训练文本编码器,以区分输入令牌与由小型生成器generator网络产生的高质量负样本。与MLM(masked language modeling,也就是BERT的预训练方式)相比,它的预训练目标具有更高的计算效率,并且可以在下游任务上实现更好的性能。即使使用相对较少的计算量,它也能很好地工作。

至于具体的效果好不好,笔者这边还没有完全测过。不过笔者的师弟用electra跑某个比赛数据,线上成绩倒是上了6个百分点,然而这个比赛的数据集比较小,也不具备太多权威性。

最后值得一说的是,现在的预训练模型自BERT横空出世之后,便如雨后春笋般层出不穷,不过我们只要掌握BERT的原理与应用,大致就可以快速读懂一个新的预训练模型的原理,它们大多都是基于BERT原有的缺陷进行改进的。

媲美ROBERTA? ELECTRA快速了解一下!相关推荐

  1. Macadam自然语言处理(NLP)工具包(TextClassification, SequenceLabeling, RelationExtraction)

    Macadam Macadam是一个以Tensorflow(Keras)和bert4keras为基础,专注于文本分类.序列标注和关系抽取的自然语言处理工具包.支持RANDOM.WORD2VEC.FAS ...

  2. 特定领域知识图谱融合方案:文本匹配算法ERNIE-Gram单塔等诸多模型【_副本

    #★★★本文源自AlStudio社区精品项目, [点击此处]查看更多精品内容 >>> (https://aistudio.baidu.com/aistudio/proiectover ...

  3. 问答系统技术--DeepQA

    文章目录 1.概念与特点 2.微信搜一搜中的DocQA路线 2.1.语义检索 2.2.答案抽取 3.QQ浏览器问答技术中的DeepQA路线 3.1.系统性解决方法 3.2.query理解 3.3.意图 ...

  4. 杀死语音电话的不是微信,是骚扰

    这几天运营商老大哥中国移动又一次被推向风口浪尖:为了完成让更多用户使用4G流量套餐的KPI,一些地方移动公司与老的WAP免流量套餐用户爆发了矛盾,这被CCTV高度关注并表示315晚会将关注此事.这类事 ...

  5. 性能媲美BERT却只有其1/10参数量? | 近期最火模型ELECTRA解析

    快速传送门   论文链接 https://openreview.net/forum?id=r1xMH1BtvB Google开源地址 https://github.com/google-researc ...

  6. 对各大预训练语言模型的简单总结和评述(BERT/RoBERTa/ALBERT/ELECTRA/ERNIE/structBERT/SpanBERT...)

    前言 本文系对BERT及其各种优化的简单总结.如RoBERTa.ALBERT.ERNIE.SBERT.MacBERT等. 随积累,即时更新. 总结 BERT 初始预训练任务简介: MLM,即完形填空. ...

  7. 如何快速上手 Visio?有哪些可以与Visio相媲美的作图工具?

    1.visio简介 Office Visio是office软件系列中的负责绘制流程图和示意图的软件,是一款便于IT和商务人员就复杂信息.系统和流程进行可视化处理.分析和交流的软件.使用具有专业外观的O ...

  8. ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

    摘要 诸如BERT之类的Masked 语言模型(MLM,masked language modeling)预训练方法通过用[MASK]替换一些标记来破坏输入,然后训练模型以重建原始标记.尽管它们在转移 ...

  9. bert 中文 代码 谷歌_ELECTRA中文预训练模型开源,110个参数,性能媲美BERT

    感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP ...

最新文章

  1. PHP基础知识--函数
  2. QT中处理不同Windows(窗体中的)消息
  3. 【数据结构】——快速排序
  4. SSM简单参数传递与获取方法
  5. Hexo 入门指南(二) - 安装、初始化和配置
  6. 第三章 游戏软件工程基础
  7. 微服务分布式企业框架 Springmvc+mybatis+shiro+Dubbo+ZooKeeper
  8. Nginx配置共用80端口|端口转发端口映射
  9. Spring Boot插件spring tool suite安装及使用
  10. cookie、session、cache-control等
  11. 【Virtualbox虚拟机Ubuntu系统安装VBoxGuestAdditions.iso增强包解决办法】
  12. matlab 蜗杆轮廓,基于MATLAB的直廓环面蜗杆的可视化
  13. Scade Suite开发 ARINC 661 (2)Scade Suite基本操作
  14. win10电脑网速慢怎么解决
  15. JS中的正则表达式(一)
  16. JTF的Unable to invoke request异常或Unable to find a MessageBodyReader of content-type application..异常详解
  17. 程序设计课程报告2018212824沈园园
  18. Runtime error常见原因总结(各种oj,vjudge等等吧)
  19. GhostXP_SP3电脑公司特别版_V2013.06
  20. B样条曲线与曲面相关知识点汇总

热门文章

  1. python编辑视频字符化_Python 视频转字符画 - 进阶
  2. 【错误信息】Type interface com.chang.dao.UserinfoMapper is not known
  3. 计算机无法冷关机,笔记本关不了机怎么回事?笔记本电脑无法关机解决方案
  4. 微信和支付宝的服务器在哪里,手机恢复出厂设置,里面支付宝与微信怎么办?原来数据在这里...
  5. [论文阅读](对比学习系列)
  6. Kafka-connect将Kafka数据同步到Mysql
  7. 通过linux课程我学到了什么作文,我学会了什么作文(精选3篇)
  8. unity重置天下霸图进度20200902
  9. 说信任区块链时究竟在信任什么?
  10. 如何将旧iPhone 的数据全部转移到新iPhone SE3上?