预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.

在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.

一、Electra概述

在 2019 年 11 月份,NLP 大神 Manning 联合谷歌做的 ELECTRA 一经发布,迅速火爆整个 NLP 圈,其中 ELECTRA-small 模型参数量仅为 BERT-base 模型的 1/10,性能却依然能与 BERT、RoBERTa 等模型相媲美,得益于 ELECTRA 模型的巧妙构思 LOSS,在 2020 年 3 月份 Google 对代码做了开源。

BERT 的预训练的过程中使用了 Masked Language Model (MLM),随机选择输入句子中 15% 的单词,然后其中的 80% 的单词用 [mask] 替换,10% 保持不变,10% 随机替换。然后 BERT 会对这 15% 的单

NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】相关推荐

  1. ICLR 2020 | ELECTRA:新型文本预训练模型

    今天介绍斯坦福大学和Google Brain团队在ICLR2020的论文,该研究提出ELECTRA语言模型,它是一种新型预训练方法,其关键点在于将预训练文本编码器作为标识符而非生成器,来处理现存语言模 ...

  2. 【NLP】N-LTP:基于预训练模型的中文自然语言处理平台

    论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...

  3. 【NLP】万字梳理!BERT之后,NLP预训练模型发展史

    作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...

  4. 【NLP】6种用于文本分类的开源预训练模型

    来源 | PURVA HUILGOL 编译 | VK 作者 | Analytics Vidhya [导读]我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己 ...

  5. 【NLP】预训练模型综述

    预训练模型综述 摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代.本文概述了面向自然语言处理领域的预训练模型技术.我们首先概述了预训练模型及其发展历史.并详细介绍自然语言处理领域的经典预 ...

  6. Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...

  7. 万字梳理!BERT之后,NLP预训练模型发展史

    作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...

  8. 借鉴人类,跨越模态 | NLP和预训练模型未来的发展之路

    [专栏:研究思路]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言 处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其 ...

  9. 1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”...

    边策 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...

  10. 腾讯开源大规模X光预训练模型及代码 |MICCAI 2020

    论文导读 " 预训练模型能够加速任务模型收敛速度和提升模型性能.自然场景图像有ImageNet预训练模型,但此类数据和医学图像差异较大.因此腾讯提出了一个基于70万X光数据进行训练的模型,以 ...

最新文章

  1. MVC之Model转Json
  2. mysql怎么用_面试官都是这样发问的,连环冲锋炮,看你怎么抵挡(上)
  3. ZH奶酪:Python按行读取文件
  4. 气死我的存储过程和用户定义函数
  5. as工程放到源码编译_Android 7.1源码编译导入AS完整教程
  6. python苹果电脑如何下载_python for Mac|python Mac版V2.7.10下载(暂未上线)_预约_飞翔下载...
  7. 一条命令教你安装centos下面的pip服务
  8. 基于python的图像变换(翻转、平移、缩放、旋转、仿射和透视变换)
  9. JVM GC一篇通 - 基础与调优
  10. 手机丢了如何损失最小
  11. 决胜未来,2019年前端开发十大战略性技术布局
  12. Python爬虫初探——天涯
  13. 交换机生成树相关实验
  14. mysql 指数 类型_利用MYSQL挑选指数基金
  15. 月薪翻20倍,从小编辑到百度高级产品经理,我是如何打怪升级的
  16. 全球股市暴跌,币圈应声跳水,为什么?
  17. 2021ccpc网络预选赛部分题解
  18. Running pipenv gives TypeError: 'module' object is not callable
  19. 成为oracle白金会员,华为成为Linux基金会白金会员
  20. uni-app入门及练手项目

热门文章

  1. php计算机专业毕业设计题目,计算机专业毕业论文-基于PHP的网络爬虫的设计与实现.doc...
  2. 这份Java Web必读书单,值得所有Java工程师一看!
  3. js 正则表达式禁止输入框输入特殊字符遇到的坑以及解决方案
  4. DNS 的A name和C name的区别
  5. 163邮箱如何申请注册个人?163电子邮箱个人怎么注册?
  6. 元气森林,只能小而美
  7. private static final long serialVersionUID = 1L 的作用
  8. 微信WP8 终端SDK新手使用指南
  9. wp微信小程序终极版开源下载
  10. 基于雷达的安防视频监控系统软件设计