NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】
预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.
在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.
一、Electra概述
在 2019 年 11 月份,NLP 大神 Manning 联合谷歌做的 ELECTRA 一经发布,迅速火爆整个 NLP 圈,其中 ELECTRA-small 模型参数量仅为 BERT-base 模型的 1/10,性能却依然能与 BERT、RoBERTa 等模型相媲美,得益于 ELECTRA 模型的巧妙构思 LOSS,在 2020 年 3 月份 Google 对代码做了开源。
BERT 的预训练的过程中使用了 Masked Language Model (MLM),随机选择输入句子中 15% 的单词,然后其中的 80% 的单词用 [mask] 替换,10% 保持不变,10% 随机替换。然后 BERT 会对这 15% 的单
NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】相关推荐
- ICLR 2020 | ELECTRA:新型文本预训练模型
今天介绍斯坦福大学和Google Brain团队在ICLR2020的论文,该研究提出ELECTRA语言模型,它是一种新型预训练方法,其关键点在于将预训练文本编码器作为标识符而非生成器,来处理现存语言模 ...
- 【NLP】N-LTP:基于预训练模型的中文自然语言处理平台
论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...
- 【NLP】万字梳理!BERT之后,NLP预训练模型发展史
作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...
- 【NLP】6种用于文本分类的开源预训练模型
来源 | PURVA HUILGOL 编译 | VK 作者 | Analytics Vidhya [导读]我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己 ...
- 【NLP】预训练模型综述
预训练模型综述 摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代.本文概述了面向自然语言处理领域的预训练模型技术.我们首先概述了预训练模型及其发展历史.并详细介绍自然语言处理领域的经典预 ...
- Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...
- 万字梳理!BERT之后,NLP预训练模型发展史
作者 | 周俊贤 整理 | NewBeeNLP 本文讲解下BERT推出后,预训练模型的演变,包括BERT.RoBERTa.ALBERT.ERNIE系列.ELECTRA.下面脑图是本系列第一篇内容,欢迎 ...
- 借鉴人类,跨越模态 | NLP和预训练模型未来的发展之路
[专栏:研究思路]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言 处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其 ...
- 1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”...
边策 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...
- 腾讯开源大规模X光预训练模型及代码 |MICCAI 2020
论文导读 " 预训练模型能够加速任务模型收敛速度和提升模型性能.自然场景图像有ImageNet预训练模型,但此类数据和医学图像差异较大.因此腾讯提出了一个基于70万X光数据进行训练的模型,以 ...
最新文章
- MVC之Model转Json
- mysql怎么用_面试官都是这样发问的,连环冲锋炮,看你怎么抵挡(上)
- ZH奶酪:Python按行读取文件
- 气死我的存储过程和用户定义函数
- as工程放到源码编译_Android 7.1源码编译导入AS完整教程
- python苹果电脑如何下载_python for Mac|python Mac版V2.7.10下载(暂未上线)_预约_飞翔下载...
- 一条命令教你安装centos下面的pip服务
- 基于python的图像变换(翻转、平移、缩放、旋转、仿射和透视变换)
- JVM GC一篇通 - 基础与调优
- 手机丢了如何损失最小
- 决胜未来,2019年前端开发十大战略性技术布局
- Python爬虫初探——天涯
- 交换机生成树相关实验
- mysql 指数 类型_利用MYSQL挑选指数基金
- 月薪翻20倍,从小编辑到百度高级产品经理,我是如何打怪升级的
- 全球股市暴跌,币圈应声跳水,为什么?
- 2021ccpc网络预选赛部分题解
- Running pipenv gives TypeError: 'module' object is not callable
- 成为oracle白金会员,华为成为Linux基金会白金会员
- uni-app入门及练手项目
热门文章
- php计算机专业毕业设计题目,计算机专业毕业论文-基于PHP的网络爬虫的设计与实现.doc...
- 这份Java Web必读书单,值得所有Java工程师一看!
- js 正则表达式禁止输入框输入特殊字符遇到的坑以及解决方案
- DNS 的A name和C name的区别
- 163邮箱如何申请注册个人?163电子邮箱个人怎么注册?
- 元气森林,只能小而美
- private static final long serialVersionUID = 1L 的作用
- 微信WP8 终端SDK新手使用指南
- wp微信小程序终极版开源下载
- 基于雷达的安防视频监控系统软件设计