“哪吒”出世！华为开源中文版BERT模型

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

编辑：Sophia
计算机视觉联盟报道 | 公众号 CVLianMeng

转载于：诺亚实验室

【人工智能资源（书籍+视频）全网收集，附下载！】

推荐文章【点击下面可直接跳转】：

如何快速下载不同网站文档！

AI博士笔记系列推荐：

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

自Google于2018年发布预训练语言模型BERT ，并在11项自然语言处理（NLP）任务上取得最好成绩，预训练语言模型开始得到学术界和工业界的极大关注，已经成为自然语言处理的新范式。各个公司和高校的研究团队陆续推出了新的预训练语言模型，并不断刷新NLP任务上的记录，如CMU和Google推出的XLnet ，Facebook AI推出的RoBERTa ，百度推出的ERNIE 等。

华为诺亚方舟实验室语音语义团队与海思、云BU等团队合作，共同研究大规模预训练模型的训练技术，发布了自己的中文预训练语言模型NEZHA(NEural ContextualiZed Representation for CHinese LAnguage Understanding，中文：哪吒)。

当前版本的NEZHA基于BERT模型，并进行了多处优化，能够在一系列中文自然语言理解任务达到先进水平。

NEZHA的技术报告发布在：https://arxiv.org/abs/1909.00204，

模型和代码开源在：https://github.com/huawei-noah/Pretrained-Language-Model 。

NEZHA预训练语言模型

NEZHA是基于预训练语言模型BERT的改进模型，BERT通过使用大量无监督文本进行预训练，其包含两个预训练任务：Masked Language Modeling（MLM）和Next Sentence Prediction （NSP），分别预测句子里被Mask的字（在构造训练数据时，句子里的部分字被Mask）和判断训练句对里面是不是真实的上下句。

在具体的一个下游自然语言理解任务上，BERT经过在该任务上的微调就能够将预训练学到的语义信息成功迁移到下游任务上。诺亚方舟实验室的中文预训练语言模型NEZHA（哪吒）基于BERT在模型，预训练任务和训练算法三个维度进行了改进。

模型改进：BERT的网络架构是一个多层的Transformer网络，由于Transformer并没有直接考虑输入的token的位置信息，原始的Transformer模型和BERT分别采用了函数式和参数式的绝对位置编码方式，即每一个位置上的输入的token会叠加一个与位置信息相关的一个embedding（这个embedding称为绝对位置编码：absolute position embedding，APE），前者的位置编码是一个与位置相关的函数，后者则是模型参数的一部分，在预训练过程中学到的。此后，又有工作提出了相对位置编码方式，即在每一层计算隐状态的相互依赖的时候考虑他们之间的相对位置关系，这个相对位置信息表示为一个相对位置编码（relative position embedding，RPE），已有工作均在相对位置编码中加入了可学习的参数。本工作在BERT模型中使用了完全函数式的相对位置编码（相对位置编码没有任何需要学习的参数），实验结果表明该位置编码方式使得模型在各个下游任务上的效果均得到明显提升。

预训练任务：本工作引入了全词Mask技术，即不同于原始的BERT模型Mask单个中文字，该技术在MLM预训练任务中Mask整个词而不是单个字（如下图全词Mask方法Mask了一整个词“华为”），进而提升了任务难度使得BERT学到更多语义信息。

此外，借鉴SpanBERT ，NEZHA模型还引入了Span预测任务，该任务Mask一个连续的Span（例如下图中“机”，“很”，“不”三个字），利用Span前后的两个字的最上层表示（下图中的x3和x7）以及待预测字的位置信息来预测该字，如下图中，待预测字为“不”，Span预测任务会使用x3,x7和“不“”这个字的位置信息（就是x3和x6还有x6和x7之间的相对位置编码）来预测该字，“机”和“很”的预测也是同样的方法。该方法使得Span前后的字的表示会包含Span中字的语义信息，由于在训练过程中，一个句子会被随机Mask很多次，所以句子中每个字都有机会成为Span的前后字，进而使得各个字学到的表示都会包含周围Span的信息，Span预测任务能够有效提高模型在下游的Span抽取任务（此任务的目标是获取一段文字中目标片段的开始和结束位置）的效果。

训练算法：在训练过程中，我们采用混合精度训练（Mixed Precision Training）方式，在传统的深度学习训练过程中，所有的变量包括weight，activation和gradient都是用FP32（单精度浮点数）来表示。而在混合精度训练过程中，每一个step会为模型的所有weight维护一个FP32的copy，称为Master Weights，在做前向和后向传播过程中，Master Weights会转换成FP16（半精度浮点数）格式，权重，激活函数和梯度都是用FP16进行表示，最后梯度会转换成FP32格式去更新Master Weights。优化器方面我们使用了LAMB优化器，通常在深度神经网络训练的Batch Size很大的情况下（超过一定阈值）会给模型的泛化能力带来负面影响，而LAMB优化器通过一个自适应式的方式为每个参数调整learning rate，能够在Batch Size很大的情况下不损失模型的效果，使得模型训练能够采用很大的Batch Size，进而极大提高训练速度。在训练BERT的研究中，使用LAMB优化器在不损失模型效果的前提下，Batch Size达到了超过30k，使得BERT的训练时间从3天降到了76分钟。

实验结果

NEZHA模型的实验中采用了5个中文自然语言理解任务，即CMRC（中文阅读理解），XNLI（自然语言推断），LCQMC（句义匹配），PD-NER （命名实体识别任务），ChnSenti（情感分类）。我们在中文维基百科，中文新闻，百度百科数据上训练NEZHA模型，并且和谷歌发布的中文BERT，以及哈工大和科大讯飞联合发布的BERT-WWM，还有百度发布的ERNIE-Baidu进行了比较。从下表可以看出，NEZHA在XNLI，LCQMC，PeoplesDaily NER，ChnSenti任务上达到了先进水平（SOTA）。表中NEZHA，NEZHA-WWM和NEZHA-Span分别代表由原始的BERT预训练任务训练得到的，加入全词Mask训练得到的以及加入Span预测任务训练得到的NEZHA模型（三者均使用了全函数式相对位置编码）。

本工作还对NEZHA模型进行了剥离式研究（Ablation Study），着重研究了以下几个训练因素对模型效果的影响：

1. 位置编码：我们比较了NEZHA模型中使用的函数式相对位置编码相比于已有工作中使用的参数式绝对位置编码和参数式相对位置编码的效果

2. Masking策略：我们研究了全词Mask（WWM）的效果

3. Span预测任务：我们研究了Span预测任务针对阅读理解任务（CMRC）的效果

4. 训练序列的长度：用更长的序列训练是否能够带来效果提升

5. 训练语料的大小：用更大的语料进行训练是否能够带来提升

下表展示了剥离式研究的结果，从下表可以看出以上四个技术（即函数式相对位置编码，全词Mask，用更长的序列，更多语料进行训练）均能够提升模型的整体效果。尤其是函数式相对位置编码，相比于其他两种位置编码给模型效果带来了显著提升。Span预测任务显著提升了模型在阅读理解任务（CMRC）上的效果。

结论与展望

本文介绍了华为诺亚方舟实验室训练的中文预训练语言模型NEZHA，并阐述了其中预训练所用到的技术，包括：函数式相对位置编码，混合精度训练等，实验结果表明NEZHA模型在一系列中文自然语言理解任务上达到了先进水平。在今后的研究中，我们会探索NEZHA预训练的改进方案，并且探索基于NEZHA的自然语言生成的任务以及多语言模型的研究与实践。

关于模型名称（哪吒）的寓意：预训练语言模型历来有使用卡通人物名称命名的传统，如：Google发布的BERT模型，百度发布的ERNIE模型等，华为诺亚方舟实验室采用“哪吒”，一个中国传统神话人物，也是最近很热门的一个动画片主角，同时也表示我们的模型像哪吒那样三头六臂，威力无比，大力出奇迹，可以处理很多不同的自然语言任务。

END

声明：本文来源于网络

如有侵权，联系删除

联盟学术交流群

扫码添加联盟小编，可与相关学者研究人员共同交流学习：目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

“哪吒”出世！华为开源中文版BERT模型相关推荐

BERT模型—1.BERT模型架构
文章目录引言一.Bert模型总览二.注意力机制 1.Seq2seq中的注意力操作 2.注意力的一般形式(三步曲) 3. transformer中的自注意力机制-Self.Attention 4. ...
华为开源预训练语言模型「哪吒、TinyBERT」可直接下载使用
近日,华为诺亚方舟实验室的NLP团队开源了两个重要的预训练语言模型-哪吒和TinyBERT, 可以直接下载,预先训练和微调这两个模型. 该项目是诺亚方舟实验室用于开放各种预训练模型的源代码的项目.当前 ...
BERT模型系列大全解读
前言本文讲解的BERT系列模型主要是自编码语言模型-AE LM(AutoEncoder Language Model):通过在输入X中随机掩码(mask)一部分单词,然后预训练的主要任务之一就是根据 ...
Pytorch | BERT模型实现，提供转换脚本【横扫NLP】
<谷歌终于开源BERT代码:3 亿参数量,机器之心全面解读>,上周推送的这篇文章,全面解读基于TensorFlow实现的BERT代码.现在,PyTorch用户的福利来了:一个名为Huggi ...
金融领域首个开源中文BERT预训练模型，熵简科技推出FinBERT 1.0
出品 | AI科技大本营头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...
干货 | 谷歌BERT模型fine-tune终极实践教程
作者 | 奇点机智从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封 ...
BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南！
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自 | GitHub 作者 | Jay Alammar 转自 | 机器之心如 ...
BERT模型超酷炫，上手又太难？请查收这份BERT快速入门指南
2019-12-31 10:50:59 选自GitHub 作者:Jay Alammar 参与:王子嘉.Geek AI 如果你是一名自然语言处理从业者,那你一定听说过最近大火的 BERT 模型.本文是一 ...
BERT模型从训练到部署全流程
BERT模型从训练到部署全流程 Tag: BERT 训练部署缘起在群里看到许多朋友在使用BERT模型,网上多数文章只提到了模型的训练方法,后面的生产部署及调用并没有说明. 这段时间使用BERT模 ...

“哪吒”出世！华为开源中文版BERT模型

“哪吒”出世！华为开源中文版BERT模型相关推荐

最新文章

热门文章