作者丨Zhe Zhao

机构丨RUC DBIIR & Tencent Research

研究方向丨自然语言处理

项目简介

预训练模型已经成为了 NLP 领域最重要的资源之一。当我们拿到一个 NLP 数据集时,首要任务是寻找一个预训练模型。当然,目前大家会趋同的选择 Google 发布的 BERT 模型 [1]


不过本文将为大家提供更多的中文预训练模型的选择!本文将介绍如何利用一个预训练模型框架 UER(Universal Encoder Representations)去使用性质各异的中文预训练模型,从而在下游任务上取得比 Google BERT 更好的效果。

预训练模型一般分成四个部分:语料、编码器、目标任务以及微调策略。已有的工作从这四个部分中选择不同的模块(比如选择不同的目标任务),构成一个预训练模型(如下图所示)[1,2,3]

 图1. 预训练模型和它们使用的模块。BERT模型使用12层Transformer编码器,遮罩语言模型+下一句子预测作为目标任务,并将整个模型迁移到下游任务进行微调

语料、编码器、目标任务对于一个预训练模型的性质有着重要的影响。虽然目前 Google BERT 模型一枝独秀,但是 Google BERT 选择的语料、编码器、目标任务对于很多的下游任务数据集未必是合适的(Google BERT 使用中文维基百科语料+12 层 Transformer 编码器+遮罩语言模型任务&句子预测任务)。

因此,我们这里提供了一个基于不同语料、不同编码器以及不同目标任务的中文预训练模型仓库(model zoo)。UER 的代码和模型仓库可以在这里获取

https://github.com/dbiir/UER-py

用户在模型仓库中选择适合下游任务的预训练模型进行下载并在上面微调。话不多说,下面我们一起看看如何用 UER 和它的模型仓库为我们的下游任务带来 SOTA 的效果!

快速上手

我们首先以非常火的 BERT 模型 [1] 和豆瓣书评情感分类数据集 [6] 为例,看看 UER 配合着模型仓库如何带来更好的预训练模型使用体验(更好的表现&更高的效率)。我们以使用者的角度,来上手操作一番。

我们首先要下载预训练模型。第一个下载的是 Google 官方的预训练模型(github 项目包含了所有预训练模型的下载地址)。我们把下载好的预训练模型放到 models 文件夹中。然后我们执行如下命令:

这里简单介绍一下各个选项的意义:--pretrained_model_path 指定预训练模型的路径;--vocab_path 指定词典的路径;下游任务数据集路径通过 --train_path、--dev_path、--test_path 指定;--encoder 指定我们使用的编码器,这里使用 BERT 中的 12 层 Transformer 编码器。

通过在 Google BERT 模型上微调,这里得到了 87.01 的结果。这个结果和 UER 项目中给的 87.5 的准确率有差距。如果更改 seed 的话结果会有一定的波动。UER 项目给的结果是多次取平均得到的。

下面,我们尝试其它的预训练模型,期待获得更好的效果。这里首先通过在一个小规模书评语料上预训练来得到一个更适合书评分类数据集的预训练模型。

我们加载 Google BERT 预训练模型,然后在小规模书评语料上进行无监督的预训练。本文侧重微调阶段,即如何在下游任务上利用好模型仓库中的预训练模型。至于预训练方面的细节,本文不加赘述。

UER 项目已经为我们提供了在小规模书评语料上预训练好的模型。我们直接下载下来,放到 models 文件夹之中。下面进行分类任务。和前面执行 Google BERT 的命令相比,现在只需要替换预训练模型的路径(--pretrained_model_path):

通过在 book_review_model.bin 上进行微调,我们得到了 88.05 的结果,相对于 BERT 提升比较显著。

上面的模型只是在小规模语料上训练的结果。我们可以从 UER 的模型仓库中去搜索更加合适的预训练模型。Amazon_cls_model.bin 使用分类目标任务和 Amazon 评论语料 [10] 进行预训练。由于这个模型的语料和书评语料性质接近,并利用了有监督信息 [3],所以这份预训练模型可能对于书评数据集是一个很好的选择。

实验结果显示,通过加载 amazon_cls_model.bin,我们得到了 88.65 的准确率。虽然 BERT 的效果已经非常厉害了,超出了之前的模型一大截距离,但是我们在 BERT 的基础上仍然获得了显著的提升!

 表1. 加载不同预训练模型在书评情感分类任务上的对比

BERT 模型非常强大,但是效率较低,这严重限制了 BERT 的使用场景。比如当我们使用 BERT 进行前向 inference 的时候,普通 CPU 一秒钟只能处理两三条。这在很多的场景中是不能接受的。因此,UER 还提供了一些基于轻量级编码器的预训练模型,以期实现更为快速的训练过程,同时能够兼顾准确率。

这里仍然使用上面的豆瓣书评数据集对模型进行评估。我们在模型仓库中选择一个基于 2 层 LSTM 编码器的预训练模型,lstm_reveiews_model.bin。这个模型首先在大规模混合语料上用语言模型(LM)作为目标任务进行预训练,然后再在 Amazon 带标签的评论语料 [10] 上用语言模型(LM)和分类(CLS)目标任务进行预训练。我们将这个预训练模型用于豆瓣书评数据集上:

这里需要手动指定配置路径--config_path,因为 classifier.py 默认使用的是 BERT 的配置。通过微调,我们得到了 86.68 的准确率。如果不加载预训练模型(随机初始化),LSTM 仅仅能得到 80.25 的准确率。由此可以看到预训练模型的重要性。

下面我们将 LSTM 编码器用于 ChnSentiCorp 情感分类数据集。我们只需要将命令行中的 train_path、dev_path、test_path 更改为相应路径即可。

 表2. 使用轻量级编码器和Google BERT模型进行对比

我们使用 LSTM 编码器得到了 94.5 的准确率。可以看到使用合适的基于轻量级编码器的预训练模型可以在这两个分类任务上得到非常有竞争力的结果。在实验中,使用 2 层 LSTM 编码器的预训练模型比 BERT 快了 10 倍。

可以看到,在模型仓库中选择合适的预训练模型用于情感分类任务,真的做到了又快又好!虽然编码器的能力不如 BERT 的 12 层 transformer,但是得益于对语料和目标任务合理的选择,我们仍然得到了比肩 BERT 的效果。期待轻量级的编码器能在更多的下游任务上有好的表现!

最后我们使用 UER 进行了序列标注任务,数据集为 MSRA-NER。这里有两个实验。第一个用 Google 提供的 BERT 预训练模型做序列标注,第二个用 UER 提供的在人民日报上使用 BERT 进行预训练的模型。

由于 MSRA-NER 数据集是在新闻语料上进行的序列标注,选择基于人民日报的预训练模型是比较合适的选择。下面是序列标注的脚本,我们分别使用 google_model.bin 和 rmrb_model.bin 作为预训练模型:

 表3. 不同预训练模型在MSRA-NER上的表现

最后实验结果显示使用人民日报模型的效果比 Google BERT 要好不少,相对于百度的 ERNIE 预训练模型也有一定的优势 [4]。通过上面几个例子,可以看到在很多情况下,Google BERT 并非是最合适的预训练模型。通过在 UER 模型仓库中选择合适的预训练模型,可以帮助我们在下游任务得到更好的表现。

我们在知乎上对 UER 的使用进行了连载:

https://zhuanlan.zhihu.com/p/70389596?utm_source=wechat_session&utm_medium=social&utm_oi=771376727665446912

里面记录了我们使用 UER 遇到的各种情形和细节问题(包括预训练和下游任务微调)。如果想立马使用 UER 去得到有竞争力的结果,可以移步到我们的连载中去。

模型仓库

上面我们介绍了如何使用 UER 去调用各种中文预训练模型,这里进一步对这个项目提供的模型仓库进行介绍。首先,这么多中文预训练模型都是怎么得到的呢?事实上,模型仓库中的预训练模型均是由 UER 训练得到的。这里对 UER 进行一个简要的介绍。

UER 使用了解耦的设计框架。它的子编码器、编码器、目标任务之间有着清晰的接口,可以帮助我们对不同模块进行轻松的组合。这个项目也实现了不少的模块,为我们提供了丰富的示例。UER 的整体结构如下图所示:

 图2. UER-py框架

从图 2 的上半部分可以看到,UER 实现了多个目标任务模块、编码器模块以及子编码器模块。UER-py 目前实现了以下目标任务:

lm_target.py:语言模型

mlm_target.py:遮罩语言模型(完形填空测试)

nsp_target.py:下一句话预测

cls_target.py:分类

s2s_target.py:seq2seq,支持自编码器和机器翻译作为预训练目标任务

bert_target.py:遮罩语言模型+下一句话预测以及实现了以下编码器:以及实现了以下编码器:

以及实现了以下编码器:

rnn_encoder.py:包含(双向)LSTM 和(双向)GRU

cnn_encoder.py:包含 CNN 和 GatedCNN

attn_encoder.py:包含注意力神经网络编码器

gpt_encoder.py:包含 GPT 编码器

bert_encoder.py:包含 BERT 编码器

mixed_encoder.py:包含基本编码器的组合,例如 RCNN(RNN + CNN),CRNN(CNN + RNN)

子编码器负责在字的特征上抽取信息得到词的特征。子编码器在预训练模型上用得不多,一个使用子编码器的经典的工作是 ELMO。得益于 UER 这种解耦的设计,我们可以轻松地使用不同的编码器、目标任务的组合,训练出不同性质的预训练模型。

因此,UER 的模型仓库提供了基于不同语料、编码器、以及目标任务的预训练模型。UER 项目给出了每一个预训练模型的细节,比如在什么语料上训练了多少步(参见 UER 项目中的 readme)。

图 3 给出了我们已有的语料、编码器、目标任务的组合。图 4 给出了项目中预训练模型下载链接和描述的截图。

 图3. 不同语料、编码器、目标任务进行组合,得到不同性质的预训练模型

 图4. Github项目中预训练模型下载链接和描述的截图

此外,UER 项目还给出了在大规模数据集上训练的模型。这些数据集来自于 GLYPH:

https://github.com/zhangxiangxiao/glyph

这些大规模数据集属于新闻主题分类和情感分析任务,每个数据集包括了从几十万到上百万的训练样本。得到的预训练模型能帮助我们直接验证 BERT 在几个大数据集上的效果。此外,这些预训练模型还可以继续用于其它下游任务数据集,相信将它们用于新闻、评论相关的任务会对结果有着显著的提升。

未来工作

1. 发布的预训练模型并没有使用遮词策略。百度的 ERNIE [4] 和哈工大&讯飞 [5] 最近的工作都显示了遮词对于预训练模型的重要性。分词信息对于中文 NLP 确实很重要,我们后续会发布引入多种改进策略的预训练模型,包括遮词策略、多任务学习等等。

对于将分词信息引入 BERT 这个思路,我们在之前也训练了基于词的 BERT 模型,并在以词搜词上取得了非常不错的效果,大家可以关注这个工作。

2. 我们一下子给出了接近二十个预训练模型。或许用训练这二十个模型的计算力,训练一个超级模型会更好?我们之前在做词向量的时候,发现大规模混合的语料带来的收益非常之高,因此,后面我们希望后面集中力量在大语料上训练一个大模型,并加入多种改进机制。

这里推荐下载该项目下的在mixed-large语料上使用characterngram特征训练的词向量

https://github.com/Embedding/Chinese-Word-Vectors

当然,这一批预训练模型还是很有意义的。通过前面的实验也看到,在不同任务上选择合适的预训练模型能帮助我们取得 SOTA 的结果。到底是训练一个超集模型,还是训练一批性质各异,满足不同下游任务的预训练模型?这仍然是一个开放的问题。

结束语

本文介绍了用 UER 训练的一批中文预训练模型,并展示了通过对这些预训练模型进行合理的利用,可以取得非常有竞争力的表现(更好的效果,更高的效率)。当我们再面对一个数据集的时候,我们的预训练模型选择不再局限于 Google BERT(或者百度的 ERNIE [4],哈工大&讯飞的 BERT-wwm [5])。

UER 模型仓库中的预训练模型各有特点,适用于不同的场景。我们希望大家能够关注我们的工作,听到大家想要的预训练模型,也希望这个工作对中文 NLP 领域能起到一点帮助。

参考资料

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[2] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.

[3] Conneau A, Kiela D, Schwenk H, et al. Supervised learning of universal sentence representations from natural language inference data[J]. arXiv preprint arXiv:1705.02364, 2017.

[4]https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

[5] https://github.com/ymcui/Chinese-BERT-wwm

[6] Qiu Y, Li H, Li S, et al. Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings[M]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer, Cham, 2018: 209-221.

[7] Liu X, Chen Q, Deng C, et al. LCQMC: A Large-scale Chinese Question Matching Corpus[C]//Proceedings of the 27th International Conference on Computational Linguistics. 2018: 1952-1962.

[8]http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf

[9] https://github.com/facebookresearch/XNLI

[10] https://github.com/SophonPlus/ChineseNlpCorpus

[11] https://github.com/brightmart/nlp_chinese_corpus

点击以下标题查看往期内容推荐:

  • ACL 2019 | 基于知识增强的语言表示模型

  • 图神经网络综述:模型与应用

  • ICLR 2019最佳论文 | 用有序神经元表达层次结构

  • F-Principle:初探理解深度学习不能做什么

  • 复旦大学邱锡鹏:词法、句法分析研究进展综述

  • 基于小样本学习的意图识别冷启动

  • 从CNN视角看在自然语言处理上的应用

  • 自然语言处理中的语言模型预训练方法

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 访问项目

一大批中文(BERT等)预训练模型等你认领!相关推荐

  1. 悟道·文澜详解:目前最大的中文多模态通用预训练模型

    近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新 ...

  2. 【Whole Word Mask】中文 bert wwm 预训练代码,预训练你自己的模型

    基于 transformers 来进行 bert 的 wwm (全词掩码)预训练,让你的模型可以领域适配 提示:文章偏向于NLP进阶,大佬请绕路-- 文章目录 基于 transformers 来进行 ...

  3. 使用bert的预训练模型做命名实体识别NER

    前言 在上一篇博客提到了如何使用blstm-crf模型来训练本地数据集,完成命名实体提取的任务,还详细解析了代码和对应的原理.针对特定的任务,垂直的领域,可能需要使用特定数据集去训练,从而使得模型有一 ...

  4. 基于tensorflow 1.x 的bert系列预训练模型工具

    向AI转型的程序员都关注了这个号

  5. 中文预训练模型研究进展

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:专知 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行 ...

  6. raft论文 中文 pdf_八篇论文总结BERT+KG:预训练模型与知识图谱相结合的研究进展...

    引言 随着BERT等预训练模型横空出世,NLP方向迎来了一波革命,预训练模型在各类任务上均取得了惊人的成绩.随着各类预训练任务层出不穷,也有部分研究者考虑如何在BERT这一类模型中引入或者强化知识图谱 ...

  7. 后 BERT 时代的那些 NLP 预训练模型

    本文介绍对于 BERT 的 Pretraining 过程进行改进的几篇文章,包括 Pre-Training with Whole Word Masking for Chinese BERT.ERNIE ...

  8. N-LTP:基于预训练模型的中文自然语言处理平台

    2021-05-03 18:12:52 论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretr ...

  9. 中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 改进策略简单有效.收敛速度快,同时小数据效果出色. 这就是中文预训练模型ZEN. 在中文任务中,ZEN不仅性能优于BERT,也比之前中文预 ...

最新文章

  1. 云上人替代方案训练代码
  2. SpringBoot之日志
  3. 合并流程处理及逆向操作
  4. oracle误删数据的解决方法
  5. 【ArcGIS Pro微课1000例】0015:ArcGIS Pro中属性字段分式标注案例教程
  6. spring mvc学习(24):配置maven环境和创建maven项目(建议收藏,超全超详细)
  7. mbsfn子帧_区分小区内子帧状态的方法、装置以及系统_2008100004878_说明书_专利查询_专利网_钻瓜专利网...
  8. native c++ 之javah
  9. 在Windows中测试c语言单个函数运行时间方法
  10. 贴吧粉丝怎么全部移除_亚马逊FBA怎么发货?怎么把货发到FBA仓库?
  11. Gensim官方教程翻译(二)——主题与转换(Topics and Transformations)
  12. CocoaLumberjack
  13. 几种线程池的实现算法分析
  14. Office Execl常用函数使用方法
  15. pyecharts绘制地图
  16. 如何对计算机进行远程连接,如何实现远程连接 远程连接命令介绍
  17. 腾达无线路由器连不上服务器,腾达无线路由器中继失败怎么办?
  18. 微信小程序聊天功能 WebSocket 实现发送文字,图片,语音以及WebSocket 常见问题解决方案
  19. 位置不可用无法访问 chkdsk无法修复的文件恢复方法
  20. play框架在idea开发工具上的简单配置

热门文章

  1. python列表的实现原理_python列表推导式原理和使用方法
  2. Csharp: Winform 顏色選擇器 Color convert RGB and RGB convert Color
  3. WPF快速入门系列(6)——WPF资源和样式
  4. OSS网页上传和断点续传(终结篇)
  5. winform窗体 小项目【安装程序】
  6. BZOJ3160: 万径人踪灭
  7. Linux:如何获取打开文件和文件描述符数量
  8. UFLDL 教程学习笔记(一)
  9. python url配置单独放在某个应用目录中
  10. Bootstrap初学(一)