ChineseBERT：利用字形和拼音信息加强中文预训练

摘要
介绍
相关工作
- NLP中的大规模预训练模型
- 学习字形信息
模型
- 概述
- 输入
- 输出
预训练设置
- 数据
- 掩蔽策略
- 预训练细节
实验
- 机器阅读理解(MRC)
- 自然语言推断(NLI)
- 文本分类(TC)
- 句子对匹配(SPM)
- 命名实体识别(NER)
- 中文分词(CWS)
消融研究
- 字形嵌入和拼音嵌入的效果
- 训练数据大小的影响
总结

论文
源码

摘要

目前的中文预训练模型忽略了汉字特有的两个重要方面：字形和拼音，它们为语言理解提供了重要的句法和语义信息。

文章提出了ChineseBERT，它将汉字的字形和拼音信息结合到预训练语言模型中。

字形嵌入基于汉字的不同字体，能够从视觉特征中捕捉汉字的语义；
拼音嵌入刻画了汉字的读音，处理了汉语中普遍存在的异义词现象(同音异义)。

在大规模未标注中文语料库上进行了预训练，该模型以较少的训练步骤获得了比基准模型显著的性能提升。该模型在广泛的中文自然语言处理任务上取得了新的SOTA性能，包括机器阅读理解、自然语言推理、文本分类、句子对匹配以及命名实体识别和分词方面的竞争性性能。

介绍

大规模的预训练模型已经成为各种自然语言处理任务的基础，如自然语言理解、文本分类和问答。除了英文的自然语言处理任务外，预训练模型也证明了它们在各种中文自然语言处理任务中的有效性。

由于预训练模式最初是为英文设计的，目前大规模的预训练缺少两个针对中文的重要方面：基于字形的信息和基于拼音的信息。对于前者来说，中文区别于英文、德语等语言的一个关键因素是中文是一种标志语言。汉字的徽标对语义信息进行了编码。例如，“液(liquid)”, “河(river)” and “湖(lake)”都有部首“氵(水)”，这表明它们在语义上都与水有关。直观地说，汉字字形背后的丰富语义应该会增强中文自然语言处理模型的表现力。这一想法推动了学习汉字字形信息并将其融入神经模型的各种工作，但尚未进行大规模的预训练。

对于后者，拼音(代表其发音的汉字的罗马化序列)在对上下文或字形嵌入无法捕获的语义和语法信息进行建模时是至关重要的。考虑到中文中非常普遍的异义词现象，这方面尤其重要。在中文中，同一个字有多个发音，每个发音都有特定的含义。每个发音都与特定的拼音表达相关联。例如，在语义层面上，汉字“乐”有两个截然不同的发音：“乐”可以读成“yuù”，意思是“音乐”；“lè”，意思是“快乐”。在句法层面上，发音有助于识别字符的词性。例如，“还”字有“huán”和“hái”两种读音，前者意为动词“还”，后者意为副词“也”。同一字符的不同发音不能通过字形嵌入来区分，因为徽标相同，或者字符ID嵌入，因为它们都指向相同的字符ID，但是可以用拼音来表征。

本文提出了一种将汉字的字形和拼音信息融合到大规模预训练模型–ChineseBERT。字形嵌入基于汉字的不同字体，能够从视觉表面字形中捕捉字符语义。拼音嵌入模拟了具有相同字形的不同语义，从而绕过了在单个字后面交织语素的限制。对于汉字，将字形嵌入、拼音嵌入和字符嵌入组合在一起形成融合嵌入，该融合嵌入对汉字的独特语义属性进行建模。

随着更少的训练数据和更少的训练周期，ChineseBERT在广泛的中文NLP任务中实现了比基线显著的性能提升。该算法在机器阅读理解、自然语言推理、文本分类、句子对匹配等中文自然语言处理任务上取得了与SOTA相当的性能，在命名实体识别和分词方面取得了与SOTA相当的性能。

模型

概述

Figure1显示了提出的ChineseBERT模型的概述。对于每个汉字，先将汉字的字符嵌入、字形嵌入和拼音嵌入串联起来，然后通过全连通层映射到D维嵌入，形成融合嵌入。然后将融合嵌入与位置嵌入一起添加，位置嵌入作为输入输入到BERT模型。由于我们不使用NSP预训练任务，所以省略了分段嵌入。我们同时使用全字掩蔽(WWM)和字符掩蔽(CM)进行预训练。

输入

模型的输入是可学习的绝对位置嵌入和融合嵌入的相加，其中融合嵌入是基于相应汉字的字符嵌入、字形嵌入和拼音嵌入。字符嵌入的执行方式类似于BERT中使用的token嵌入，但以字符粒度执行。下面我们分别描述如何生成字形嵌入、拼音嵌入和融合嵌入。

字形嵌入 延用了Meng等人使用三种类型的中文字体—仿宋、行楷、隶书，每种字体都实例化为24×24的图像，浮点像素范围从0到255。不同于Meng等人使用CNN将图像转换为表示，本文使用FC层。我们首先将24×24×3的向量转换为2352个向量。平坦化后的矢量被送到FC层以获得输出字形矢量。
拼音嵌入每个字符的拼音嵌入用于分离属于同一字符形式的不同语义，如Figure3所示。我们使用开源的拼音包为其组成字符生成拼音序列。pypinyin是一个将机器学习模型与基于词典的规则相结合的系统，用于推断给定上下文中字符的拼音。汉字的拼音是罗马尼亚字母的序列，四个发音符号中的一个表示声调。我们使用特殊的标记来表示音调，这些音调被附加到罗马尼亚字符序列的末尾。我们在拼音序列上应用宽度为2的CNN模型，然后使用最大池化得到的拼音嵌入。这使得输出维度不受输入拼音序列长度的影响。输入拼音序列的长度固定为8，当拼音序列的实际长度未达到8时，剩余的槽中填充一个特殊的字母“-”。
融合嵌入 有了字符嵌入、字形嵌入和拼音嵌入，将它们连接起来形成一个三维向量。融合层通过完全连接的层将三维矢量映射到三维。融合嵌入中加入位置嵌入，并输出到BERT层。图示如Figure4所示。

输出

输出是每个输入汉字对应的上下文表示。

预训练设置

数据

从CommonCrawl收集了预训练的数据。经过预处理（如删除含有过多英文文本的数据和过滤html标记器），大约10%的高质量数据被保留用于预训练，总共包含4B个汉字。我们使用LTP工具包来识别汉语单词的边界，以进行全词掩蔽。

掩蔽策略

本文使用两种掩蔽策略——全词掩蔽（WWM）和字符掩蔽（CM）。Li等人提出，使用汉字作为基本输入单位可以缓解汉语词汇表外的问题。因此，我们采用在给定上下文中随机掩蔽字符的方法，用字符掩蔽表示。另一方面，汉语中的大量单词由多个字符组成，对于这些字符，CM策略对于模型来说可能太容易预测。例如，对于输入上下文“我喜欢逛紫禁[M] （i like going to The Forbidden [M]）”，该模型可以很容易地预测掩蔽字符是“城(City）”。因此，延用Cui等人使用WWM，一种掩蔽选定单词中所有字符的策略，缓解了CM策略容易预测的缺点。请注意，对于WWM和CM，基本输入单位都是汉字。WWM和CM之间的主要区别在于它们如何掩蔽角色以及模型如何预测掩蔽角色。

预训练细节

与Cui等人基于官方的中文预训练BERT对其模型进行预训练不同，我们从头开始训练中文BERT模型。为了加强模型学习长期和短期依赖性，在压缩输入和单输入之间交替进行预训练，其中压缩输入是多个句子的串联，最大长度为512，单输入是一个句子。我们以0.9的概率提供压缩输入，以0.1的概率提供单个输入。我们在90%的时间内使用全词屏蔽，在10%的时间内使用字符屏蔽。每个单词/字符的掩蔽概率为15%。如果选择了第i个单词/字符，在80%的时间内屏蔽它，在10%的时间内用随机单词/字符替换它，并在10%的时间内保持它。还使用动态掩蔽策略来避免重复的训练实例。我们使用两个模型设置：base和large，分别由12/24个transformer层组成，每个层的输入维度分别为768/1024和12/16个头。这使得我们的模型在模型大小方面与其他风格的BERT模型具有可比性。提交论文后，我们训练了最大学习率为1e-4、预热20K步、批量为3.2k的基础模型500K步，以及最大学习率为3e-4、预热90K步、批量为8k的大型模型280K步。预训练后，该模型可直接用于下游任务的微调，方法与BERT相同。

实验

对各种中文NLP任务进行了广泛的实验。模型在特定于任务的数据集上分别进行微调，以进行评估。具体而言使用以下任务：

机器阅读理解Machine Reading Comprehension (MRC)
自然语言推断Natural Language Inference (NLI)
文本分类Text Classification (TC)
句子对匹配Sentence Pair Matching (SPM)
命名实体识别Named Entity Recognition (NER)
中文分词Chinese Word Segmentation (CWS)

将ChineseBERT和当前最先进的ERNIE、BERT-wwm和MacBERT模型进行比较。ERNIE采用各种掩蔽策略，包括标记级、短语级和实体级掩蔽，对大规模异构数据进行预训练。BERT-wwm/RoBERTa-wwm继续在官方预训练的中文BERT/RoBERTa模型的基础上进行预训练，采用全词掩蔽预训练策略。除非另有规定，否则使用BERT/RoBERTa表示BERT-wwm/RoBERTa-wwm，并省略“wwm”。MacBERT 通过使用 MLM-As-Correlation (MAC) 预训练策略以及句子顺序预测 (SOP) 任务改进了 RoBERTa。值得注意的是，BERT 和 BERT-wwm 没有在线提供的大版本，因此我们省略了相应的性能。

Table1比较ERNIE、BERT-wwm、MacBERT和本文提出的ChineseBERT之间的数据统计。T:标记，P:短语，E:实体，WWM:全词掩蔽，N:N-gram，CM:字符掩蔽，MLM:掩蔽语言模型，NSP:下一句预测，MAC:MLM作为相关性。SOP：句子顺序预测。

这些模型的比较如Table 1 所示。值得注意的是，所提出模型的训练步骤明显小于基线模型。与使用预训练 BERT 初始化的 BERT-wwm 和 MacBERT 不同，所提出的模型是从头开始初始化的。由于对字形和拼音的额外考虑，由于模型结构不同，所提出的不能直接使用普通 BERT 模型进行初始化。即使从头开始初始化，所提出的模型的训练步骤也比 BERT 初始化后重新训练 BERT-wwm 和 MacBERT 的步骤少。

机器阅读理解(MRC)

机器阅读理解测试模型根据给定的上下文回答问题的能力。使用两个数据集来完成此任务：CMRC 2018和CJRC。CMRC是一个SPAN提取风格的数据集，而CJRC另外还有是/否问题和非回答问题。CMRC 2018和CJRC分别包含10K/3.2K/4.9K和39K/6K/6K数据实例，用于训练/开发/测试。CMRC 2018年的测试结果是根据CLUE排行榜评估的。注意，CJRC数据集与Cui等人使用的数据集不同，正如Cui等人所说的那样，没有发布他们的训练/开发/测试拆分。因此，在本工作中使用的CJRC数据集上运行已发布的模型以进行比较。

结果如Table 2和Table 3所示。可以看出，ChineseBERT在这两个数据集上都有显著的性能提升，并且EM算法在CJRC数据集上的改善大于F1算法，这表明ChineseBERT在检测精确答案跨度方面有更好的表现。

自然语言推断(NLI)

NLI 的目标是确定假设和前提之间的蕴涵关系。使用跨语言自然语言推理( XNLI) 数据集进行评估。该语料库是 MultiNLI 语料库的 5K 测试和 2.5K 开发对的众包集合。每个句子对都标有“entailment”、“neutral”或“contradiction”标签。我们使用官方机器翻译的中文数据进行训练。

结果如Table 4 所示，这表明 ChineseBERT 能够在base和large中实现最佳性能。

文本分类(TC)

在文本分类中，模型需要将一段文本分类到指定的类别中。延用Cui等人使用THUCNews和ChnSentiCorp执行此任务，THUCNews是THUCTC 的一个子集，分别有50K/5K/10K数据点用于训练/开发/测试。数据均匀分布在体育、金融等10个领域。ChnSentiCorp是一个二值情感分类数据集，分别包含9.6K/1.2K/1.2K数据点，用于训练/开发/测试。这两个数据集相对简单，普通BERT达到了95%以上的准确率。因此，除了THUCNews和ChnSentiCorp，我们还使用了TNEWS，这是CLUE基准中包含的一个更难的数据集。TNEWS是一个15类短新闻文本分类数据集，具有53K/10K/10K数据点用于训练/开发/测试。

结果如Table 5 所示。在 ChunSentiCorp 和 THUCNews 上，ChineseBERT 的改进是微不足道的，因为基线已经在这两个数据集上取得了相当高的结果。在 TNEWS 数据集上，ChineseBERT 优于所有其他模型。我们可以看到 ERNIE 模型的性能只比 ChineseBERT 差一点。这是因为 ERNIE 是在额外的网络数据上训练的，这有利于对涵盖广泛领域的网络新闻文本进行建模。

句子对匹配(SPM)

对于SPM，要求模型确定给定的句子对是否表达相同的语义。我们使用 LCQMC 和 BQ Corpus 数据集进行评估。 LCQMC是用于判断两个给定问题是否具有相同意图的大型中文问题匹配语料库，训练/开发/测试有23.9K/8.8K/12.5K句对。 BQ 语料库是另一个包含 100K/10K/10K 句子对的大型中文数据集，用于训练/开发/测试。

结果如Table 6 所示。我们可以看到，ChineseBERT 在 LCQMC 上总体上优于 MacBERT，但略逊于 BERT-wwm。我们假设这是因为 BQ 语料库的领域比 ChineseBERT 更适合 BERTwwm 的预训练数据。

命名实体识别(NER)

对于 NER 任务，模型被要求识别一段文本中的命名实体，这被形式化为序列标记任务。我们使用 OntoNotes 4.0 和微博 NER 来完成这项任务。 OntoNotes 有 18 种命名实体类型，微博有 4 种命名实体类型。 OntoNotes 和微博分别包含 15K/4K/4K 和 1,350/270/270 个用于训练/开发/测试的实例。

结果如Table 7 所示。我们可以看到，ChineseBERT 在 F1 方面明显优于 BERT 和 RoBERTa。尽管基本版本的精度略有下降，但召回率的提高特别高，从而导致 F1 的最终性能提升。

中文分词(CWS)

该任务将文本划分为单词，并被形式化为基于字符的序列标注任务。我们使用北京大学和MSRA数据集进行中文分词。北大有19K/2K句用于训练和测试，MSRA有87K/4K句用于训练和测试。输出字符嵌入被送到Softmax函数以进行最终预测。

结果如Table 8所示，其中我们可以看到，ChineseBERT在这两个指标的两个数据集上的性能都优于BERT-wwm和Roberta-wwm。

消融研究

在这一部分中进行消融研究，以了解ChineseBERT的行为。使用中文命名实体识别数据集OntoNotes4.0进行分析，所有模型都是基于base版本的。

字形嵌入和拼音嵌入的效果

想要探索字形嵌入和拼音嵌入的效果。为了公平比较，在相同的数据集上预先训练了不同的模型，训练步骤相同，模型大小相同。设置包括“-glyph”，其中不考虑字形嵌入，并且我们只考虑拼音和char-ID嵌入；“-pinyin”，其中不考虑拼音嵌入，并且我们只考虑字形和char-ID嵌入；“-glyph-pinyin”，其中只考虑char-ID嵌入，并且模型退化为Roberta。我们在NER数据集的OntoNotes数据集上对不同的模型进行了微调，以便进行比较。

结果如Table 9所示。可以看出，删除字形嵌入或拼音嵌入都会导致性能下降，其中移除两者对F1值的负面影响最大，下降了约2个点。这验证了拼音和字形嵌入对于中文语义建模的重要性。“-glyph-pinyin”比Roberta性能差的原因是，在这里使用的模型是在较小的数据大小和较少的训练步骤上训练的。

训练数据大小的影响

我们假设字形和拼音嵌入在文本语义上也具有很强的正则性，这意味着所提出的ChineseBERT模型能够在较少的训练数据下获得更好的性能。同时保持样本与实体 w.r.t. 的比例。每个实验执行五次，并在测试集上报告平均F1值。

Figure 5显示了结果。可以看出，ChineseBERT在所有设置中都表现得更好。在训练数据不足30%的情况下，ChineseBERT的性能改善不大，但在训练数据超过30%的情况下，性能的提高更大。这是因为ChineseBERT仍然需要足够的训练数据来完全训练字形和拼音嵌入，而训练数据不足会导致训练不足。

总结

本文介绍了一种大规模的中文NLP预训练模型ChineseBERT。

它利用汉字的字形和拼音信息，增强了模型从表面字符形式中获取上下文语义和消除汉语复调字符歧义的能力。
提出的ChineseBERT模型在广泛的中文NLP任务中实现了显著的性能提升。
提出的ChineseBERT在训练数据较少的情况下比普通预训练模型表现更好，表明引入的字形嵌入和拼音嵌入为汉语语义建模提供了一个强大的正则化器。

未来的工作包括训练一个large版本的ChineseBERT。

ACL2021_ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information相关推荐

论文解读：ChineseBERT： Chinese Pretraining Enhanced by Glyph and Pinyin Information
论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information(2021ACL) 简要信息: 序号属性 ...
《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》阅读记录
<ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information> Zijun Sun, Xiaoya ...
【Graph Embedding】图嵌入的最佳实践—EGES（Enhanced Graph Embedding with Side Information）
文章目录 EGES背景-DeepWalk理论与实现 DeepWalk引入推荐系统-EGES 在阅读此文之前建议先学习 word2vec详解. 2018 年,阿里巴巴公布了其在淘宝应用的Embeddin ...
【文献阅读】StyleBERT: Chinese pretraining by font style information
Abstract 因此在本文中,我们提出了中文预训练语言模型 StyleBERT,它结合了以下嵌入信息来增强语言模型的 savvy,例如单词.拼音.五笔和chaizi(拆字). Introductio ...
2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning
摘要大多现有的预训练方法主要采用两阶段训练过程,首先利用一个预训练好的目标检测器来提取基于区域的视觉特征,然后连接图像表示和文本嵌入作为Transformer的输入用于训练.然而,这些方法面临使用特 ...
Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Time Series Forecasting
多变量时间序列(MTS)预测在广泛的应用中起着至关重要的作用.近年来,时空图神经网络(STGNNs)成为越来越流行的MTS预测方法.STGNNs通过图神经网络和序列模型联合建模MTS的时空模式,显著提 ...
【NLP】ACL 2021中的25个Transformers模型
前言言归正传,这次我们总结一下ACL2021中的Transformers,看看2021年了,NLPer在如何使用.应用.改进.分析Transformers,希望可以对大家产生idea有帮助. 本文涉 ...
When 多模态 meets 信息抽取
©PaperWeekly 原创 · 作者 | 宁金忠单位 | 大连理工大学研究方向 | 信息抽取都 2222 年了,信息抽取领域早已经是诸神黄昏.然而,多模态方法的兴起给这个卷成麻花的领域带来的 ...
【论文泛读】ChineseBERT：融合字形与拼音信息的中文预训练模型
本次分享的论文ChineseBERT来自于ACL 2021会议,论文全名为ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin I ...

ACL2021_ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information