不同于英文字母，中文的字形和拼音都有其独特的含义，例如'液'、'河'和'湖'都有相同的偏旁，其含义也有联系；中文汉字'乐'是一个多音字，读'yue'时代表音乐，读'le'时可能就是快乐的意思了。

模型结构

为了充分利用中文汉字的字形和拼音，论文设计了下面的模型结构

图中用红色框出的四种embedding是模型的核心，其中char embedding和原生bert一致，其他几个下面逐个介绍

字形embedding

Glyph embedding如下图所示，每个汉字使用三种不同的格式：仿宋、行楷和隶书，将三种格式的图像向量化为24*24，concat之后就为24*24*3，通过flattened和全连接层之后就得到字形embedding

拼音embedding

文中拼音embedding采用cnn（textcnn）提取embedding，cnn卷积核的尺度是2*hidden_size，即每次滑动窗口内两个字母的embedding，并且加入中文音调，例如'猫'为第一声，所以拼音为'mao1'。

融合embedding

首先将字符embedding、字形embedding和拼音embedding concat，然后通过全连接层获得最后的fusion embedding。

模型训练

MASK方式

90% 做全词掩码（Whole Word Mask, WWM），剩下10%做char mask；同原生bert相同，每个字符mask的概率值是0.15，如果字符被选中mask，那么80%时刻用mask字符代替，10%时刻随机替换成一个字符，剩余10%保持原词

模型效果

文中通过多个任务说明了Chinese BERT都比BERT效果好（还有一些BERT的优化版：ERNIE）

阅读理解

自然语言推理

文本分类

句对匹配

实体识别

中文分词

个人总结

首先文中和BERT对比的收益，部分是由全词掩码（Whole Word Mask, WWM）导致的；
在实际业务中，可能有两种场景，该模型能有不错的收益
1. 相关任务数据量小（该模型能够充分利用样本多个维度信息）
2. 任务存在变体情况（通过字形和拼音解这部分case）

论文地址：https://arxiv.org/pdf/2106.16038.pdf

开源代码：https://github.com/ShannonAI/ChineseBert

融合中文字形和拼音的预训练模型：ChineseBERT（ACL2021）相关推荐

中文版GPT-3来了？智源研究院发布清源 CPM —— 以中文为核心的大规模预训练模型...
清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型.首期开源内容包 ...
中文版GPT-3来了？智源、清华发布清源 CPM——以中文为核心的大规模预训练模型
2020-11-18 23:43:21 清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文 ...
一大批中文（BERT等）预训练模型等你认领！
作者丨Zhe Zhao 机构丨RUC DBIIR & Tencent Research 研究方向丨自然语言处理项目简介预训练模型已经成为了 NLP 领域最重要的资源之一.当我们拿到一个 N ...
ACL 2021 | ChineseBERT：香侬科技提出融合字形与拼音信息的中文预训练模型
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达转载自:PaperWeekly 中文预训练模型自 BERT 以来, ...
【ACL2021】ChineseBERT：香侬科技提出融合字形与拼音信息的中文预训练模型
点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:PaperWeekly 中文预训练模型自 BERT 以来,大规模预训练模型已成为自然语言处理研究的一大重点,无论是训练更大的模型,如 BER ...
中文预训练模型研究进展
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:专知近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行 ...
综述 | 三大路径，一文总览知识图谱融合预训练模型的研究进展
当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...
交互式多模型_26亿参数，智源、清华开源中文大规模预训练模型
近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...
bert 中文代码谷歌_ELECTRA中文预训练模型开源,110个参数,性能媲美BERT
感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP ...

融合中文字形和拼音的预训练模型：ChineseBERT（ACL2021）