不同于英文字母,中文的字形和拼音都有其独特的含义, 例如'液'、'河'和'湖'都有相同的偏旁,其含义也有联系;中文汉字'乐'是一个多音字,读'yue'时代表音乐,读'le'时可能就是快乐的意思了。

模型结构

为了充分利用中文汉字的字形和拼音,论文设计了下面的模型结构

图中用红色框出的四种embedding是模型的核心,其中char embedding和原生bert一致,其他几个下面逐个介绍

字形embedding

Glyph embedding如下图所示,每个汉字使用三种不同的格式:仿宋、行楷和隶书,将三种格式的图像向量化为24*24,concat之后就为24*24*3,通过flattened和全连接层之后就得到字形embedding

拼音embedding

文中拼音embedding采用cnn(textcnn)提取embedding,cnn卷积核的尺度是2*hidden_size,即每次滑动窗口内两个字母的embedding,并且加入中文音调,例如'猫'为第一声,所以拼音为'mao1'。

融合embedding

首先将字符embedding、字形embedding和拼音embedding concat,然后通过全连接层获得最后的fusion embedding。

模型训练

MASK方式

90% 做全词掩码(Whole Word Mask, WWM),剩下10%做char mask;同原生bert相同,每个字符mask的概率值是0.15,如果字符被选中mask,那么80%时刻用mask字符代替,10%时刻随机替换成一个字符,剩余10%保持原词

模型效果

文中通过多个任务说明了Chinese BERT都比BERT效果好(还有一些BERT的优化版:ERNIE)

阅读理解

自然语言推理

文本分类

句对匹配

实体识别

中文分词

个人总结

  1. 首先文中和BERT对比的收益,部分是由全词掩码(Whole Word Mask, WWM)导致的;
  2. 在实际业务中,可能有两种场景,该模型能有不错的收益
    1. 相关任务数据量小(该模型能够充分利用样本多个维度信息)
    2. 任务存在变体情况(通过字形和拼音解这部分case)

论文地址:https://arxiv.org/pdf/2106.16038.pdf

开源代码:https://github.com/ShannonAI/ChineseBert

融合中文字形和拼音的预训练模型:ChineseBERT(ACL2021)相关推荐

  1. 中文版GPT-3来了?智源研究院发布清源 CPM —— 以中文为核心的大规模预训练模型...

    清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文为核心的大规模预训练模型.首期开源内容包 ...

  2. 中文版GPT-3来了?智源、清华发布清源 CPM——以中文为核心的大规模预训练模型

    2020-11-18 23:43:21 清源 CPM(Chinese Pretrained Models)是北京智源人工智能研究院和清华大学研究团队合作开展的大规模预训练模型开源计划,清源计划是以中文 ...

  3. 一大批中文(BERT等)预训练模型等你认领!

    作者丨Zhe Zhao 机构丨RUC DBIIR & Tencent Research 研究方向丨自然语言处理 项目简介 预训练模型已经成为了 NLP 领域最重要的资源之一.当我们拿到一个 N ...

  4. ACL 2021 | ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转载自:PaperWeekly 中文预训练模型 自 BERT 以来, ...

  5. 【ACL2021】ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:PaperWeekly 中文预训练模型 自 BERT 以来,大规模预训练模型已成为自然语言处理研究的一大重点,无论是训练更大的模型,如 BER ...

  6. 中文预训练模型研究进展

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:专知 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行 ...

  7. 综述 | 三大路径,一文总览知识图谱融合预训练模型的研究进展

    当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...

  8. 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型

    近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...

  9. bert 中文 代码 谷歌_ELECTRA中文预训练模型开源,110个参数,性能媲美BERT

    感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP ...

最新文章

  1. 耶鲁大学等机构提出的脑机接口软硬件协同设计,增加脑机的更大潜力
  2. python 美颜人脸
  3. hbase 读写调优_hbase性能调优
  4. 计算机英语发展历史,英语翻译计算机发展史,领域与未来发展 一、计算机发展史简介 人类所使用的计算工具是随着生产的发展和社会的进步,从简单到复...
  5. JAVA程序设计----多线程(下)
  6. filebeat 解析日志 并发送到Elasticsearch
  7. flexbox算法实现_如何使用Flexbox实现水平滚动
  8. 删除 字符串中‘*’号 两端的除外。指针h、p分别指向第一个和最后一个字符
  9. [Ext JS 4] 实战之 Picker 和 Picker Field
  10. LoadRunner 录制常见错误解决方法
  11. 第1章 异常产生异常处理
  12. Node.js:封装Node通用web容器
  13. 电子类经典书籍汇总(转 )
  14. 你需要启用steam社区界面功能以进行购买_steam官网手机版免费下载-steam官网手机客户端下载...
  15. 深入浅出4G标准:LTE FDD和LTE TDD
  16. Android Notification中PendingIntent.Flag的应用
  17. java中stringBuilder的用法
  18. 【初学python】用python做一个简单的超市收银台付款系统
  19. 父盒子内子盒子居中的方法
  20. 深入Golang内存管理(三) 内存对齐篇

热门文章

  1. bg感_请叫他们【BG之光】
  2. 什么是SSL卸载?如何实现SSL卸载?有什么好处?
  3. Linux 中的-rwxr-xr-x权限
  4. 公司局域网上ping www.qq.com
  5. Leader,要做一只领头“狼“,不要做一只领头“羊“
  6. ubuntu系统突然卡死或者完全死机怎么办
  7. svg动画小鱼池塘游动
  8. 伦敦金k线图基础知识有多重要?
  9. python正则表达式花括号_正则表达式,大括号的含义
  10. 如何将pdf版的文书文字提取出来?