目录

问题描述:

程序实现:


问题描述:

最初始的BERT采用了15%的MASK,是先tokenizer再Mask, 这样就会导致一个缺点,即MASK的是原始一个词的部分字词,导致了词的不完整性。

最近,BERT的一个升级版本发布了全词掩码(Whole Word Masking, WWM),这缓解了在预训练BERT时mask部分WordPiece tokens的缺点。

Whole Word Masking 的思想是在MASK之前,将切分的字词,回归成原始的词语。

程序实现:

mask_list = ['CLS','we','are','fa','##mil','##ly', '!','SEP']do_whole_mask = True # 设置是否需要将字词回归成原始的单词cand_indexes = []for (i, token) in enumerate(mask_list):if token == 'CLS' or token == "SEP":continueif (do_whole_mask==True and len(cand_indexes) >= 1 and token.startswith("##")):# print("cand_indexes[-1]", cand_indexes[-1])cand_indexes[-1].append(i)else:cand_indexes.append([i])cand_indexes

运行结果:

将有##标识的字词,回归成了一个单词,所以'fa','##mil','##ly',对应位置的id被合并在一起。变成了上图

Whole Word Masking相关推荐

  1. Whole Word Masking (wwm)

    Whole Word Masking (wwm) 本文代码部分参考github项目: https://github.com/BSlience/search-engine-zerotohero/tree ...

  2. 【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

    Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Trans ...

  3. Whole Word Masking (wwm) BERT PaddlePaddle常用预训练模型加载

    Whole Word Masking (wwm),暂翻译为全词Mask或整词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略. 简单来说,原 ...

  4. 读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)

    第一遍 标题以及作者(2021 11.25) 摘要 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT. 提出了一种新的掩码策略,MLM as correct ...

  5. BERT-Whole Word Masked(WWM)

    记录一下BERT的WWM实现和中文的WWM 上代码: 英文 Bert-WWM数据创建方法 def create_masked_lm_predictions(tokens, masked_lm_prob ...

  6. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  7. 创新工场提出中文分词和词性标注模型,性能分别刷新五大数据集| ACL 2020​

    出品 | AI科技大本营(ID:rgznai100) 中文分词和词性标注是中文自然语言处理的两个基本任务.尽管以BERT为代表的预训练模型大行其道,但事实上,中文中基于全词覆盖 (whole word ...

  8. 美团BERT的探索和实践 | CSDN原力计划

    扫码参与CSDN"原力计划" 作者 | 杨扬 佳昊 金刚等 来源 | CSDN原力计划作品 *点击阅读原文,查看美团技术团队更多干货文章. 背景 2018年,自然语言处理(Natu ...

  9. 读8篇论文,梳理BERT相关模型进展与反思

    作者 | 陈永强 来源 |  微软研究院AI头条(ID:MSRAsia) [导读]BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒.随后 ...

最新文章

  1. [Codeforces1137D]Cooperative Game
  2. cmd oracle 连接实例_基于winserver的Oracle数据库跨版本下的rman备份恢复
  3. java怎么解决页面乱码问题_java页面中文乱码的解决办法
  4. java求面积_Java之简单图形面积计算
  5. 满分简便解法:1002 写出这个数 (20分)
  6. Swing编程基础 之三
  7. matlab数组补零,fft补零 - 木头弯弯的小窝 - 与非博客 - 与非网
  8. 编程基本功:如何判断两个线段有重叠?
  9. ue4是什么意思_UE4 C++基础教程 - 资源常见名词解释
  10. app--查看包名的五种常用方法
  11. 问题:虚拟机安装Ubuntu时,显示PXE-MOF:Exiting Intel PXE ROM.Operating Systen not found
  12. 卡片游戏 基础c语言试题
  13. 基于Wiki的知识共享平台模型架构
  14. element ui Descriptions 组件无法显示样式 未渲染
  15. 【期末划重点】数据库速成
  16. rk3288[android 6.0] 调试串口修改为普通串口
  17. 【卫朋】智能硬件 | 做好一款电子硬件产品,工具必不可少
  18. 函数定义涉及的三要素C语言,(函数定义与三要素答案.doc
  19. 基于LSB的信息隐藏
  20. 解决导入maven项目之后pom.xml中的project标签报错:批量删除没有下载完全的pom依赖bat脚本

热门文章

  1. php 邮件上传类阿里云邮件上传接口
  2. 安卓基础巩固(二):四大组件:Activity、Service、Broadcast、Content Provider
  3. Mathematica绘制图形
  4. Nginx中root与alias区别
  5. linux防ddos攻击脚本,Linux系统防止DDOS攻击脚本
  6. 华为如何开启找回服务器,华为服务器BIOS恢复出厂设置
  7. G.1用python进行精细中文分句(基于正则表达式),HarvestText:文本挖掘和预处理工具
  8. HTTP的SSL 证书安装
  9. 计算机口令管理工具,PC免费密码管理器软件推荐
  10. 逃脱者2服务器不稳定,逃脱者2EPIC版新手常见问题解决方法汇总