如何在脱敏数据中使用BERT等预训练模型

来自：NLP从入门到放弃

前几天有朋友问了一下【小布助手短文本语义匹配竞赛】的问题，主要是两个；

如何在脱敏数据中使用BERT；
基于此语料如何使用NSP任务；

比赛我没咋做，因为我感觉即使认真做也打不过前排大佬[囧]，太菜了；不过我可以分享一下我自己的经验；

对于脱敏语料使用BERT，一般可以分为两种：

第一种就是直接从零开始基于语料训练一个新的BERT出来使用；

第二种就是按照词频，把脱敏数字对照到中文或者其他语言【假如我们使用中文】，使用中文BERT做初始化，然后基于新的中文语料训练BERT；

大家可以先看一下当时我的回复：

然后我发现很多朋友对于预训练模型其实理解的还是不深刻，很疑惑为什么在脱敏数据中也可以训练BERT等预训练模型；

其实这一点很容易理解，就像我截图中说到的：

最开始BERT是用英文语料训练出来的，然后有朋友基于中文语料开源了中文的BERT；

那么我的脱敏数字就是类似于中文的一种另外的语言，你可以看成是【X】语言，我们当然可以基于【X】语言的语料去训练一个新的BERT或者其他的预训练模型了；

有的朋友谈到了NSP任务如何去使用的问题；

很明显，在当前这个任务中是一个文本匹配的形式；

语料不是我们自己有主动的去获取的能力，所以构造一个NSP任务的格式比较困难；

但是NSP任务仅仅是一种任务形式，我们完全可以基于训练语料构造一个是否匹配的任务，可以称之为类NSP任务；

基于此，测试数据是使用不了的，因为测试数据没有label；

不过，我自己认为可以测试数据使用MLM任务，训练数据使用MLM+类NSP任务；

更加具体大家可以看我当时的回复：

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

如何在脱敏数据中使用BERT等预训练模型相关推荐

在线部分：werobot服务、主要逻辑服务、句子相关模型服务、BERT中文预训练模型+微调模型（目的：比较两句话text1和text2之间是否有关联）、模型在Flask部署
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...
bert中文预训练模型_HFL中文预训练系列模型已接入Transformers平台
哈工大讯飞联合实验室(HFL)在前期陆续发布了多个中文预训练模型,目前已成为最受欢迎的中文预训练资源之一.为了进一步方便广大用户的使用,借助Transformers平台可以更加便捷地调用已发布的中文预 ...
bert中文预训练模型_[中文医疗预训练模型] MC-BERT
Conceptualized Representation Learning for Chinese Biomedical Text Mining 作者:Ningyu Zhang, Qianghuai ...
使用bert的预训练模型做命名实体识别NER
前言在上一篇博客提到了如何使用blstm-crf模型来训练本地数据集,完成命名实体提取的任务,还详细解析了代码和对应的原理.针对特定的任务,垂直的领域,可能需要使用特定数据集去训练,从而使得模型有一 ...
基于tensorflow 1.x 的bert系列预训练模型工具
向AI转型的程序员都关注了这个号
2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
目录相关链接 1 引言 2 NEZHA方案 2.1 预训练 2.2 微调 3 Bert 方案 3.1 预训练 3.2 微调 3 模型融合和TTA测试集数据增强 4 总结和反思 5 参考资料相关链接 ...
ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条...
来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...
BERT重夺多项测试第一名，改进之后性能追上XLNet，现已开源预训练模型
晓查发自凹非寺量子位出品 | 公众号 QbitAI NLP领域今年的竞争真可谓激烈.短短一个多月的时间,BERT又重新杀回GLUE测试排行榜第一名. 今年6月,谷歌和CMU提出的NLP模型XL ...
Pytorch：NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...
EMNLP 2021中预训练模型最新研究进展
© 作者|周昆机构|中国人民大学信息学院研究方向|序列表示学习与应用导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

如何在脱敏数据中使用BERT等预训练模型

如何在脱敏数据中使用BERT等预训练模型相关推荐

最新文章

热门文章