来自:NLP从入门到放弃

前几天有朋友问了一下【小布助手短文本语义匹配竞赛】的问题,主要是两个;

  1. 如何在脱敏数据中使用BERT;

  2. 基于此语料如何使用NSP任务;

比赛我没咋做,因为我感觉即使认真做也打不过前排大佬[囧],太菜了;不过我可以分享一下我自己的经验;

对于脱敏语料使用BERT,一般可以分为两种:

第一种就是直接从零开始基于语料训练一个新的BERT出来使用;

第二种就是按照词频,把脱敏数字对照到中文或者其他语言【假如我们使用中文】,使用中文BERT做初始化,然后基于新的中文语料训练BERT;

大家可以先看一下当时我的回复:

然后我发现很多朋友对于预训练模型其实理解的还是不深刻,很疑惑为什么在脱敏数据中也可以训练BERT等预训练模型;

其实这一点很容易理解,就像我截图中说到的:

最开始BERT是用英文语料训练出来的,然后有朋友基于中文语料开源了中文的BERT;

那么我的脱敏数字就是类似于中文的一种另外的语言,你可以看成是【X】语言,我们当然可以基于【X】语言的语料去训练一个新的BERT或者其他的预训练模型了;

有的朋友谈到了NSP任务如何去使用的问题;

很明显,在当前这个任务中是一个文本匹配的形式;

语料不是我们自己有主动的去获取的能力,所以构造一个NSP任务的格式比较困难;

但是NSP任务仅仅是一种任务形式,我们完全可以基于训练语料构造一个是否匹配的任务,可以称之为类NSP任务;

基于此,测试数据是使用不了的,因为测试数据没有label;

不过,我自己认为可以测试数据使用MLM任务,训练数据使用MLM+类NSP任务;

更加具体大家可以看我当时的回复:

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

如何在脱敏数据中使用BERT等预训练模型相关推荐

  1. 在线部分:werobot服务、主要逻辑服务、句子相关模型服务、BERT中文预训练模型+微调模型(目的:比较两句话text1和text2之间是否有关联)、模型在Flask部署

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...

  2. bert中文预训练模型_HFL中文预训练系列模型已接入Transformers平台

    哈工大讯飞联合实验室(HFL)在前期陆续发布了多个中文预训练模型,目前已成为最受欢迎的中文预训练资源之一.为了进一步方便广大用户的使用,借助Transformers平台可以更加便捷地调用已发布的中文预 ...

  3. bert中文预训练模型_[中文医疗预训练模型] MC-BERT

    Conceptualized Representation Learning for Chinese Biomedical Text Mining 作者:Ningyu Zhang, Qianghuai ...

  4. 使用bert的预训练模型做命名实体识别NER

    前言 在上一篇博客提到了如何使用blstm-crf模型来训练本地数据集,完成命名实体提取的任务,还详细解析了代码和对应的原理.针对特定的任务,垂直的领域,可能需要使用特定数据集去训练,从而使得模型有一 ...

  5. 基于tensorflow 1.x 的bert系列预训练模型工具

    向AI转型的程序员都关注了这个号

  6. 2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案

    目录 相关链接 1 引言 2 NEZHA方案 2.1 预训练 2.2 微调 3 Bert 方案 3.1 预训练 3.2 微调 3 模型融合和TTA测试集数据增强 4 总结和反思 5 参考资料 相关链接 ...

  7. ICML 2019:序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS | 技术头条...

    来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...

  8. BERT重夺多项测试第一名,改进之后性能追上XLNet,现已开源预训练模型

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI NLP领域今年的竞争真可谓激烈.短短一个多月的时间,BERT又重新杀回GLUE测试排行榜第一名. 今年6月,谷歌和CMU提出的NLP模型XL ...

  9. Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...

  10. EMNLP 2021中预训练模型最新研究进展

    © 作者|周昆 机构|中国人民大学信息学院 研究方向|序列表示学习与应用 导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

最新文章

  1. wp 删除独立存储空间文件(多级非空文件夹删除)
  2. Ubuntu 64bit 安装 ulipad4.1
  3. 创建Okhttp自定义Log
  4. python web开发第三方库_Python Web开发中常用的第三方库
  5. php jquery ajax裁剪图照片,php+jquery+ajax无刷新图片上传裁切,模拟flash头像上传实例...
  6. 《Mali OpenCL SDK v1.1.0》教程样例之一“Hello World”
  7. 104. 二叉树的最大深度【LeetCode】
  8. 无季节效应的非平稳序列分析(一)
  9. ch4 MySQL 安全管理
  10. 摘抄:java查询数据导出excel并返回给浏览器下载
  11. PLC, LABVIEW,C#,浅谈自动化控制工程师编程语言的选择
  12. bootstrap柱状图
  13. [免费专栏] Android安全之Android Xposed插件开发,小白都能看得懂的教程
  14. verilog简单奇校验
  15. 基于JavaEE的游泳馆管理系统_JSP网站设计_SQLServer数据库设计
  16. 实验一:Java程序的编辑、编译和运行(输入、输出)
  17. Elliptic Curve Cryptography: finite fields and discrete logarithms
  18. C4D R19 图文安装教程
  19. rails select下拉框
  20. c语言流星雨程序下载,c语言 流星雨的实现.doc

热门文章

  1. python中os模块的常用
  2. Sublime Text3的插件管理Package Control安装
  3. 读取页面上所有的checkbox
  4. iPhone唯一标识符
  5. BZOJ3653: 谈笑风生
  6. 性能测试学习01_理解性能测试基础知识
  7. django orm 以列表作为筛选条件进行查询
  8. nginx服务器上 font awesome 字体不能正常显示
  9. 20155227第十二周课堂实践
  10. Codeforces 527C Glass Carving