过年刷千言数据集:文本相似度数据集

  • 1.比赛信息
  • 2. 数据集介绍
  • 3. 模型细节
    • 3.1 数据增强:
    • 3.2 模型:
    • 3.3 训练:
    • 3.4 模型融合:
  • 其他:可以提高的点 或者 没有用尝试。
    • 1.领域数据进一步预训练。
    • 2.半监督训练(self-training的思想):
    • 3. simCSE的训练:
    • 4.stacking模型融合:

1.比赛信息

“千言数据集:文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务,这个榜单在2021年出提出。刚好过年有时间刷一下这个任务,由于时间有限,且已经有相当多的提交,最后在假期结束取得15/2000的成绩。

代码地址:https://github.com/xxyliuyang/qianyan_similarity
依赖: allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍,这里介绍三个数据比较大的问题:千言数据集:文本相似度述

  • 问题一:领域数据:BQ Corpus是金融领域相关的数据。
  • 问题二:文本质量: PAWS-X的输入文本质量不高,存在很多中英混合句子,英文大部分是英文实体词汇。
  • 问题三:label质量:观察部分数据,标签存在标注错误的情况。

3. 模型细节

3.1 数据增强:

交换句子度,将训练数据翻倍。

3.2 模型:

bert构建句子对模型,使用[CLS]的输出的向量做二分类。

3.3 训练:

使用R-drop正则方法,其训练逻辑类似于对抗训练。

3.4 模型融合:

使用robert,albet,macbert分别训练,然后将输出的概率求平均。

其他:可以提高的点 或者 没有用尝试。

还有很多方法没有尝试,读者可以自行尝试,进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练(self-training的思想):

条件是获取相关数据。

3. simCSE的训练:

尝试simCSE的训练,但是没有收益,猜测是因为simCSE提高句子embedding的方法,然而这个任务是句子对的任务,两个任务的出发点有区别。如果有更好的解释,欢迎评论。

4.stacking模型融合:

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

过年刷【千言数据集:文本相似度】比赛相关推荐

  1. 百度千言-中文文本相似度实战

    文章目录 百度千言-中文文本相似度实战 任务1:报名比赛,下载比赛数据集并完成读取 任务2:对句子对提取TFIDF以及统计特征,训练和预测 任务3:加载中文词向量,自己训练中文词向量 任务4:使用中文 ...

  2. 拆解「千言数据集:文本相似度」竞赛第一背后的故事

    欢迎关注[百度NLP]公众号,及时获取更多自然语言处理领域技术干货! 文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索.新闻推荐.智能客服等领域都发挥 ...

  3. 千言数据集:文本相似度——BERT完成NSP任务

    以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...

  4. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  5. 容联云AI问鼎“千言数据集—实体链指评测“,持续打造知识语义计算能力

    容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...

  6. 梅开二度!容联云AI荣登“千言数据集-语义解析”权威测评榜首

    近日,容联云AI研究院自主研发的表格问答技术在中文"千言数据集:语义解析"行业测评中击败多支劲旅,荣登榜首.此前容联云已荣获"千言数据集:实体链指"评测冠军. ...

  7. 千言数据集:文本相似度——数据读取部分

    以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...

  8. 《NLP直播课打卡》第二天:千言文本相似度比赛全流程

    打卡内容说明 基于NLP直播课实践内容略改训练过程,简化训练的使用 使用paddlenlp进行预训练模型网络开发 内含数据读取与处理方法(未清洗样本数据) 内含数据分布的简要展示 网络搭建与训练 预测 ...

  9. 基于PaddleNLP完成 千言情感分析————0.8014分方案

    千言|情感分析----0.7839分方案 比赛介绍: 情感分析旨在自动识别和提取文本中的倾向.立场.评价.观点等主观信息.它包含各式各样的任务,比如句子级情感分类.评价对象级情感分类.观点抽取.情绪分 ...

最新文章

  1. SAP SD 客户信贷管理解析
  2. php实现单选和多选功能,input:checkbox多选框实现单选效果跟radio一样
  3. SQL Server 2005异地备份
  4. Android Studio下项目构建的Gradle配置及打包应用变体
  5. Service的生命周期
  6. 【附可运行代码】剑指 Offer 16. 数值的整数次方
  7. 机器学习week9 ex8 review
  8. 强大js web甘特图制作之甘特图组件和数据对象
  9. 程序员硬核吃瓜宋慧乔宋仲基离婚、范冰冰李晨分手!
  10. 机器学习实战笔记1-机器学习基础
  11. MybatisPlus联合查询
  12. 告“抄袭”花粥做号露露们,内容创业赛道的得利者,也是牺牲品
  13. 为pr视频文件添加字幕
  14. python+图书管理系统
  15. windows的C盘根目錄下中文文件夾重命名
  16. 五号电池跟七号电池有什么区别
  17. 如何解决安装ESXI 5.5出现紫屏或者红屏
  18. python定时关机可视化窗口
  19. Facial Expression Recognition Challenge 2013数据集下载
  20. Charles在夜神抓包APP无法联网

热门文章

  1. 源恒软件--掌中财税进入“税务云”时代
  2. 【bzoj5170】Fable(树状数组)
  3. Android开发之实现QQ空间、美团首页沉浸式状态栏
  4. 针对面试官的盘问-如何回答职场中的一些问题
  5. Pytorch - 使用opencv-python解码视频文件并将视频帧转换为Pytorch tensor作为网络模型输入数据
  6. 道听途说驳斥银行业的误区
  7. 类似超时空要塞的java_常用java代码(转 http://www.itjhwd.com/java_code/)
  8. Springboot 指定自定义模板导出Excel文件
  9. Type Java类型
  10. Linux操作系统实践——Samba服务器搭建