赛题名称: 搜狐校园"情感分析×推荐排序"算法大赛

赛题链接: 
https://www.biendata.xyz/competition/sohu_2022/

比赛任务:

task1: 面向实体对象的文本描述情感极性及强度分析。

task2: 利用用户文章点击序列及用户相关特征, 结合task1做出的情感分析结果, 预测用户是否会对文章进行点击。

评价指标:

task1: macro-F1

task2: gAUC

数据说明:

task1:

每条样本包含一个文本编号、一条文本内容、文本中需要分析的实体对象,以及每个实体对象的情感极性(标签,测试集需要预测)。

赛题解析:

task1:

这里提供一个解题思路, 将每一条文本和对应的n个实体对象分别编码作为输入,传递给BERT、DeBERTa等开源预训练模型进行特征提取,最后使用自定义分类器进行分类.

实践经验:

1、划分训练集和验证集时,要考虑到同一条文本不能出现在不同的fold里,以及不同fold里5种类别的分布比例保持一致;

2、使用预训练模型提取的特征形状是 batch大小 × 文本编码长度 × 隐含层维度, 可以在文本编码长度的维度取平均将输出压缩到 batch大小 × 隐含层维度, 再传递给一层 nn.Linear进行进一步分类,得到形如 batch大小 × 类别数量的输出,代表的意义是每个输入在每个可能的类别上的得分,得分越高可能性越大;

3、在预训练特征和分类器之间加入multi-sample dropout可以加速模型收敛;

4、在Tesla V100 32G的环境下,使用deberta-v3-base模型作为特征提取器,取最大长度为512,训练一个epoch大约需要1小时,5个epoch可以收敛,并且单模在推理阶段速度为60条/s, 在满足比赛规则(单条小于500ms)的条件下,可以融合的base单模数量在25个左右。

5、后续优化: 多种预训练模型微调后融合(huggingface开源的DeBERTa-v3-large在GLUE上效果最佳)、分层学习率、梯度裁剪、动态校验区间、自定义分类器、使用Dice Loss针对比例不均衡的类别设置动态损失权重、在算力足够的情况下也可以使用FGM或者AWP进行对抗训练等。

搜狐校园“情感分析×推荐排序“算法大赛 AutoX方案 转载poteman相关推荐

  1. 2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline

    比赛链接:https://www.biendata.xyz/competition/sohu_2022/ 完整代码 可关注ChallengeHub 回复"搜狐"即可获取 赛题背景 ...

  2. 报名 | 搜狐×清华:第三届内容识别算法大赛,比武招新两不误!

    2019年4月8日,第三届搜狐校园算法大赛正式开赛,同期面向参赛选手开放竞赛结果提交.本次比赛联合了清华大学等机构共同组织,面向全球范围内的全日制学生. [组织方]搜狐.清华大学 [奖金]¥75000 ...

  3. 近期活动盘点:第一届“数据故事计划”、 第三届搜狐校园算法大赛

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第一届 "数据故事计划" "大数据故事计划"旨在收集各类有关大数据的故事,然后进行比赛及相关的宣传 ...

  4. 第三届搜狐校园算法大赛开赛!

    第三届搜狐校园算法大赛开赛! 2019年4月8日,第三届搜狐校园内容识别算法大赛正式开赛,同期面向参赛选手开放竞赛结果提交.搜狐携手清华计算机系共同发起本届大赛,面向全球范围内的全日制在校生,旨在通过 ...

  5. 【推荐实践】58招聘推荐排序算法实战与探索

    背景 58同城作为中国最大的分类信息网站,为用户提供招聘.租房.二手车及黄页等多种信息服务,其中招聘业务是公司的主要业务之一.招聘平台有千万级的求职者用户,每天有百万级的新增职位发布,如何提高招聘方与 ...

  6. 如何分析一个“排序算法”?

    学习排序算法,我们除了学习它的算法原理.代码实现之外,更重要的是要学会如何评价.分析一个排序算法.那分析一个排序算法,要从哪几个方面入手呢? 排序算法的执行效率 对于排序算法执行效率的分析,我们一般会 ...

  7. 【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案

    [比赛报告]biendata_2021搜狐校园文本匹配算法大赛_解决方案 前言 一.赛题 二.模型设计 三.训练技巧和提升方案 四.总结 代码开源 前言 比赛网页 之前写过相关的赛题解读,想了解的朋友 ...

  8. 搜狐快站制作html,搜狐快站H5页面设计制作大赛,获奖作品第一弹!

    原标题:搜狐快站H5页面设计制作大赛,获奖作品第一弹! 快海报设计大赛开赛两周以来,已经收到了众多朋友的踊跃投稿.我们从4月15日之前的投稿作品中精选出六部,作为首批获奖者! 我们的比赛并没有结束,下 ...

  9. 搜狐快站制作html,搜狐快站H5页面设计制作大赛,获奖作品第二弹!

    原标题:搜狐快站H5页面设计制作大赛,获奖作品第二弹! 历时两个月的搜狐快站快海报大赛圆满落下了帷幕.众多参赛网友利用搜狐快站·快海报,精心动手制作了H5页面.八名参赛网友,从4月15日之后的投稿作品 ...

  10. 马蜂窝推荐排序算法模型是如何实现快速迭代的

    点击上方"马蜂窝技术",关注订阅更多优质内容 Part.1 马蜂窝推荐系统架构 马蜂窝推荐系统主要由召回(Match).排序(Rank).重排序(Rerank)几个部分组成,整体架 ...

最新文章

  1. Linux命令scp用于远程文件的拷贝(上传和下载)
  2. 前端学习(1435):vue能做什么
  3. Java-Redis 热部署问题
  4. 断开式 Dgv 修改数据 winform
  5. 【机房收费系统】---组合查询
  6. 查找出现次数 oracle,ORACLE计算某个列中出现次数最多的值
  7. rsync aws ec2 pem
  8. 拓端tecdat|R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例
  9. ssm-学子商城-项目第六天
  10. 【数据分析】数据分析达人赛3:汽车产品聚类分析
  11. 2020 中国大学生计算机设计大赛
  12. 微信群发助手 及微信助手功能
  13. Mand Mobile
  14. 基岩版服务器开启坐标显示,mc基岩版怎么看坐标 mc基岩版如何看坐标
  15. 软件测试面试题:你们公司的测试流程是怎么样的?
  16. Chrome浏览器常用插件记录
  17. css3渐变—渐变_玩渐变
  18. error C2059: syntax error : 'constant'
  19. win11旗舰版安装WSL子系统和环境-12配置SSH(Win远程连接)
  20. 个人简历自我介绍PPT模板-优页文档

热门文章

  1. phpstom可以配置php环境吗_环境配置 · PhpStorm · 看云
  2. vscode中打开pdf文件_Visual Studio Code Preview深度体验、使用技巧.pdf
  3. 洛谷——P1163 银行贷款
  4. ActiveMQ(19):高级特性之独有消费者(Exclusive Consumer)
  5. 轻松玩转windows7之一:利用无线玩转虚拟网络
  6. 网络工程师之子网划分
  7. vi单文件操作常用命令
  8. java中utilities类_Java SwingUtilities类
  9. python struct_struct
  10. golang ide 环境搭建_新手引导 — Golang后端开发环境搭建