搜狐校园“情感分析×推荐排序“算法大赛 AutoX方案 转载poteman
赛题名称: 搜狐校园"情感分析×推荐排序"算法大赛
赛题链接:
https://www.biendata.xyz/competition/sohu_2022/
比赛任务:
task1: 面向实体对象的文本描述情感极性及强度分析。
task2: 利用用户文章点击序列及用户相关特征, 结合task1做出的情感分析结果, 预测用户是否会对文章进行点击。
评价指标:
task1: macro-F1
task2: gAUC
数据说明:
task1:
每条样本包含一个文本编号、一条文本内容、文本中需要分析的实体对象,以及每个实体对象的情感极性(标签,测试集需要预测)。
赛题解析:
task1:
这里提供一个解题思路, 将每一条文本和对应的n个实体对象分别编码作为输入,传递给BERT、DeBERTa等开源预训练模型进行特征提取,最后使用自定义分类器进行分类.
实践经验:
1、划分训练集和验证集时,要考虑到同一条文本不能出现在不同的fold里,以及不同fold里5种类别的分布比例保持一致;
2、使用预训练模型提取的特征形状是 batch大小 × 文本编码长度 × 隐含层维度, 可以在文本编码长度的维度取平均将输出压缩到 batch大小 × 隐含层维度, 再传递给一层 nn.Linear进行进一步分类,得到形如 batch大小 × 类别数量的输出,代表的意义是每个输入在每个可能的类别上的得分,得分越高可能性越大;
3、在预训练特征和分类器之间加入multi-sample dropout可以加速模型收敛;
4、在Tesla V100 32G的环境下,使用deberta-v3-base模型作为特征提取器,取最大长度为512,训练一个epoch大约需要1小时,5个epoch可以收敛,并且单模在推理阶段速度为60条/s, 在满足比赛规则(单条小于500ms)的条件下,可以融合的base单模数量在25个左右。
5、后续优化: 多种预训练模型微调后融合(huggingface开源的DeBERTa-v3-large在GLUE上效果最佳)、分层学习率、梯度裁剪、动态校验区间、自定义分类器、使用Dice Loss针对比例不均衡的类别设置动态损失权重、在算力足够的情况下也可以使用FGM或者AWP进行对抗训练等。
搜狐校园“情感分析×推荐排序“算法大赛 AutoX方案 转载poteman相关推荐
- 2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline
比赛链接:https://www.biendata.xyz/competition/sohu_2022/ 完整代码 可关注ChallengeHub 回复"搜狐"即可获取 赛题背景 ...
- 报名 | 搜狐×清华:第三届内容识别算法大赛,比武招新两不误!
2019年4月8日,第三届搜狐校园算法大赛正式开赛,同期面向参赛选手开放竞赛结果提交.本次比赛联合了清华大学等机构共同组织,面向全球范围内的全日制学生. [组织方]搜狐.清华大学 [奖金]¥75000 ...
- 近期活动盘点:第一届“数据故事计划”、 第三届搜狐校园算法大赛
想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第一届 "数据故事计划" "大数据故事计划"旨在收集各类有关大数据的故事,然后进行比赛及相关的宣传 ...
- 第三届搜狐校园算法大赛开赛!
第三届搜狐校园算法大赛开赛! 2019年4月8日,第三届搜狐校园内容识别算法大赛正式开赛,同期面向参赛选手开放竞赛结果提交.搜狐携手清华计算机系共同发起本届大赛,面向全球范围内的全日制在校生,旨在通过 ...
- 【推荐实践】58招聘推荐排序算法实战与探索
背景 58同城作为中国最大的分类信息网站,为用户提供招聘.租房.二手车及黄页等多种信息服务,其中招聘业务是公司的主要业务之一.招聘平台有千万级的求职者用户,每天有百万级的新增职位发布,如何提高招聘方与 ...
- 如何分析一个“排序算法”?
学习排序算法,我们除了学习它的算法原理.代码实现之外,更重要的是要学会如何评价.分析一个排序算法.那分析一个排序算法,要从哪几个方面入手呢? 排序算法的执行效率 对于排序算法执行效率的分析,我们一般会 ...
- 【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
[比赛报告]biendata_2021搜狐校园文本匹配算法大赛_解决方案 前言 一.赛题 二.模型设计 三.训练技巧和提升方案 四.总结 代码开源 前言 比赛网页 之前写过相关的赛题解读,想了解的朋友 ...
- 搜狐快站制作html,搜狐快站H5页面设计制作大赛,获奖作品第一弹!
原标题:搜狐快站H5页面设计制作大赛,获奖作品第一弹! 快海报设计大赛开赛两周以来,已经收到了众多朋友的踊跃投稿.我们从4月15日之前的投稿作品中精选出六部,作为首批获奖者! 我们的比赛并没有结束,下 ...
- 搜狐快站制作html,搜狐快站H5页面设计制作大赛,获奖作品第二弹!
原标题:搜狐快站H5页面设计制作大赛,获奖作品第二弹! 历时两个月的搜狐快站快海报大赛圆满落下了帷幕.众多参赛网友利用搜狐快站·快海报,精心动手制作了H5页面.八名参赛网友,从4月15日之后的投稿作品 ...
- 马蜂窝推荐排序算法模型是如何实现快速迭代的
点击上方"马蜂窝技术",关注订阅更多优质内容 Part.1 马蜂窝推荐系统架构 马蜂窝推荐系统主要由召回(Match).排序(Rank).重排序(Rerank)几个部分组成,整体架 ...
最新文章
- Linux命令scp用于远程文件的拷贝(上传和下载)
- 前端学习(1435):vue能做什么
- Java-Redis 热部署问题
- 断开式 Dgv 修改数据 winform
- 【机房收费系统】---组合查询
- 查找出现次数 oracle,ORACLE计算某个列中出现次数最多的值
- rsync aws ec2 pem
- 拓端tecdat|R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例
- ssm-学子商城-项目第六天
- 【数据分析】数据分析达人赛3:汽车产品聚类分析
- 2020 中国大学生计算机设计大赛
- 微信群发助手 及微信助手功能
- Mand Mobile
- 基岩版服务器开启坐标显示,mc基岩版怎么看坐标 mc基岩版如何看坐标
- 软件测试面试题:你们公司的测试流程是怎么样的?
- Chrome浏览器常用插件记录
- css3渐变—渐变_玩渐变
- error C2059: syntax error : 'constant'
- win11旗舰版安装WSL子系统和环境-12配置SSH(Win远程连接)
- 个人简历自我介绍PPT模板-优页文档
热门文章
- phpstom可以配置php环境吗_环境配置 · PhpStorm · 看云
- vscode中打开pdf文件_Visual Studio Code Preview深度体验、使用技巧.pdf
- 洛谷——P1163 银行贷款
- ActiveMQ(19):高级特性之独有消费者(Exclusive Consumer)
- 轻松玩转windows7之一:利用无线玩转虚拟网络
- 网络工程师之子网划分
- vi单文件操作常用命令
- java中utilities类_Java SwingUtilities类
- python struct_struct
- golang ide 环境搭建_新手引导 — Golang后端开发环境搭建