说明

之前比赛结束一直想着要写个复盘总结一下来着，一直摸，一摸鱼就是半年。。。。。以下总结主要用于个人日后复习，如题本人rank60+的菜鸟一个，对赛题感兴趣的朋友，推荐去学习前top30的开源以及决赛答辩PPT。

初赛

模型选择

根据郭大的周星星，选取visual bert作为baseline

trick

EMA
SWA
PGD
multi-drop
K折
class balance weights

implement details

visual bert中将video embeddings与text embeddings拼接前，需对由backbone生成的video embeddings进行一次线性变换；
预测是用EMA的模型预测，不知道为什么，群里很多新手犯了这个错误；
PGD略优于FGM；
R-Drop性能优于multi-drop，但训练耗时太长了，后续没采用。还一个问题是，当所有random seed固定时，R-Drop不就没用了吗？那模型怎么复现？(当时使用R-Drop时取消了固定)。我不太确定是不是我理解有问题，欢迎大佬们指教；
初赛没有推理时间限制，于是跑了个10折，然后进行融模，每一折可以取不同seed，效果会更好；
赛题数据中，数据分布是极端不平衡的，最多的有13w+，最少的只有19。尝试过多种imbalance loss and sample，但效果都不理想，不如直接交叉熵。直接按数量取倒数的话，类之间权重差距过大也会导致性能下降。于是我们尝试用指数函数对权重因子进行缩放，大概有一个多点的收益。其中决赛答辩中的一位大佬也采用的类似的想法，但做法优雅的多，建议取学习一下；
文本数据需要仔细处理，不要乱洗数据

复赛

模型选择

在初赛的模型上修修改改，没有尝试对不同模型进行融模

trick

Aux Loss
分层学习率

implement details

复赛中提供了视频帧而不是预先提取好的特征，群里大佬们采用的是two-stage方式，先将视频分类的backbone预训练好，再后续多模态任务中freeze。但我走的是end-to-end，直接带着backbone一起练。但这需要一个额外的分支对backbone的输出特征直接进行分类，添加一个额外的视频损失的监督信号，不然text embeddings在visual bert中的贡献会显著压倒video embeddings；
带预训练权重的backbone、bert和随机初始化的一些MLP初始学习率应该分别设置；

一些遗憾的地方

如何利用好大规模的无标签数据是一个很重要的问题，群里大多采用bert的预训练利用unlabeled数据。但我们采用的是半监督策略，因为我方向是目标检测，之前有接触过一些半监督目标检测，如soft-teacher，就钻牛角尖了，但遗憾的是不work，性能只有极小极小的上升，大概0.1k？可能是我半监督代码写错了，又或者是没有使用大模型(swim-tiny+bert-base)；
如上，我队友后面去做了bert的预训练，mlm之类的，没做出来，问我，我也不会。一个目标检测，一个图像生成，就没一个NLP的；
backbone选错了，用的是在ImageNet上标准预训练的SwinV2。用基于CLIP的ViT的话，效果明显好于前者；
模型加速，一直纠结于TensorRT，直接带歪队友，double牛角尖，做到最后TensorRT都没整明白。直接用ViT half计算不香吗？shift
伪标甜蜜的忘做了，shift，应该在最后对测试集打个伪标再拼到训练集上面过一遍，复赛的时候在考驾照，怕是人晒麻了，做的麻瓜一样。

2022微信大数据挑战赛复盘，rank60+菜鸟相关推荐

2021微信大数据挑战赛—参赛总结
2021微信大数据挑战赛-参赛总结目录 2021微信大数据挑战赛-参赛总结摘要赛题任务数据处理特征工程特征筛选模型选择赛题得分参考链接推荐阅读写在最后摘要比赛网址:https ...
[落选]2021微信大数据挑战赛_方案
目录问题概述 baseline 改进-0 改进-1 改进-2 改进-3 改进-4 结果参考更新问题概述先来看看这冗长的赛题说明1 baseline 最早是参考麻婆豆腐AI2的baseline ...
2021微信大数据挑战赛-初赛-NN思路分享
总结模型该方案是基于Deepfm的baseline模型,线上加权在0.661左右.未进行调参,未进行多折,若后续想提分,可以从模型方面进行着手调试. 特征工程主要是通过基础id做的embeddi ...
2021中国高校大数据挑战赛A题复盘+解题思路
引言由于个人安排的原因,没有时间参加微信大数据挑战赛,倒是参加了2021年中国高校大数据挑战赛.这次比赛做的是中国电信提供数据集的A题,是一个异常检测的题目,一个人做的本科组二等奖,觉得还是不错的. ...
2022年首届“钉钉杯”大学生大数据挑战赛初赛题目
初赛 A:银行卡电信诈骗危险预测一.问题背景: 数字支付正在发展,但网络犯罪也在发展.电信诈骗案件持续高发,消费者受损比例持续走高.报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包 ...
大数据人工智能领域从菜鸟到高手晋级指南
我们身处一个"技术爆炸"和"共享.开源"的时代,先进技术的更新迭代速率超过了历史上任何一个时期,而且这些技术也不再闭塞,人人都可以接触并学习.终身学习已经是我们 ...
【大数据竞赛】2022MathorCup大数据挑战赛 B题北京移动用户体验影响因素研究探索性数据分析
系列文章目录第一章 [大数据竞赛]2022MathorCup大数据竞赛 B题北京移动用户体验影响因素研究题目分析第二章[大数据竞赛]2022MathorCup大数据挑战赛 B题北京移动用户体 ...
【我的数据挖掘竞赛之旅（一）】快手活跃用户预测——2018中国高校计算机大赛第三届之大数据挑战赛(Big Data Challenge)
文章目录大赛全称地址前言一.任务目标与数据分析 1.数据集介绍 2.数据集说明 3.读取数据并命名列名 4.查看每个数据集的前五行 (1)注册日志注册日志说明 (2)APP启动日志 APP ...
大数据挑战赛-鼠标轨迹识别
声明:本文属于原创,如想转载,请务必在抬头注明出处. 大数据挑战赛-鼠标轨迹识别,竞赛官网:http://bdc.saikr.com/c/cql/34541 1.我们看一下整个竞赛的详情赛题描述鼠 ...

2022微信大数据挑战赛复盘，rank60+菜鸟

2022微信大数据挑战赛复盘，rank60+菜鸟

说明

初赛

模型选择

trick

implement details

复赛

模型选择

trick

implement details

一些遗憾的地方

2022微信大数据挑战赛复盘，rank60+菜鸟相关推荐

最新文章

热门文章