2022微信大数据挑战赛复盘,rank60+菜鸟

  • 说明
  • 初赛
    • 模型选择
    • trick
    • implement details
  • 复赛
    • 模型选择
    • trick
    • implement details
  • 一些遗憾的地方

说明

之前比赛结束一直想着要写个复盘总结一下来着,一直摸,一摸鱼就是半年。。。。。以下总结主要用于个人日后复习,如题本人rank60+的菜鸟一个,对赛题感兴趣的朋友,推荐去学习前top30的开源以及决赛答辩PPT。

初赛

模型选择

根据郭大的周星星,选取visual bert作为baseline

trick

  1. EMA
  2. SWA
  3. PGD
  4. multi-drop
  5. K折
  6. class balance weights

implement details

  1. visual bert中将video embeddings与text embeddings拼接前,需对由backbone生成的video embeddings进行一次线性变换;
  2. 预测是用EMA的模型预测,不知道为什么,群里很多新手犯了这个错误;
  3. PGD略优于FGM;
  4. R-Drop性能优于multi-drop,但训练耗时太长了,后续没采用。还一个问题是,当所有random seed固定时,R-Drop不就没用了吗?那模型怎么复现?(当时使用R-Drop时取消了固定)。我不太确定是不是我理解有问题,欢迎大佬们指教;
  5. 初赛没有推理时间限制,于是跑了个10折,然后进行融模,每一折可以取不同seed,效果会更好;
  6. 赛题数据中,数据分布是极端不平衡的,最多的有13w+,最少的只有19。尝试过多种imbalance loss and sample,但效果都不理想,不如直接交叉熵。直接按数量取倒数的话,类之间权重差距过大也会导致性能下降。于是我们尝试用指数函数对权重因子进行缩放,大概有一个多点的收益。其中决赛答辩中的一位大佬也采用的类似的想法,但做法优雅的多,建议取学习一下;
  7. 文本数据需要仔细处理,不要乱洗数据

复赛

模型选择

在初赛的模型上修修改改,没有尝试对不同模型进行融模

trick

  1. Aux Loss
  2. 分层学习率

implement details

  1. 复赛中提供了视频帧而不是预先提取好的特征,群里大佬们采用的是two-stage方式,先将视频分类的backbone预训练好,再后续多模态任务中freeze。但我走的是end-to-end,直接带着backbone一起练。但这需要一个额外的分支对backbone的输出特征直接进行分类,添加一个额外的视频损失的监督信号,不然text embeddings在visual bert中的贡献会显著压倒video embeddings;
  2. 带预训练权重的backbone、bert和随机初始化的一些MLP初始学习率应该分别设置;

一些遗憾的地方

  1. 如何利用好大规模的无标签数据是一个很重要的问题,群里大多采用bert的预训练利用unlabeled数据。但我们采用的是半监督策略,因为我方向是目标检测,之前有接触过一些半监督目标检测,如soft-teacher,就钻牛角尖了,但遗憾的是不work,性能只有极小极小的上升,大概0.1k?可能是我半监督代码写错了,又或者是没有使用大模型(swim-tiny+bert-base);
  2. 如上,我队友后面去做了bert的预训练,mlm之类的,没做出来,问我,我也不会。一个目标检测,一个图像生成,就没一个NLP的;
  3. backbone选错了,用的是在ImageNet上标准预训练的SwinV2。用基于CLIP的ViT的话,效果明显好于前者;
  4. 模型加速,一直纠结于TensorRT,直接带歪队友,double牛角尖,做到最后TensorRT都没整明白。直接用ViT half计算不香吗?shift
  5. 伪标甜蜜的忘做了,shift,应该在最后对测试集打个伪标再拼到训练集上面过一遍,复赛的时候在考驾照,怕是人晒麻了,做的麻瓜一样。

2022微信大数据挑战赛复盘,rank60+菜鸟相关推荐

  1. 2021微信大数据挑战赛—参赛总结

    2021微信大数据挑战赛-参赛总结 目录 2021微信大数据挑战赛-参赛总结 摘要 赛题任务 数据处理 特征工程 特征筛选 模型选择 赛题得分 参考链接 推荐阅读 写在最后 摘要 比赛网址:https ...

  2. [落选]2021微信大数据挑战赛_方案

    目录 问题概述 baseline 改进-0 改进-1 改进-2 改进-3 改进-4 结果 参考 更新 问题概述 先来看看这冗长的赛题说明1 baseline 最早是参考麻婆豆腐AI2的baseline ...

  3. 2021微信大数据挑战赛-初赛-NN思路分享

    总结 模型 该方案是基于Deepfm的baseline模型,线上加权在0.661左右.未进行调参,未进行多折,若后续想提分,可以从模型方面进行着手调试. 特征工程 主要是通过基础id做的embeddi ...

  4. 2021中国高校大数据挑战赛A题复盘+解题思路

    引言 由于个人安排的原因,没有时间参加微信大数据挑战赛,倒是参加了2021年中国高校大数据挑战赛.这次比赛做的是中国电信提供数据集的A题,是一个异常检测的题目,一个人做的本科组二等奖,觉得还是不错的. ...

  5. 2022年首届“钉钉杯”大学生大数据挑战赛初赛题目

    初赛 A:银行卡电信诈骗危险预测  一.问题背景:  数字支付正在发展,但网络犯罪也在发展.电信诈骗案件持续高发,消费者 受损比例持续走高.报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包 ...

  6. 大数据人工智能领域从菜鸟到高手晋级指南

    我们身处一个"技术爆炸"和"共享.开源"的时代,先进技术的更新迭代速率超过了历史上任何一个时期,而且这些技术也不再闭塞,人人都可以接触并学习.终身学习已经是我们 ...

  7. 【大数据竞赛】2022MathorCup大数据挑战赛 B题 北京移动用户体验影响因素研究 探索性数据分析

    系列文章目录 第一章 [大数据竞赛]2022MathorCup大数据竞赛 B题 北京移动用户体验影响因素研究 题目分析 第二章[大数据竞赛]2022MathorCup大数据挑战赛 B题 北京移动用户体 ...

  8. 【我的数据挖掘竞赛之旅(一)】快手活跃用户预测——2018中国高校计算机大赛第三届之大数据挑战赛(Big Data Challenge)

    文章目录 大赛 全称 地址 前言 一.任务目标与数据分析 1.数据集介绍 2.数据集说明 3.读取数据并命名列名 4.查看每个数据集的前五行 (1)注册日志 注册日志说明 (2)APP启动日志 APP ...

  9. 大数据挑战赛-鼠标轨迹识别

    声明:本文属于原创,如想转载,请务必在抬头注明出处. 大数据挑战赛-鼠标轨迹识别,竞赛官网:http://bdc.saikr.com/c/cql/34541 1.我们看一下整个竞赛的详情 赛题描述 鼠 ...

最新文章

  1. (笔记) (ARM) QQ2440 开发板改为 GT2440 (Linux) (开发板)
  2. gitlab 钩子 php,gitlab通过webhook.php自动部署标签
  3. [二分查找] 一:子区间界限应当如何确定
  4. 再议Unity 3D
  5. 全球及中国球形活性炭行业十四五发展潜力及投资价值分析报告2022-2027年
  6. python 无法引入同级目录的方法_再见 virtualenv!K神教你轻松管理多个Python环境...
  7. android.opengl.GLSurfaceView.Renderer概述
  8. Android图表引擎AChartEngine - 简介
  9. ElasticSearch使用入门及拼音搜索介绍
  10. 从菜鸟到架构师(二十六)
  11. 美国专利分类体系 USPC 检索
  12. UGUI 图集打包工具Sprite Packer
  13. 加拿大电子计算机工程留学,【加中留学】加拿大计算机工程专业哪些大学比较好...
  14. 深度学习图像数据库总结(收藏用)
  15. 身在北京,都有故事:九位北漂的心酸故事,只有经历过才有体会!
  16. (六)springMvc 和 mybatis 整合
  17. 【leetcode】644 最大子段和 II(二分查找,数组)
  18. libcoap 接口分析与 CoAP 协议开发
  19. [RTL]W1C類型的Register是如何工作的
  20. 理财收益天基实业选择投资理财快速改变人生轨迹

热门文章

  1. 编程经验NO.1 from月光博客
  2. 如何 导出 mysql schema_powerdesigner 15 如何导出sql schema
  3. scp命令密码写命令里_使用命令查看wifi密码
  4. H265/HEVC编解码系列(1):图像分割(Slice、Tile、CTU)
  5. 谈谈PLC的抗干扰能力(转载)
  6. 爬虫腾讯地图-5WNBZ-2JYR6-SPUSL-M3WGH-U4KDT-K2FYV
  7. 微信小程序自定义分享标题和图片
  8. idea运行tomcat项目出现的一些问题
  9. 2021年全球除湿机收入大约2769.4百万美元,预计2028年达到4758.2百万美元
  10. 安装WIN10 linux Ubuntu(18.04)双系统