经过激烈的竞争,2019腾讯广告算法大赛迎来初赛第一周的周冠军。他的名字叫储灿,一个谦虚认真的男孩。作为广告算法界的一颗新星,他对于大赛又有着怎样的独到见解呢?搬好板凳,一大波干货内容即将来袭!

大家好,我叫储灿,非常侥幸的获得了2019腾讯广告算法大赛的第一周周冠军,下面我也将分享一下我本次比赛的经验。

赛题解析

本次赛题的目标是通过广告的历史信息预测未来某一天广告的曝光量,是一个比较典型的时序问题和回归问题

官方给出的文件有历史曝光日志数据文件、用户特征属性文件、广告数据文件、广告操作数据。其中存在部分脏数据需要自己清洗。同时,官方给出的文件中并没有给定预测目标的标签,这也就需要自己来制作标签。评价指标分别为smape和单调性得分,其中smape和常见的mae和mse有一定的区别。

数据处理

历史曝光数据文件大概有1亿,使得不少人打不开或者看到这个数据量就不想做了,其实可以采用分块读取的方式,读取后再对文件的数据类型进行转化,转换后的文件大概就只有2G左右了。因为数据量较大,多张表的关联操作应当谨慎。给定的测试集特征有限,无法和训练集的特征完美对应,如用户特征属性文件就很难应用到测试集做特征。在比赛的一开始,应该将目标关注在那些简单容易提取的特征上面,对于那些比较复杂和难以处理的特征可以在模型建立起来再做。

本题中给定的广告尺寸、广告出价等基本特征是非常重要的,仅仅用这些基本特征就能得到一个较好的分数。而像人群定向这些特征处理起来比较麻烦而且并不好用,我也并未采用。

在建立模型前首要目标是构建标签,一天当中一个adid可能会有多个出价,在官方的faq出来前我采用的是取均值的形式,当天的adid数量作为曝光量,ad_bid为当天ad_bid的均值。整个数据处理下来大概训练样本为150万左右。将该数据和一些基础的特征特征放入模型训练后就能得到85左右的成绩。在官方的faq出来以后,知道了主要是预测cpc类的广告,对于无法在广告操作数据表中匹配到的数据都可以舍弃,这样清洗下来的数据量又明显小了一大截,只剩下十几万了。采用同样的方法训练,虽然数据量变小了,但线上成绩提高了。

模型的选择与验证

这一题大家采用的主要模型有传统的树模型深度学习模型,以及规则模型

对于规则模型需要比较强的业务理解能力,建议经验不多的同学不要取纠结该模型的用法。对于树模型推荐使用lgb模型,不仅仅速度快,而且支持直接输入类别特征,可以省去one_hot占用大量内存。本地验证推荐使用19号之前的数据做训练集19号的数据做验证集,全量数据的交叉验证可能会造成模型的过拟合,线下线上分数不一致。本题单调性得分占比60%,可以说是很好拿的,因此对于模型预测出来的结果一定要做单调性处理,不进行单调性处理,线上的得分也看不出模型的效果。

比赛初期,选择一个自己熟悉的模型,利用基础特征构建起一个整体的框架非常重要,之后可以一步步尝试特征的重要性。

最后,祝大家在本次比赛中收获满满,进步多多。

第一周周冠军带你解析赛题,尝试广告算法新思路相关推荐

  1. 腾讯专家深度解析赛题,现场答疑助力上分!

    ​ 为帮助选手们更好地备战赛事,2021腾讯广告算法大赛官方于5月10日至5月12日每晚七点,开启了"视"界杯系列专题直播活动.在5月10日的直播中,腾讯广告高级算法研究员芦清林. ...

  2. 大神备赛干货:腾讯广告算法大赛冠军教你玩出大赛新高度

    2019年腾讯广告算法大赛的战鼓已然敲响.今年的大赛将广告曝光预估作为选题,紧紧贴合了最in的数字营销趋势,将理论模型应用于实践. 为了更好的帮助大家准备今年的赛事,本期我们特地邀请了李强同学为大家分 ...

  3. 2020腾讯广告算法大赛分享(冠军)

    写在前面 2019年冠军选手成功卫冕! 代码地址:https://github.com/guoday/Tencent2020_Rank1st 从初赛冠军.复赛冠军,然后到最佳答辩,一路披荆斩棘,再次感 ...

  4. 【数据竞赛】2020腾讯广告算法大赛冠军方案分享及代码

    写在前面 2019年冠军选手成功卫冕!!! 代码地址:https://github.com/guoday/Tencent2020_Rank1st 从初赛冠军.复赛冠军,然后到最佳答辩,一路披荆斩棘,再 ...

  5. 美国大学生数学建模竞赛赛题特点

    美国大学生数学建模竞赛赛题特点 • 赛题灵活度高,内容广泛: 反恐.防灾.环境.健康医疗.交通.新能源等等: • 开放性大,评价类问题多且复杂: • 离散型优化问题多(除A题): 如:2016B太空碎 ...

  6. 2020中兴捧月算法赛道傅里叶派赛题菜鸡回顾

    最近抱着试水的心理参加了2020中兴捧月算法大赛傅里叶派赛题.从4.19号由旁观者转变为参赛者,到5.8号提交完成最后的文档和代码,前后算起来也有20天了.虽然自己比较菜,但毕竟是第一次参加这种比较正 ...

  7. 【采访】腾讯社交广告高校算法大赛 决赛第一周周冠军——ThreeIdiots比赛经验及心得分享 腾讯广告算法大赛

    这是腾讯社交广告高校算法大赛进入决赛阶段 产生的第一个周冠军 他们的名字叫ThreeIdiots 据说ThreeIdiots是谜一般的存在 大家都在猜他们到底是何方神圣 忍不住先提前透露一下关键词 低 ...

  8. 腾讯广告算法大赛 | 复赛第一周周冠军心得分享

    腾讯广告算法大赛 | 复赛第一周周冠军心得分享 腾讯广告算法大赛复赛第一周周冠军揭晓, 熟悉的队伍,熟悉的配方! 没错,依然是你们熟悉的葛文强团队! 今天,他们将对FFM方法进行详细介绍. 小板凳儿排 ...

  9. 【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享

    [采访]腾讯社交广告高校算法大赛第一周周冠军--郭达雅 比赛经验及心得分享 经过一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第一位周冠军 他的名字叫郭达雅 一个腼腆沉静的小男孩 低调的实力派, ...

最新文章

  1. DllImport dll中有些啥函数 及 dll中是否用到了别的dll
  2. Test class should have exactly one public constructor解决办法
  3. JavaScript之表单元素操作
  4. 技术干货 | 为高音质保驾护航 - 通信中的回声消除
  5. 交叉熵(cross entropy)概念整理
  6. php使css无法居中,css怎么整体居中
  7. Spring MVC学习总结(7)——Spring MVC整合Ehcache缓存框架
  8. codeigniter index.php,CodeIgniter如何隐藏index.php | 学步园
  9. WPF基础到企业应用系列7——深入剖析依赖属性(WPF/Silverlight核心)
  10. SpringMVC整合Quartz实现定时任务和Spring自带Task定时任务
  11. 数据仓库建设思维导图
  12. matlab误差平方和
  13. latex大括号 多行公式_【干货】四招教你如何快速写公式!
  14. 程序员出海创富的机会在哪里?三位专家给出具体建议
  15. # 量子力学中叠加态、本征态、混合态、纯态、纠缠态、直积态的区别(百度整理来的)
  16. Barefoot Networks 宣布 P4 Studio—下一代软件开发环境
  17. Python修改桌面分辨率
  18. android手势识别国内外研究现状,基于Android平台的视觉手势识别研究
  19. 《三井帝国在行动》pdf电子版下载
  20. 麦克阿瑟天才奖得主解码计算机视觉“原罪”:AI 如何认识人类世界

热门文章

  1. 最近30分钟合约市场爆仓842万美元
  2. SAP License:生产订单无目标成本解决办法
  3. 解读制造业数字化转型的现状及发展趋势
  4. 【BZOJ1226】[SDOI2009] 学校食堂
  5. Json.Net学习笔记(十二) 协议解析
  6. 15.3D效果,盒阴影和滤镜
  7. vue框架的vue-router路由的运用
  8. 删除iptables nat 规则
  9. hibernate one2one 唯一外键关联(双向关联)
  10. 【WebGoat习题解析】AJAX Security-Insecure Client Storage