第一届腾讯社交广告高校算法大赛以“移动App广告转化率预估“为主题,首次开放腾讯在社交和数字广告领域的“实战类”数据,以高度模拟真实业务的赛题方式呈现,并直指数字广告中的核心关键问题:转化预估,面向高校学生征集最智慧的算法解决方案,引领广告生态业界的核心技术方向。

“Raymone”团队由来自大连理工大学的李淼、栗强和来自清华大学的李达三名同学组成,在第一届腾讯社交广告高校算法大赛斩获亚军。

下面是来自团队代表栗强同学的参赛心得分享。

大连理工大学 栗强

大家好,我是来自大连理工大学的栗强,作为腾讯社交广告部门的准员工,在此我想与大家分享一下我参加第一届腾讯社交广告高校算法大赛的心得体会,希望能给今年的参赛者们一些参考。(如有不对的地方,还望大家多多指教,在此表示感谢。)

起初,我和我的队友并没有抱着进入前三名的决心,也许是幸运之神的眷顾,我们三个并没有太多参赛经验的人,竟然获得了第一届腾讯社交广告高校算法大赛的亚军。回顾比赛全程,除了拓宽了知识面、锻炼了已有专业技能之外,我们也获得了使用腾讯业界真实数据的机会,而这些都不是能在学校轻易获取到的。更重要的是,比赛提供了获得腾讯实习以及校招绿色通道的机会,这也是吸引我们参赛的一大原因。这段参赛经历也让我如愿的进入了心仪的公司——腾讯,而我的队友也分别进入了心仪的公司获得实习机会。可见,参赛本身对于我们找工作或者实习而言的重要性。

相信大家也都看到了,最近几年国内的算法比赛越来越多,这也从侧面反映了国内各大企业对于算法技术的追求。我想,无论你的参赛目的是学习、锻炼自己,或是丰富自己的简历、获得面试的机会,抑或是获取丰厚的奖金,只要你够优秀,2018腾讯广告算法大赛就可以给你提供三者兼得的机会。

好了,接下来和大家分享一些比赛中可能会遇到的问题以及我的一些建议:

1、数据集的划分

数据集的划分主要是将给定的训练集划分成本地训练集和本地验证集。通过本地验证集上的效果,来判定线上测试集的效果。所以,数据集的划分还是很重要的。就我目前所知,常用的有两种方式为:随机划分(可以做交叉验证)和按时间划分。如果数据集中有明显的时序关系(比如给定的训练集是20号到30号的数据,需要预测31号的数据),这时就要考虑采用按时间划分的方式,否则很容易导致数据泄露,造成线上线下变化趋势不统一的问题。

2、特征工程

特征工程部分一般来说特别关键,特征决定模型的上限,说的就是这个道理。除了一些基本的构造特征的方法外,建议大家多从赛题背后的真实业务场景出发,比如说什么能促使用户在点击广告之后会下载相应的APP呢?很大程度上,其实是该用户对该APP有需求。这样我们就能有针对的去构造特征,而不是盲目的构造特征,在时间效率上也会有一定程度的提升(比赛中的时间可是有限的)。如果大家对于构造特征或者模型训练这块并没有太多经验,也可以借鉴相关的比赛和博客,看看大家是如何构造特征的。

3、数据规模

如果比赛中数据规模过大,自己的机器跑起来很吃力,那么这时候建议大家可以尝试一下数据选取和特征筛选。数据选取方面,最简单的方法就是可以对数据进行下采样。尤其是在尝试新特征的时候,可以随机选取一定比例的训练样本,来验证该特征是否有效。如果该特征对模型的准确率有一定的提升,这时候再在整个训练数据集上进行训练,如此一来,可以节省不少尝试特征的时间。其次,每验证出来一个有效的特征后,我们就可以在整个训练数据集上提取该特征,并将其保存到硬盘中,这样下次需要用到该特征时直接读取数据并concat就可以了,避免重复提取同一个特征,从而节省时间成本。

4、单模型

模型方面,目前使用比较多的有XGBoost、LightGBM、GBDT、FFM等。由于LightGBM相比于XGBoost有着精度相似,同时训练速度快好几倍的优点,在训练比较吃力的情况下推荐使用LightGBM。

5、模型融合

模型融合可以在一定程度上提高比赛成绩。关于模型融合,已经有不少比较好的博文了,可以参照下面列出来的两篇[1-2]。这里我的建议是,在比赛的前期,大家可以把主要精力放在特征工程上面,等到比赛后期再进行模型融合。其次,模型融合时需要训练多个不同的模型,大家最好要知道每个模型适合什么样的特征。这样每个模型都有自己的特征体系,而不是所有单模型共用一套特征,这样在进行模型融合时提升也会相对比较大。

最后一个小小的建议,参赛的同学在有条件的情况下可以多找老司机们带带路,即使不能在同一个队伍,多听听老司机们的经验分享,也能使自己有很多的收获。

往届选手心得分享:腾讯广告算法大赛萌新指南相关推荐

  1. 腾讯广告算法大赛 | 萌新粉丝投稿讲述数据竞赛小白观赛心得

    腾讯广告算法大赛高手云集,在围观比赛的过程中你一定也有了不少心得体验!想要分享这份感受却无处诉说?本期我们接受了来自大赛粉丝的投稿,让我们来一起看看萌新们都有什么收获吧! 作为一个数据竞赛经验很少的小 ...

  2. 【采访】腾讯社交广告高校算法大赛 决赛第一周周冠军——ThreeIdiots比赛经验及心得分享 腾讯广告算法大赛

    这是腾讯社交广告高校算法大赛进入决赛阶段 产生的第一个周冠军 他们的名字叫ThreeIdiots 据说ThreeIdiots是谜一般的存在 大家都在猜他们到底是何方神圣 忍不住先提前透露一下关键词 低 ...

  3. 大神干货:腾讯广告算法大赛亚军宝藏指南带你顺利出圈

    这期我们请到了去年腾讯广告算法大赛的亚军--来自电子科技大学的徐安同学.千字比赛心得,让你轻松把握比赛,避免踩坑. 大家好,我是电子科技大学的徐安,很荣幸能有机会和大家分享我在腾讯广告算法大赛中的一些 ...

  4. 腾讯广告算法大赛 | 复赛第一周周冠军心得分享

    腾讯广告算法大赛 | 复赛第一周周冠军心得分享 腾讯广告算法大赛复赛第一周周冠军揭晓, 熟悉的队伍,熟悉的配方! 没错,依然是你们熟悉的葛文强团队! 今天,他们将对FFM方法进行详细介绍. 小板凳儿排 ...

  5. 腾讯广告算法大赛 | 复赛第二周最佳进步奖得主心得分享

    腾讯广告算法大赛 | 复赛第二周最佳进步奖得主心得分享 我们关注着每个团队的成长, 即使你认为自己并不出众, 但腾讯广告算法大赛, 乐于发现你的闪光点. 这不, 我们特邀本周最佳进步奖得主分享成长之路 ...

  6. 腾讯广告算法大赛 | 第二周周冠军心得分享

    腾讯广告算法大赛第二周周冠军出炉, 从照片上推断, 这是一位颜值与机智并存的少年. 于是在我们的强烈邀请下, 小哥哥答应给大家分享主流ctr模型的选择- 大家好,我叫葛云鹏,是来自哈尔滨工业大学深圳研 ...

  7. 腾讯广告算法大赛 | 第一周周冠军心得分享

    腾讯广告算法大赛第一位周冠军是-- 咳咳-- 听说Ta不是第一次拿周冠军, 听说Ta是谜一般的存在, 听说Ta不想让照片上推送, 没关系,这里我们不看脸,求教经验最重要! 大家好,我叫郭达雅,是中山大 ...

  8. 腾讯广告算法大赛 | 初赛第一名心得分享

    腾讯广告算法大赛初赛第一名揭晓, 这只队伍可不得了, 单看队名以为是一个人, 其实它集结了三大高校的精英选手! 今天,他们将从三个方面全方位传授比赛经验. 小板凳儿排排坐!干货记起来~ 大家好,我们是 ...

  9. 腾讯广告算法大赛 | 第三周周冠军心得分享

    腾讯广告算法大赛第三周周冠军出炉! 他们就是- 等等,这位帅哥如此眼熟? 没错,就是去年的总冠军队伍!! 大腿抱紧!看上届冠军为你指点迷津! 大家好,我们是来自南京大学的"每天队员都想改一次 ...

最新文章

  1. 非常强悍的 RabbitMQ 总结,写得真好!
  2. OpenCV AprilTags 识别
  3. java 拦截器响应中取所有参数,spring boot拦截器中获取request post请求中的参数
  4. SCANF SCANF_S
  5. Mysql数据库(1.表的约束,以及数据表相关操作和字段名的相关操作)
  6. 性能测试十四:Xshell链接linux虚拟机
  7. R 读取excel的方法
  8. 水晶报表中对某一栏位值进行处理_合并报表——非同一控制下的企业合并amp;同一控制下的企业合并...
  9. linux发行版_7款颜值当道的Linux发行版操作系统
  10. 简述与oracle相关的程序组,北语网院18秋《Oracle数据库开发》作业_4答案
  11. linux下文件的相关信息
  12. (五):ionic 命令详解
  13. 分支限界法解决01背包问题
  14. Guava学习笔记 第6个记录(Immutable(不可变)集合)
  15. Opencv_07 图像的像素值统计
  16. MATLAB中的FFT函数以及频谱泄露
  17. 城市引力模型——城市经济联系度制作
  18. p1 p 0xf在c语言中啥意思,单片机控制1位共阴极数码管,控制端P1=0x76;则数码管显示的内容是 答案:H...
  19. 第18节 渗透测试流程和简单案例
  20. 数据结构详解——最大(小)左倾树

热门文章

  1. TRC20-USDT流通量突破64亿枚
  2. SAP License:SAP顾问应具有哪些能力
  3. SAP License:PS的进度管理流程
  4. 3.10 datetime
  5. blongsTo 用法
  6. Myslq 之创建数据表
  7. java监听器演示样例
  8. 55.函数模板指针匹配(模板自动匹配*多的)
  9. 读书笔记 - 《软件业的成功奥秘》
  10. 注册、登陆、审核练习