腾讯广告算法大赛第一位周冠军是……
咳咳……
听说Ta不是第一次拿周冠军,
听说Ta是谜一般的存在,
听说Ta不想让照片上推送,
没关系,这里我们不看脸,求教经验最重要!

大家好,我叫郭达雅,是中山大学的一名本科生。这次比较侥幸的再续周冠军,也让我有机会和大家分享一下比赛经验及心得。

1、数据处理

这次比赛的数据量比较大,性能比较差的机器可能没办法把数据一次性读入内存并且跑出结果来。这里有两种方法可以处理这类问题,第一是使用流式训练的模型,如FFM,这类的模型有个好处是训练快,并且每次可以单独读取一个batch大小的数据进行训练,不需要一次性把全部数据读进来。第二是将数据分成五份,分别训练五个模型,对最终的结果取平均值,该方法是我们去年决赛进前十所使用的方法,不仅保证了性能也能使性能差点的机器能够跑起来。

2、特征工程

特征工程在这类比赛中非常重要,可以说是直接决定排名的地方。对于特征工程,我们给出两点建议,第一是使用小数据集去寻找强特征,这次我们只使用了1%的数据去寻找特征。第二是了解具体的业务,数据是能够反映真实情况的,所以了解业务是很有必要的,所构造的特征也应该往实际情况去考虑。比如说,不同的广告特性对于不同年龄段的人吸引度是不一样的,所以我们能够构造新的ID特征(如aid_age)。这次比赛中,广告和用户的交叉特征是非常有用的,如简单的进行上面的组合ID特征,也能够帮助提升不少的成绩,当然还可以统计不同广告特性对于不同年龄段的比例等。此次比赛,我们使用了bryan的baseline加上交叉特征和相应的交叉统计特征达到了0.755的成绩。

3、模型选择

我们这次比赛使用了GBDT和deepFFM,这两种模型各有优势。前者的性能非常出色,但缺点是无法进行流式的训练,这也导致了数据读取和训练的过程非常缓慢。而后者的训练速度快,但由于需要数据预处理,寻找特征时会浪费不少时间。因此,我们结合了两个模型的优势,利用GBDT在小数据集寻找特征,然后将特征给deepFFM学习。由于deepFFM是自己实现的,我也在里面添加了dropout层和修改loss function,使性能得到很大的提升,最后deepFFM单模型是达到0.753的成绩。

最后祝大家能够享受比赛的过程,也希望能够取得不错的成绩。

腾讯广告算法大赛 | 第一周周冠军心得分享相关推荐

  1. 腾讯广告算法大赛 | 第三周周冠军心得分享

    腾讯广告算法大赛第三周周冠军出炉! 他们就是- 等等,这位帅哥如此眼熟? 没错,就是去年的总冠军队伍!! 大腿抱紧!看上届冠军为你指点迷津! 大家好,我们是来自南京大学的"每天队员都想改一次 ...

  2. 2020 腾讯广告算法大赛:突破高分瓶颈方案分享

    写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...

  3. 备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)

    期待与各位在2020腾讯社交广告算法大赛中相遇!!! 写在前面 最近突然之间讨论腾讯广告赛的人多了不少,也有很多人加我微信讨论19年腾讯赛的方案和代码.虽然2020腾讯赛还未开始,不过大家已经提前进入 ...

  4. 腾讯广告算法大赛 | 复赛第一周周冠军心得分享

    腾讯广告算法大赛 | 复赛第一周周冠军心得分享 腾讯广告算法大赛复赛第一周周冠军揭晓, 熟悉的队伍,熟悉的配方! 没错,依然是你们熟悉的葛文强团队! 今天,他们将对FFM方法进行详细介绍. 小板凳儿排 ...

  5. 腾讯广告算法大赛 | 第二周周冠军心得分享

    腾讯广告算法大赛第二周周冠军出炉, 从照片上推断, 这是一位颜值与机智并存的少年. 于是在我们的强烈邀请下, 小哥哥答应给大家分享主流ctr模型的选择- 大家好,我叫葛云鹏,是来自哈尔滨工业大学深圳研 ...

  6. 腾讯广告算法大赛 | 初赛第一名心得分享

    腾讯广告算法大赛初赛第一名揭晓, 这只队伍可不得了, 单看队名以为是一个人, 其实它集结了三大高校的精英选手! 今天,他们将从三个方面全方位传授比赛经验. 小板凳儿排排坐!干货记起来~ 大家好,我们是 ...

  7. 万人报名2020腾讯广告算法大赛,顶级技术争锋正式开战!

    由腾讯广告携手腾讯云.腾讯大数据.腾讯招聘及腾讯高校合作等合作伙伴举办的2020腾讯广告算法大赛,报名阶段于5月31日正式结束.自4月15日赛事开展至今,本届赛事已成功吸引2万多名技术人才高度关注.最 ...

  8. 大神干货:腾讯广告算法大赛亚军女极客生存图鉴

    为了助力你更好地了解这次比赛,这期我们特地邀请到了去年腾讯广告大赛的亚军--来自北京邮电大学的"烧卖"同学,让她帮你为今年的广告大赛划重点,分享去年迎战各路技术大神的经验,晒出自己 ...

  9. 腾讯广告算法大赛2020赛题初探坑

    腾讯广告算法大赛2020赛题初探坑 写在前面 1.赛题和数据 2.评分标准 3.特征工程 3.1one-hot编码 3.2hash特征 3.3target encode 3.4embedding大法好 ...

最新文章

  1. 从 2017 ChinaJoy 谈起,中国游戏如何数据化前行
  2. Python标准库collections模块的Counter类
  3. java中常量final的用法_详解Java中final的用法
  4. Android仿QQ复制昵称效果2
  5. 【十万个编程篇】写文章与“写项目”的差别
  6. KNN--K近邻算法
  7. 《OpenCV算法精解——基于Python与C++》第七章形态学处理
  8. Vue-多个Vue实例、注册全局组件,Fetch、axios
  9. matplotlib画图使用微软雅黑字体
  10. 心电电路算法滤波_心电仪滤波
  11. app推广假量怎么识别?
  12. 分享一个便宜又好用的代理ip
  13. sqlmap中tamper的用法
  14. win10安装win7虚拟机记录
  15. CLIP论文阅读、zero-shot实验、linear prob实验记录
  16. Effective JavaScript Item 23 永远不要修改arguments对象
  17. java爬虫系列(二)——爬取动态网页
  18. MJ12bot 蜘蛛爬虫 屏蔽垃圾SEO蜘蛛
  19. 从2014全球出版业50强排行榜看出版产业的格局演变
  20. MIME类型是什么?MIME类型有哪些?

热门文章

  1. 赛锐信息:SAP img 文档
  2. RK3399Pro Android Rock-X 人工智能开发系列(2)
  3. 图像中的一条直线在旋转缩放过程中会有分段现象,或产生分段节点
  4. 饮冰三年-人工智能-Python-16Python基础之迭代器、生成器、装饰器
  5. 《黑马程序员》 block的使用(Objective - c语法)
  6. 求关于运动的英语(收集)
  7. 【摘抄】其实我是间谍!
  8. eclipse同步svn时如何过滤target等文件
  9. SQL锁机制和事务隔离级别
  10. linux用户管理和文件权限