2020年腾讯广告算法大赛的初赛的帷幕已然拉开,新老选手们正面临着全新数据集的挑战。在大家努力刷分的紧张时刻,我们为大家邀请到2019年腾讯广告算法大赛冠军、数据竞赛爱好者,也是本次大赛的参赛选手——鱼遇雨欲语与余,请他分享对本次赛题的一些解读,帮助大家拓宽思路,快速提高成绩,顺利突围初赛!

大家好,我是鱼遇雨欲语与余,毕业于武汉大学,人民邮电出版社签约作者,2019年腾讯广告算法大赛冠军。很高兴再次参加今年的腾讯广告算法大赛。

本届算法大赛的题目为“广告受众基础属性预估”,赛题提供了90天用户点击广告行为日志及广告的基本属性,让大家预测用户性别和年龄。为了帮助大家快速理解本次赛事的题目,我和大家简单分享一下我对于本次赛题数据的理解和一些解题思路。

  1. 赛题数据

赛题数据其实还是比较干净清爽的,用户基本属性信息只需要我们预测性别和年龄,其余的都是用户点击日志和广告相关信息。初期需要去理解每个变量的含义,比如creative_id广告素材可能由文案、图片和视频组成,一个广告包含多个广告素材,因此广告素材生成的流程也需要加以了解。“比较”是影响广告投放的重要环节之一,首先结合用户画像和卖点提炼,然后确定使用场景,最后进行素材的筛选和加工。

对数据和业务的基本认识可以帮助我们深入理解赛题,挖掘更多有用信息。

  1. 解题思路

用户的历史点击行为可以反映其属性特点,比如男性偏爱电子产品、游戏等,女性则更偏爱服饰、化妆品等,所以从点击序列中挖掘信息更为重要。那么如何挖掘序列信息呢,这里的方法就比较多了,下面逐个介绍。

(1)one-hot

直接展开,保留所有信息,300多万维,可以直接放弃了。

(2)Tfidf

NLP中常用的做法,将用户点击序列中的creative_id或者ad_id集合看作一篇文档,将每个creative_id或者ad_id视为文档中的文字,然后使用tfidf。当然这也下来维度也非常高,可以通过参数调整来降低维度,比如sklearn中的TfidfVectorizer,可以使用max_df和min_df进行调整。

(3)Word2vec

把每个点击的creative_id或者ad_id当作一个词,把一个人90天内点击的creative_id或者ad_id列表当作一个句子,使用word2vec来构造creative_id或者ad_id嵌入表示。最后进行简单的统计操作得到用户的向量表示。这种序列简单聚合导致信息损失,显得是非常的粗糙,需要进一步引入attention等方法。

上述方法可以直接使用传统的GBDT相关模型进行,1.3应该没问题。下面可以考虑序列建模方式。例如RNN/LSTM/GRU,这类方法将用户行为看做一个序列,套用NLP领域常用的RNN/LSTM/GRU方法来进行建模。

最后祝各位取得优异成绩。

———————————————————————

收获了大神选手的心得分享后,你的解题思路有没有更加清晰呢?希望各位选手放平心态,继续加油。祝愿各位突围成功!

了解更多赛事相关信息

扫码加入大赛官方QQ群

或搜索群号:1094257162

和小伙伴一起解锁更多内容

5月18日晚19:30,算法大赛评委大咖将齐聚直播间分享**《后疫情时代的“智”者未来》**,大咖面对面传授的机会不可多得!

感受大咖们的思想碰撞,点击下方链接,一键预约加入直播!
后疫情时代下,“智”者如何自处? - 腾讯云大学

点击下方链接,报名参赛赢取现金大奖

官方报名入口:
2020腾讯广告算法大赛

大神干货:冠军选手分享解题思路,助你轻松突围初赛相关推荐

  1. 【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)

    [第十一届泰迪杯B题产品订单的数据分析与需求预测]第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型) 写在前面: ​ 拖了这么长时间,一方面是我在找实习面试准备.另一方面是在做第二问 ...

  2. 如何成为一个渗透测试员(国外知名黑客大神Corelan Team (corelanc0d3r)分享技术干货)

    如何成为一个渗透测试员(国外知名黑客大神Corelan Team (corelanc0d3r)分享技术干货) How to become a pentester Intro I receive a l ...

  3. 每一个程序员都应该知道的高并发处理技巧、创业公司如何解决高并发问题、互联网高并发问题解决思路、caoz大神多年经验总结分享...

    本文来源于caoz梦呓公众号高并发专辑,以图形化.松耦合的方式,对互联网高并发问题做了详细解读与分析,"技术在短期内被高估,而在长期中又被低估",而不同的场景和人员成本又导致了巨头 ...

  4. 大神干货:腾讯广告算法大赛亚军女极客生存图鉴

    为了助力你更好地了解这次比赛,这期我们特地邀请到了去年腾讯广告大赛的亚军--来自北京邮电大学的"烧卖"同学,让她帮你为今年的广告大赛划重点,分享去年迎战各路技术大神的经验,晒出自己 ...

  5. 2021中国高校大数据挑战赛A题复盘+解题思路

    引言 由于个人安排的原因,没有时间参加微信大数据挑战赛,倒是参加了2021年中国高校大数据挑战赛.这次比赛做的是中国电信提供数据集的A题,是一个异常检测的题目,一个人做的本科组二等奖,觉得还是不错的. ...

  6. 大神干货:算法高手郭大顶级经验分享助你轻松通过初赛!

    本期干货我们为大家带来了大名鼎鼎的算法高手郭达雅"郭大"新鲜出炉的经验分享,他的队伍曾是唯一进入决赛的本科生队伍!接下来,郭大将带你深入了解如何处理大数据,让你即使在低配的环境中也 ...

  7. 鹅厂算法大神干货实录,初赛通关“秘籍”还不赶快来GET!

    2019腾讯广告算法大赛正火热进行中,今年大赛赛题"广告曝光预估"推陈出新,聚焦实际业务需求和技术创新实践应用,吸引了各界算法极客积极报名参与.为帮助选手在比赛中有更出色的发挥,5 ...

  8. 大神干货:腾讯广告算法大赛亚军宝藏指南带你顺利出圈

    这期我们请到了去年腾讯广告算法大赛的亚军--来自电子科技大学的徐安同学.千字比赛心得,让你轻松把握比赛,避免踩坑. 大家好,我是电子科技大学的徐安,很荣幸能有机会和大家分享我在腾讯广告算法大赛中的一些 ...

  9. 公司新来了个大神,一次分享他的 9 大技能

    公司新来了个同事,级别比我高一级,技术一流,来了之后把现有项目的性能优化了一遍,给公司省了不少成本. 后来才知道,他竟然是个「把烂牌打出王炸」的存在.他叫老徐,我希望通过他的故事,帮你找到些可复制的方 ...

最新文章

  1. 4行Python代码生成图像验证码
  2. 【DIY】简单粗暴低成本Arduino四轴机械臂方案,创客教育学习使用舵机首选方案!...
  3. C++:MFC SetTimer定时执行某一函数;
  4. TCP/IP学习笔记(二)TCP三次握手
  5. linux 如何查看应用程序进程号、端口
  6. 3、CommonChunkPlugin提取公共js-以提取一个jquery为例
  7. mysql jsp分页技术_一个非常简单的分页技术MYSQL JSP 利用了mysql的LIMIT参数
  8. android 如何从服务器端的数据库中拿数据,在客户端显示类?
  9. activiti 解压zip java.lang.IllegalArgumentException: MALFORMED 错误
  10. 百度云无限速下载工具:JDownloader 2 for Mac
  11. [python]SM4算法实现
  12. 百度之星2019决赛旅游记
  13. 作为项目经理如何开展BI项目
  14. 形式化验证和功能验证VC Formal-synopsys芯片验证基础篇(六)
  15. Apache Tomcat 历史版本下载地址 官网地址
  16. arugsJS 入门
  17. Centos6连接网络配置
  18. 【 MySQL1064错误代码】
  19. NETDMIS5.0端面圆跳动2023
  20. memcache用法

热门文章

  1. 宝新金融首席经济学家:区块链应用主要方向开始转向实体经济领域的商业场景
  2. Hudson Jameson将在柏林硬分叉后卸任以太坊基金会社区经理
  3. SAP License:物料编码原则<多码还是一码>之一
  4. SAP License:FICO重要概念(二)-附常用技巧
  5. 关于模型分箱,最容易被忽略的这几点
  6. MFC sendmessage实现进程间通信
  7. 5个节点hadoop安装(zookeeper)
  8. JavaScript 开发工具webstrom使用指南
  9. 一. JVM发展史,运行时数据区域,四大引用
  10. java 如何判断操作系统是Linux还是Windows