写在前面

最近腾讯赛分享成为“Coggle数据科学”的主推文章,从筹备竞赛到逐步上分之路的分享,助力大家取得优异成绩。当然,这也将延续到大赛结束。持续关注Coggle,大家一起学起来~

上回说到如何晋升到尊贵白金,发现很多同学在这个阶段遇到很多问题,在开启新的征程前,我们一起先来看看可能遇到的问题。

1. TF-IDF细节

第一个是内存问题,这里可以对参数做些调整,比如max_features=100000,最后仅选出100000列。

第二个是tfidf的id类特征选择,凡是id类的都可以进行tfidf,我连time都加进去了。

2. 五折交叉统计

这里可以考虑将年龄和性别进行one-hot,然后统计每一个类别的概率,主键可以是任意id类特征,当然也可以进行交叉组合后的id特征。

在本文中,Coggle的目标是带领大家突破1.42分,同时对于1.42之后的提升,比如1.43,或者1.43+,也会给出更多建议和思考方向。

每个分数阶段都有不同的知识点需要去学习,在这次历程中,我们一起探寻永恒钻石和至尊星耀的上分之路。

永恒钻石

分数达到1.41,更多特征工程技巧,后处理方法

梳理下我们还有哪些特征可以加的,我想到的其实并不多,对于有效的特征会进行一系列的扩展,比如提取用户行为序列中creative_id的向量表示,可以使用不同的embedding方式,基本的word2vec、deepwalk或者fasttext都是取尝试的。对于tfidf后的结果进行主题分类,基本的SVD、LDA、NMF也都有尝试。

后处理方法在目前阶段还是有千分位的提升,方法比较简单,在很多分类问题中都会产生奇效。下面给出优化过程,对应本赛题,输入的概率矩阵是n*10。

至尊星耀

分数达到1.42,你该有一个好的nn结构

简单的三输入,在加上我之前提到的特征,轻轻松松达到1.42+的分数,结构也是非常的简单。我们首先选取三个比较强的ID特征,例如creative_id,ad_id和advertiser_id(这是我所选择的三输入,当然还能进行更多尝试,或者进行ID交叉组合构建新的序列),然后进行word2vec预训练得到embedding向量,对应三个bilstm层。对于其它构造出来的特征对应Dense层,最后进行concat。结构非常简单,收益也是非常高的。

经过bilstm后进行mean pooling或者max pooling,可以进一步考虑bilstm后接attention网络对隐状态进行加权。然后与其它特征concat后,再经过几层的mlp后作为接sigmoid或者softmax得到最终结果。

像attention、gru、lstm等操作基本上已经成为这道赛题的标配,暴力尝试组合就常常会有效果,就如同堆积木一样,使用这些通用方式堆出你想要的结构。

在之后的文章还将 " 可能 "分享最强王者段位的上分之路,希望大家持续关注。

更多学习资料

历届腾讯赛答辩PPT获取

关注我们并后台回复【2020腾讯赛】

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑AI基础下载(pdf更新到25集)机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085,加入微信群请扫码喜欢文章,点个在看

【竞赛方案】2020腾讯广告算法大赛:高分进阶相关推荐

  1. 【数据竞赛】2020腾讯广告算法大赛冠军方案分享及代码

    写在前面 2019年冠军选手成功卫冕!!! 代码地址:https://github.com/guoday/Tencent2020_Rank1st 从初赛冠军.复赛冠军,然后到最佳答辩,一路披荆斩棘,再 ...

  2. 2020 腾讯广告算法大赛:突破高分瓶颈方案分享

    写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...

  3. 【竞赛经验分享】2020腾讯广告算法大赛:如何突破分数瓶颈?

    写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...

  4. 2020腾讯广告算法大赛:赛题理解与解题思路

    写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...

  5. 备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)

    期待与各位在2020腾讯社交广告算法大赛中相遇!!! 写在前面 最近突然之间讨论腾讯广告赛的人多了不少,也有很多人加我微信讨论19年腾讯赛的方案和代码.虽然2020腾讯赛还未开始,不过大家已经提前进入 ...

  6. 2020腾讯广告算法大赛十强名单出炉!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale推荐 2020年腾讯广告算法大赛 - 决赛答辩 经过近3个月的激烈角逐,202 ...

  7. 百万奖池,鹅厂offer,2020腾讯广告算法大赛等你来战!

    允中 发自 凹非寺  量子位 编辑 | 公众号 QbitAI 2020腾讯广告算法大赛再度起航,即日起至5月31日,赛事正式面向全社会启动线上招募,一场算法之间的"巅峰对决"即将上 ...

  8. 最强战队出炉,2020腾讯广告算法大赛圆满落幕

    8月3日,2020腾讯广告算法大赛决赛在深圳腾讯滨海大厦顺利举行. 十强战队集结腾讯,花式解密"逆算"难题. 腾讯广告副总裁蒋杰.微众银行首席AI官杨强.科大讯飞副总裁刘鹏.腾讯数 ...

  9. 万人报名2020腾讯广告算法大赛,顶级技术争锋正式开战!

    由腾讯广告携手腾讯云.腾讯大数据.腾讯招聘及腾讯高校合作等合作伙伴举办的2020腾讯广告算法大赛,报名阶段于5月31日正式结束.自4月15日赛事开展至今,本届赛事已成功吸引2万多名技术人才高度关注.最 ...

  10. 谁与争锋,2020腾讯广告算法大赛初赛正式启动

    5月7日,2020腾讯广告算法大赛进入初赛赛段,汇聚了近万名多领域技术人才的硬核算法比拼正式开启! 为了更有效地推动产学研的交流与融合,培养技术人才.本届算法大赛通过"逆向思考"巧 ...

最新文章

  1. Altiris 7.1 插件
  2. 树莓派4b控制机械手臂_Raspberry Pi
  3. FreeMarker快速上手
  4. android AVB2.0(六)Super动态分区介绍
  5. PHP实现文件上传,下载,批量下载
  6. Q:How to read attribute from a tag
  7. 苏大计算机考研专业课,我的考研经历全纪录(苏大计算机)
  8. abb机器人伺服电机报闸是什么_ABB机器人伺服电机进油的分析及解决措施
  9. 串口线接法是什么 详细步骤介绍
  10. java发布geoserver样式(sld样式)
  11. Java 读取jpeg图片 Unsupported Image Type 异常
  12. xp系统开机自检很久_windows XP系统开机总自检怎么取消
  13. linux给文件夹加密码,如何使用linux命令给文件上锁?linux命令文件加密方法
  14. 安全浏览器无法安装?看这一篇就够了
  15. 如何找到浏览器扩展的安装位置
  16. 安卓学习笔记 1.1 安卓Android Studio应用
  17. 海康威视 0day_海康威视摄像机壁装支架DS-1292ZJ 海康白 压铸铝合金材质
  18. 项目一:中国计算机设计大赛赛事统计
  19. 微信公众号对接影视资源接口分享
  20. pig的内置函数小总结(不全)

热门文章

  1. 关于异步IO与同步IO的写操作区别
  2. (十三)洞悉linux下的Netfilteramp;iptables:为防火墙增添功能模块【实战】
  3. HDU 4228 Flooring Tiles 反素数的应用
  4. POJ 3750 小孩报数问题
  5. STL(一)Containers
  6. 云计算背后的秘密(3)-BigTable
  7. C#中的接口 (转自吕振宇老师的blog)
  8. python 批量增加文件前缀_Excel VBA工作薄 7.5批量增加工作表前缀/后缀 工作表区分更方便...
  9. 生日快乐编程代码_世界上最好的编程语言,刚刚度过了25周岁生日
  10. ROS+Turtlebot3+RVIZ 显示机器人历史轨迹方法