各位同学大家好,我是本次参赛选手李博,比赛ID是深蓝(DeePBluE),现在就读于北京邮电大学,是一名研一的在校生,研究方向是数据分析和机器学习。这次腾讯的比赛参加的比较晚,因为前面在准备京东的决赛答辩。不过看了几天数据,现在我把我的一些初步分析分享给大家。

训练集和测试集的划分

大家都知道,腾讯决赛数据集巨大,简直让人绝望。所以我建议大家按每天划分数据集,再分开处理,提取各天的特征,这样一方面数据控制能力强,另一方面,统计特征不会穿越,最重要的是还能跑得动....

业务理解

大家都知道了一些trick,我在这就不说了。我想强调的一点是,我们解决的任何问题都不能脱离业务场景进行分析,因为好的特征都来自于与业务场景的深入理解和对原始数据的细致分析,所以大家要设身处地想用户是怎么看到广告,点击广告,转化广告的。通过思考想一下自己在使用过程中,哪些东西吸引了自己去点击,哪些东西吸引了自己去转化。这样可以找到很强的特征噢~

特征工程

在特征工程部分,我提几点吧:

1、因为我们要对每天进行统计,所以我建议大家把clicktime和conversiontime转化为这种形式,方便我们统计一些时间特征,也方便我们划分数据集:

2、我们看数据介绍,广告的类型是二级的,所以我们要把广告类型分开一级和二级两列(我发现很多同学都没处理这个),这样一方面模型更加合理,另一方面我们可以得到哪个一级广告热度高,每个用户分别钟爱哪种一级广告等等统计量。

3、选取特征时不要穿越就不用说太多了,大家要注意不是没利用标签就是不穿越,你的各种超前统计可能都是穿越噢~

4、我们可以把业务转化为一个简单的图模型,然后在图模型里面找一些统计量来作为特征,通过图模型也可以更加深入的理解业务场景,我做个简单的示意图:

初步分析:上图是一个用户对一个时间窗口内的app的考察记录,app之间的箭头表示用户点击之间的跳转,在整个过程中,我们可以计算每个app的入度,这样可以找到哪个app更受此用户欢迎。

图模型是一个非常强的分析工具,比如你还可以加自环,这样可以看到用户的重复点击情况等等。

当然,如果你把时序特征分析的很清晰,那么可以不用图模型,但是图模型确实是个很简单又有效的分析方法。

5、大家可以做一些数据可视化分析,找到一些分辨能力强的统计量。比如统计用户的活跃时间、app的活跃时间等等,说不定有惊喜。

6、交叉特征在这个赛题里面十分重要,不要忘记交叉特征,具体怎么做就不方便透露了(说太多队友会打死我)~哈哈

模型算法与框架设计

模型的话,xgb看来是不怎么好用了,速度有点慢,反馈不及时,大热天的等的心烦。。。建议大家换lightGBM吧,比xgb效果差一丢丢,不过速度快很多,看着就爽。另外大家可以多思考一下框架设计这部分,比如融合方法,其实不仅仅局限于模型融合,还有其他的融合方法可以用来提高成绩。

说了这么多希望给大家一些提示,或者更加清晰的思路。

腾讯的比赛数据集真的挺有意思的,大家一定可以在这次比赛中学到很多~

have fun

【选手分享】拿不到周冠军,我就只能写个好点的经验分享上首页了相关推荐

  1. 【经历分享】三本大学小菜鸡,最后四个月自学编程经验分享

    就在大三上学期,我面临着一个选择,那就是是否去考研?那个时候,心里挺乱的,当时了解到前端都可以代替安卓之后,有根据自己的性格,不想走安卓底层这条路,当时就处于一个迷茫期,有那么几天浑浑噩噩,打不起精神 ...

  2. 三周速通AWS Certified Solutions Architect - Associate(SAA-C03)经验分享

    目录 1. 先介绍考试: 2. CLF对比SSA 3. 备考流程 3.1 Udemy 网课 3.1.1<Ultimate AWS Certified Solutions Architect As ...

  3. 转型经验分享|作为传统汽车工程师,我如何转型去阿里做无人驾驶?

    编者按: 以下这篇文章,其实是笔者2018年初发表在<业界良新>上的三篇转型文章的合集.这次重新汇总呈现给大家,一方面是给传统汽车产业需要转型的朋友做个转型参考,另一方面,也是给接下来的两 ...

  4. 绝对受用的求职经验分享,是天津大学一牛人写的,很

    绝对受用的求职经验分享 感谢天津大学写这篇求职经历的那位研究生. 目录 关于我的系列文章的解释和说明 我的求职历程及经验分享(一):求职历程总结 我的求职历程及经验分享(二):前期准备 我的求职历程及 ...

  5. 【秋招纪实录】一篇特别正经的【基恩士】求职经验分享

    本篇推文共计2000个字,阅读时间约3分钟. 01 求职关键词 基恩士 销售工程师岗 2020年秋季校园招聘 已取得offer 02 企业科普 随着工业自动化方面的迅速发展,KEYENCE作为传感器和 ...

  6. 【秋招纪实录】一篇特别正经的【TCL】求职经验分享

    本篇推文共计2000个字,阅读时间约3分钟. 01 求职关键词 TCL 软件测试岗 2020年秋季校园招聘 已取得offer 02 笔试 笔试的难度不算太难,选择题加编程题,题量较少.选择题主要以一些 ...

  7. 转型经验分享|我为什么放弃做VC投资,去做自媒体?

    先说下我的背景,我之前在上汽通用的泛亚技术中心,做底盘开发工程师,后来加入一家新能源车企,再后来因为看好自动驾驶的技术发展前景,自学自动驾驶算法,终于在2017年底加入阿里(菜鸟)自动驾驶团队. 我在 ...

  8. 2022吉林大学软件专硕初试422分计算机考研经验分享(上)

    写在前面: 这个成绩是今年吉大软工专硕的初试第一,我本人是吉大本校本专业的,由于对本校本专业以及各个科目教学以及考试形式比较熟悉,求稳就报考了本专业.玩知乎很久,曾也写过一些高考的经验分享,在准备考研 ...

  9. 阿里云ACE高级工程师的备考经验分享

    阿里云ACE高级认证首位云计算架构师谢俊东的备考经验分享,阿里云ACE认证是阿里云的高级工程师认证,目前只有云计算架构师一个专业,考费费用为2400元/次,试卷满分为150分,及格分数90分,考试时间 ...

最新文章

  1. emacs 探索之五:latex配置
  2. go语言中的float类型
  3. SpringMVC与Mybatis整合---SpringMVC学习笔记(六)
  4. CAS的ABA问题描述 AtomicStampReference
  5. 事件与委托的一点概念理解
  6. c语言输入一串数字存入数组_在Excel中快速输入,竟是输入一串数字?
  7. cacti 监控自身
  8. 6U-VPX 高速固态存储板卡—— 外挂2片DDR3,8GB/s带宽,存储容量16TB (KU085)
  9. C# chart控件使用方法
  10. 使用pdfobject.js实现在线浏览PDF
  11. 树莓派教程(3)——树莓派设置中文
  12. 扒一扒流量攻击那些事
  13. SiamFC:用于目标跟踪的全卷积孪生网络 fully-convolutional siamese networks for object tracking
  14. 西门子安装未找到ssf文件_三菱、西门子软件安装常见出错解决方法「技成周报40期」...
  15. 用JS控制SVG的预设动画
  16. 镁客网每周硬科技领域投融资汇总(12.16-12.22),第四范式成“五大行”联合投资唯一创企...
  17. 华为机试练习(四)勾股数元组
  18. UEFI(EFI) 的启动菜单与NVRAM
  19. B2B2C商城系统 -多端+多店+社交+新零售网上商城开发
  20. 群晖 Let's Encrypt 泛域名证书自动更新

热门文章

  1. SAP License:关于MRP产生的采购申请检查、与采购部的衔接处理
  2. SAP License:别闹了,这些都不是数字化转型
  3. SAP License:生产订单无目标成本解决办法
  4. 人力资源管理系统、OA、行政管理系统、考勤管理、资产管理、车辆管理、绩效管理、员工管理、招聘、入职、离职、转正、加班、调休、企业OA系统、axure原型、rp源文件、web端后台管理原型、高保真原型
  5. 企业网站+Axure企业官网通用模板+公司官网通用模板+web端高保真原型+门户官网+物流企业+门户网站+服务中心+产品中心+新闻中心+帮助中心+企业官网+公司官网+公司网站+登录注册+高保真交互
  6. 【原创】大叔问题定位分享(33)beeline连接presto报错
  7. 嵌入式MicroFlighter 之STM32F103学习——编写第一个STM32程序
  8. Palindrome Degree(hash的思想题)
  9. 什么是Github?
  10. 微信公众平台获取用户地理位置之开发文档详解