【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享

经过一周紧张又激烈的角逐

腾讯社交广告高校算法大赛产生了第一位周冠军

他的名字叫郭达雅

一个腼腆沉静的小男孩

低调的实力派,祝贺你

小编对咱们的周冠军同学进行了短暂的采访

于是就有了下面这篇分享

周冠军 郭达雅

大家好,本人郭达雅。现就读于中山大学数据科学与计算机学院,是一名计算机科学与技术的大三学生。今天很荣幸有个机会来分享一下比赛经验及心得。

刚接触这类比赛是在今年的三月份,当时刚好有个课程需要我们做kaggle的Two-sigma Connect,以排名作为成绩,经过两个月的努力,最终拿了 top 2%,同时也让我喜欢上了这种比赛。有了两个月的比赛经验,让我在这次腾讯社交广告高校算法大赛中,险拿了一次周冠军。

接下来主要讲下我在这个比赛中的一些想法及做题思路。

1、线上及线下的一致

可能大家对线上和线下不太了解,我这里做一下解释。线下成绩指的是你在本地跑的成绩,一般是做交叉验证 (CV) ,由于这个比赛具有时序性,可能会按时间划分训练集。而线上成绩便是你提交上去的成绩。

对于这种比赛,首先你必须做到CV和线上的成绩相差不大,其次 CV 和线上的成绩应该是同增同减的。否则后面你所做的事情都是白费功夫,因为 CV 根本体现不出来特征的好坏。为了同步 CV 和线上成绩,我花了两天的时间去做这件事情。

2、缩减训练时间

这次的比赛,大家比较在意的一件事就是自己电脑不够好,跑不动。但其实有很多方法可以解决这个问题的,比如缩小数据集,使用百分之一的数据量进行训练,又或者优化一下代码,分批输入训练。我在第一天所提交的成绩是0.0985,这个成绩是用十分之一的数据量,单线程及4G内存跑出来的。我们在做测试的时候,没必要使用所有的数据去测试,只用一部分的数据就能测出特征的好坏。

3、做好特征工程

有一句话说得好,“特征决定上限,模型只能无限接近于这个上限。”这种比赛,如果要拿到好的排名,建议先做特征工程,找到好的特征可以提高很多。在第一天交的成绩 0.0985 中,我使用的是 XGB 和自己构建的特征。我不太清楚 XGB 好不好,但是目前来说我只是用 XGB 来验证我自己构造的特征好不好。至于特征工程,可以做下 one-hot 编码或者统计,但也不要每次把构造的特征都放进模型跑一次,这样很浪费时间,其实一个特征的好坏程度,你可以简单的通过 groupby(’feature’,’label’) 来看出特征的好坏程度,如果某个特征在不同的取值上,0和1的比例和平均比例相差很大,那么这个特征是有效的。又或者可以看方差,这样可以省下许多时间去测试特征的好坏。

4、不放过任何有可能提升成绩的机会

大家或许最头疼的一件事就是加入某个特征线下logloss下降了很多,但是线上logloss反而升高了。当我们遇到这样的事情的时候,我们并没有直接抛弃这个特征,而是充分利用这个特征。我们会想两件事:

1.这个特征是不是信息泄露了,比如使用了未来的数据来预测现在。能不能重新构造类似的特征来规避时间。

2.测试集是不是没有这样的特征。比如训练集虽然使用了点击时间之前 app_action 的数据,可是训练集有当天的action信息,而测试集没有当天的 action 信息。因此造成了训练集有这样的特征,而测试集没有。

最后,祝大家取得好成绩。

【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享相关推荐

  1. 【采访】腾讯社交广告高校算法大赛决赛第二周最大进步队伍——拔萝卜比赛经验及心得分享

    腾讯社交广告高校算法大赛决赛第二周 进步最大的一支队伍 她的名字叫拔萝卜 这是一支单人队伍 而且还是少有的女孩子哦 可爱.乖巧.独立的小女孩 祝贺你 话不多说直接上照片 小编对咱们的周进步冠军同学进行 ...

  2. 【采访】腾讯社交广告高校算法大赛决赛第二周周冠军——nju_newbiew比赛经验及心得分享

    腾讯社交广告高校算法大赛决赛 第二周周冠军 他们的名字叫nju_newbiew 进入决赛之后他们的成绩是火速提升 直到稳定在第一名 这又是一支谜一般的队伍 今天小编就来给大家揭开神秘大佬的面纱 三个偶 ...

  3. 【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享

    [采访]腾讯社交广告高校算法大赛第三周周冠军--到底对不队比赛经验及心得分享 经过又一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第三周周冠军 他们的名字叫"到底对不队" 这 ...

  4. 【采访】腾讯社交广告高校算法大赛决赛第一周最大进步队伍——SkullGreymon比赛经验及心得分享

    这是腾讯社交广告高校算法大赛进入决赛阶段 进步最大的一支队伍 他们的名字叫SkullGreymon 他们低调到照片都不放 小编也不知道怎么介绍 只知道队长同我一样喜欢哆啦A梦 那应该是个有童真爱想象的 ...

  5. 【采访】腾讯社交广告高校算法大赛 决赛第一周周冠军——ThreeIdiots比赛经验及心得分享 腾讯广告算法大赛

    这是腾讯社交广告高校算法大赛进入决赛阶段 产生的第一个周冠军 他们的名字叫ThreeIdiots 据说ThreeIdiots是谜一般的存在 大家都在猜他们到底是何方神圣 忍不住先提前透露一下关键词 低 ...

  6. 【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享

    [采访]腾讯社交广告高校算法大赛第二周周冠军--Groot 比赛经验及心得分享 经过又一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第二周周冠军 他们的名字叫Groot 三个冷静沉着的大男孩 低 ...

  7. 【专访】首届腾讯社交广告“高校算法大赛”落幕 冠亚季军团队参赛心得精彩分享

    导言: 7月6日,首届腾讯社交广告"高校算法大赛"正式落幕.在众多参赛团队中,来自南京大学的三人组合"nju_newbie"一举夺得决赛冠军,将30万元奖金收入 ...

  8. 腾讯社交广告高校算法大赛——总结

    #腾讯社交广告高校算法大赛--总结 Another url: https://bulihanjie.github.io/2017/07/08/腾讯社交广告高校算法大赛总结/ 题目描述 http://a ...

  9. 腾讯广告算法大赛 | 第一周周冠军心得分享

    腾讯广告算法大赛第一位周冠军是-- 咳咳-- 听说Ta不是第一次拿周冠军, 听说Ta是谜一般的存在, 听说Ta不想让照片上推送, 没关系,这里我们不看脸,求教经验最重要! 大家好,我叫郭达雅,是中山大 ...

最新文章

  1. 文件魔术数字_如何使用魔术脚手架自动创建文件并节省时间
  2. 【技术趋势】德勤发布2020技术趋势报告,五个新趋势可引发颠覆性变革
  3. 这家公司耕耘超算20年,连续3年世界第一,现在加速中国AI
  4. 阿里云实现putty私钥登录全过程
  5. 设计模式--责任链(Responsibility_Chain)模式
  6. 【Redis学习】Redis数据类型及存储结构
  7. vim 使用中的一些错误[omnifunc未设置错误]
  8. wide-dhcpv6的dhcp6c配置
  9. 小D课堂-SpringBoot 2.x微信支付在线教育网站项目实战_2-5.开源工具的优缺点选择和抽象方法的建议...
  10. 迅雷VIP帐号获取小工具
  11. python实现——根据MD5进行文件去重
  12. Topaz Mask AI for mac(人工智能AI抠图软件) 最新版
  13. 【js逆向】md5加密参数破解
  14. 英语地道知识点学习笔记(一)
  15. 对数计算的实现方式(在windows计算器、OneNote、Python和Java中)
  16. TypeScript/JavaScript 2021-02-25T03:34:35.772Z 时区 日期格式化
  17. python开源流程图软件_适用于Linux的10种最佳流程图和图表软件
  18. 【超硬核】从0-1构建UI组件库
  19. android蓝牙对战,支持蓝牙对战 跑跑卡丁车登陆Android
  20. java access jdbc_Java jdbc连接Access数据库的方法学习(ucanaccess驱动)

热门文章

  1. SAP License:孔乙己,一名ERP顾问
  2. 数据埋点与设备指纹/设备反欺诈的区别与联系是什么?
  3. 线下产品风控门道真不少
  4. Elasticsearch 实战1:ES 项目实战(一)Java 集成 Spring Data Elasticsearch(一):简介及环境搭建
  5. 【高并发解决方案】1、高并发解决方案汇总
  6. [bzoj3450]Tyvj1952 Easy[概率dp]
  7. Spring,FetchType.LAZY和FetchType.EAGER什么区别?
  8. pku1189 钉子和小球
  9. 鼠标移动 改变Datagrid行的背景颜色
  10. 爬取100页京东商品评论