【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享
【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享
经过一周紧张又激烈的角逐
腾讯社交广告高校算法大赛产生了第一位周冠军
他的名字叫郭达雅
一个腼腆沉静的小男孩
低调的实力派,祝贺你
小编对咱们的周冠军同学进行了短暂的采访
于是就有了下面这篇分享
…
周冠军 郭达雅
大家好,本人郭达雅。现就读于中山大学数据科学与计算机学院,是一名计算机科学与技术的大三学生。今天很荣幸有个机会来分享一下比赛经验及心得。
刚接触这类比赛是在今年的三月份,当时刚好有个课程需要我们做kaggle的Two-sigma Connect,以排名作为成绩,经过两个月的努力,最终拿了 top 2%,同时也让我喜欢上了这种比赛。有了两个月的比赛经验,让我在这次腾讯社交广告高校算法大赛中,险拿了一次周冠军。
接下来主要讲下我在这个比赛中的一些想法及做题思路。
1、线上及线下的一致
可能大家对线上和线下不太了解,我这里做一下解释。线下成绩指的是你在本地跑的成绩,一般是做交叉验证 (CV) ,由于这个比赛具有时序性,可能会按时间划分训练集。而线上成绩便是你提交上去的成绩。
对于这种比赛,首先你必须做到CV和线上的成绩相差不大,其次 CV 和线上的成绩应该是同增同减的。否则后面你所做的事情都是白费功夫,因为 CV 根本体现不出来特征的好坏。为了同步 CV 和线上成绩,我花了两天的时间去做这件事情。
2、缩减训练时间
这次的比赛,大家比较在意的一件事就是自己电脑不够好,跑不动。但其实有很多方法可以解决这个问题的,比如缩小数据集,使用百分之一的数据量进行训练,又或者优化一下代码,分批输入训练。我在第一天所提交的成绩是0.0985,这个成绩是用十分之一的数据量,单线程及4G内存跑出来的。我们在做测试的时候,没必要使用所有的数据去测试,只用一部分的数据就能测出特征的好坏。
3、做好特征工程
有一句话说得好,“特征决定上限,模型只能无限接近于这个上限。”这种比赛,如果要拿到好的排名,建议先做特征工程,找到好的特征可以提高很多。在第一天交的成绩 0.0985 中,我使用的是 XGB 和自己构建的特征。我不太清楚 XGB 好不好,但是目前来说我只是用 XGB 来验证我自己构造的特征好不好。至于特征工程,可以做下 one-hot 编码或者统计,但也不要每次把构造的特征都放进模型跑一次,这样很浪费时间,其实一个特征的好坏程度,你可以简单的通过 groupby(’feature’,’label’) 来看出特征的好坏程度,如果某个特征在不同的取值上,0和1的比例和平均比例相差很大,那么这个特征是有效的。又或者可以看方差,这样可以省下许多时间去测试特征的好坏。
4、不放过任何有可能提升成绩的机会
大家或许最头疼的一件事就是加入某个特征线下logloss下降了很多,但是线上logloss反而升高了。当我们遇到这样的事情的时候,我们并没有直接抛弃这个特征,而是充分利用这个特征。我们会想两件事:
1.这个特征是不是信息泄露了,比如使用了未来的数据来预测现在。能不能重新构造类似的特征来规避时间。
2.测试集是不是没有这样的特征。比如训练集虽然使用了点击时间之前 app_action 的数据,可是训练集有当天的action信息,而测试集没有当天的 action 信息。因此造成了训练集有这样的特征,而测试集没有。
最后,祝大家取得好成绩。
【采访】腾讯社交广告高校算法大赛第一周周冠军——郭达雅 比赛经验及心得分享相关推荐
- 【采访】腾讯社交广告高校算法大赛决赛第二周最大进步队伍——拔萝卜比赛经验及心得分享
腾讯社交广告高校算法大赛决赛第二周 进步最大的一支队伍 她的名字叫拔萝卜 这是一支单人队伍 而且还是少有的女孩子哦 可爱.乖巧.独立的小女孩 祝贺你 话不多说直接上照片 小编对咱们的周进步冠军同学进行 ...
- 【采访】腾讯社交广告高校算法大赛决赛第二周周冠军——nju_newbiew比赛经验及心得分享
腾讯社交广告高校算法大赛决赛 第二周周冠军 他们的名字叫nju_newbiew 进入决赛之后他们的成绩是火速提升 直到稳定在第一名 这又是一支谜一般的队伍 今天小编就来给大家揭开神秘大佬的面纱 三个偶 ...
- 【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享
[采访]腾讯社交广告高校算法大赛第三周周冠军--到底对不队比赛经验及心得分享 经过又一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第三周周冠军 他们的名字叫"到底对不队" 这 ...
- 【采访】腾讯社交广告高校算法大赛决赛第一周最大进步队伍——SkullGreymon比赛经验及心得分享
这是腾讯社交广告高校算法大赛进入决赛阶段 进步最大的一支队伍 他们的名字叫SkullGreymon 他们低调到照片都不放 小编也不知道怎么介绍 只知道队长同我一样喜欢哆啦A梦 那应该是个有童真爱想象的 ...
- 【采访】腾讯社交广告高校算法大赛 决赛第一周周冠军——ThreeIdiots比赛经验及心得分享 腾讯广告算法大赛
这是腾讯社交广告高校算法大赛进入决赛阶段 产生的第一个周冠军 他们的名字叫ThreeIdiots 据说ThreeIdiots是谜一般的存在 大家都在猜他们到底是何方神圣 忍不住先提前透露一下关键词 低 ...
- 【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享
[采访]腾讯社交广告高校算法大赛第二周周冠军--Groot 比赛经验及心得分享 经过又一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第二周周冠军 他们的名字叫Groot 三个冷静沉着的大男孩 低 ...
- 【专访】首届腾讯社交广告“高校算法大赛”落幕 冠亚季军团队参赛心得精彩分享
导言: 7月6日,首届腾讯社交广告"高校算法大赛"正式落幕.在众多参赛团队中,来自南京大学的三人组合"nju_newbie"一举夺得决赛冠军,将30万元奖金收入 ...
- 腾讯社交广告高校算法大赛——总结
#腾讯社交广告高校算法大赛--总结 Another url: https://bulihanjie.github.io/2017/07/08/腾讯社交广告高校算法大赛总结/ 题目描述 http://a ...
- 腾讯广告算法大赛 | 第一周周冠军心得分享
腾讯广告算法大赛第一位周冠军是-- 咳咳-- 听说Ta不是第一次拿周冠军, 听说Ta是谜一般的存在, 听说Ta不想让照片上推送, 没关系,这里我们不看脸,求教经验最重要! 大家好,我叫郭达雅,是中山大 ...
最新文章
- 文件魔术数字_如何使用魔术脚手架自动创建文件并节省时间
- 【技术趋势】德勤发布2020技术趋势报告,五个新趋势可引发颠覆性变革
- 这家公司耕耘超算20年,连续3年世界第一,现在加速中国AI
- 阿里云实现putty私钥登录全过程
- 设计模式--责任链(Responsibility_Chain)模式
- 【Redis学习】Redis数据类型及存储结构
- vim 使用中的一些错误[omnifunc未设置错误]
- wide-dhcpv6的dhcp6c配置
- 小D课堂-SpringBoot 2.x微信支付在线教育网站项目实战_2-5.开源工具的优缺点选择和抽象方法的建议...
- 迅雷VIP帐号获取小工具
- python实现——根据MD5进行文件去重
- Topaz Mask AI for mac(人工智能AI抠图软件) 最新版
- 【js逆向】md5加密参数破解
- 英语地道知识点学习笔记(一)
- 对数计算的实现方式(在windows计算器、OneNote、Python和Java中)
- TypeScript/JavaScript 2021-02-25T03:34:35.772Z 时区 日期格式化
- python开源流程图软件_适用于Linux的10种最佳流程图和图表软件
- 【超硬核】从0-1构建UI组件库
- android蓝牙对战,支持蓝牙对战 跑跑卡丁车登陆Android
- java access jdbc_Java jdbc连接Access数据库的方法学习(ucanaccess驱动)
热门文章
- SAP License:孔乙己,一名ERP顾问
- 数据埋点与设备指纹/设备反欺诈的区别与联系是什么?
- 线下产品风控门道真不少
- Elasticsearch 实战1:ES 项目实战(一)Java 集成 Spring Data Elasticsearch(一):简介及环境搭建
- 【高并发解决方案】1、高并发解决方案汇总
- [bzoj3450]Tyvj1952 Easy[概率dp]
- Spring,FetchType.LAZY和FetchType.EAGER什么区别?
- pku1189 钉子和小球
- 鼠标移动 改变Datagrid行的背景颜色
- 爬取100页京东商品评论