比赛的过程大致分为:数据分析与探索;尝试生成自己所需要的数据;提取特征建立baseline;在baseline的基础上进一步建模或者使用规则。

数据分析与探索——你能想到的别人也会想到,只有你发现的别人才不容易发现!数据分析与探索是极其重要的,在整个数据挖掘过程中应该占据最多的时间,只有花时间做得足够细才会有好结果。这个过程是个统计过程,也最为繁琐。做好数据分析,有以下几点需要格外注意:别骗自己了,只有数据不会说谎——一定不要主观臆断而放弃对某一个特征、类别的深入挖掘。在做统计时要做到足够精细,例如在本次比赛中,我们都想到了要对双11进行修正,而且可以说100%的人都想到了,但真正做好的实在是少之又少。大概错误有以下两类:一是觉得双11只是线上、淘宝、天猫等等的活动,因此与口碑流量应该无关(注意是应该,我相信绝大多数人都是或者有过这种想法),因此对这方面只是浅尝辄止,例如随便将当天销量向上拉1%,显然效果不会明显,甚至下降,于是放弃等等。二是虽然对这个节日有关注,但是工作做的太粗糙。例如仅仅统计了2015年双11所有店铺销量变化情况,然后在采取上述拉升方法。很明显,效果很一般。然而事实上,双11不仅仅是打折促销,更多的是年轻人们的光棍节。但即便没有想到这一点,也不能做这样粗糙的统计而就此完事。若进一步对每个类别(其实并非是每个类别,因为只有少数类别才具有较多的店铺)的在2015年双11销量进行分析。可以发现西餐厅(约250家)在双11会上涨约14%,线上反馈也证明了2016年也是如此。和我的臆想简直是天差地别!

baseline的建立——在数据挖掘比赛中建立一个好的bsaline是极其重要的,baseline不一定要能够完全解决问题,他可能只是解决问题的第一个步骤。因此baseline并不是可以随意建立的。在我看来一个好的baseline至少得满足一下两个条件:1.正确性,所谓正确性指的是你对baseline结果的自信程度,好的baseline在数据预处理不变的条件下,你要能自信的说,这个baseline的结果是合情合理又正确的。在这个baseline正确的基础上才有后文。2.基础性,这个基础性主要是指baseline上衍生出来的东西要多,这样后面的提升空间才会大。

并发处理——多个任务之间减少干扰。在baseline建立之后的下一步工作中不要使用太多baseline使用过的数据。这样两个任务之间的干扰没那么多,可以同时优化baseline和建立下一步工作。否则后期容易陷入线上不动,线下也不动。想优化baseline又怕对后面造成影响。

线上反馈——结合线上反馈,手动处理一些样本是必要的。在缺失值多,外部扰动大,一些预测会非常困难。这时候结合线上反馈是很有必要的。

转载于:https://www.cnblogs.com/zhoukj/p/6586966.html

ijcai2017赛后总结相关推荐

  1. 第十二届河南省ACM大学生程序设计竞赛赛后总结

      这次是我跟菜瓜(色瓜)组织大家去比赛了,因为有天梯赛和CCPC省赛的组织经历,所以并没有出什么差错,比赛场地好评,这也算是头一个省赛在体育馆里面举办的了. 下面说一下这次比赛的题吧   先说总结: ...

  2. 智能视觉组赛博 -10赛后反馈

    中国计量大学赛博-10(智能视觉组)队员对于参加第十六届智能车竞赛进行总结与展望. §01 赛后反馈 一.实验室介绍 赛博智能车实验室成立于2012年,隶属于中国计量大学信息学院,历来以技术为核心,以 ...

  3. 2017 ACM/ICPC(西安)赛后总结

    早上8:00的高铁,所以不得不6点前起床,向火车站赶--到达西安后已经是中午,西工大距离西安北站大概3小时车程的距离,只好先解决午饭再赶路了--下午3.30的热身赛,一行人在3.35左右赶到了赛场,坐 ...

  4. 赛后总结:第四届工业大数据竞赛注塑成型

    赛后总结:第四届工业大数据竞赛注塑成型 原文首发于我的公众号 前言 以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路.自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进 ...

  5. ios开发 热搜词demo_一场比赛16个热搜,uzi因焕烽躺枪,阿bin评价赛后太揪心

    相信有关注S10电竞赛事的小伙伴都知道,就在10月31号晚上的S10总决赛中,DWG战队是以3:1比分击败了SN战队,成功夺得S10的全球总冠军,这次S10赛季算是真正的结束了! 不得不说,这次的S1 ...

  6. 2020 CCPC网络赛 赛后感

    第一次参加,做过去年19年网络赛的题,去年是四个水题稳做出,然后还有两个线段树和树状数组的题(好像是),所以本来对这次网络赛挺有信心的(去年好像四个题就能进,当然要手速快). 这次网络赛还是有四个水题 ...

  7. Codeforces Round #701 (Div. 2)赛后补题报告(A~D)

    Codeforces Round #701 (Div. 2)赛后补题报告(A~D) A. Add and Divide 原题信息 http://codeforces.com/contest/1485/ ...

  8. 百度机器阅读理解比赛赛后总结

    百度机器阅读理解比赛赛后总结 <!-- 文章内容 --><div data-note-content="" class="show-content&qu ...

  9. 4am永远 鼠标按键设置_4AM碾压性夺冠创PCL历史!韦神赛后采访彰显霸气

    <绝地求生>PCL秋季赛的战斗已经全部落下帷幕了,Team Razer 雷蛇战队成员,国内最具人气的4AM战队凭借着在季后赛的出色发挥,以316分的高分碾压全场,成功斩获本次PCL秋季赛的 ...

  10. 2019.5.18-5.19 ACM-ICPC 全国邀请赛(西安)赛后总结

    第一次出去比赛经验太少了!!!果然最大目的是长见识和受刺激Orz 以下流水账: 背了本两千两百页的牛津高阶英汉双解词典,背了吃的,背了衣服--以后这些东西统统不带,买本口袋词典即可.上述物品这次比赛全 ...

最新文章

  1. jQUery操作checkbox
  2. 无法加载文件 C:/Windows/Microsoft.NET/Framework/Meaningless_string/mscorlib.tlb
  3. ASP.NET 5 and .NET Core RC 准备投入使用
  4. linux脚本里调执行命令,使用shell的-n/-x/-x执行选项调试Shell脚本
  5. Ajax传递json数据
  6. azure服务器_如何使用Blazor WebAssembly实施Azure无服务器
  7. Redis应用场景汇总
  8. [原创]解决某物流企业二维码打印问题
  9. Win8 下配置Java开发环境
  10. 编译好的编译ffmpeg又出错:更改输出目录产生各种古怪错误
  11. Spring MVC中的统一异常处理
  12. 11(3)-AirSim+四旋翼仿真-AirSim中人工势场法方法改进
  13. 吉林大学计算机学院三等奖学金,吉林大学奖学金评定方案.doc
  14. clob informix java_informix如何插入clob
  15. python需要多久才能学会_大家觉得自学python多久能学会?
  16. 毕业论文标题和目录生成
  17. NOIP2018提高组省一冲奖班模测训练(三)
  18. 计算机网络实验六 综合设计实验
  19. 解耦的概念、spring实现解耦的概述
  20. Qt 使用阿里巴巴字体图标库 iconfont

热门文章

  1. OSChina 周三乱弹 —— 究竟是谁走漏风声
  2. SpriteBuilder改变布局后App运行出错代码排查
  3. 渗透常用SQL注入语句合集
  4. 【文本处理】格式crs_stat输出
  5. idp 苹果开发账号续费
  6. PHP设计模式——概述
  7. python中os模块的常用
  8. JavaScript:学习笔记(7)——VAR、LET、CONST三种变量声明的区别
  9. Activemq 使用ssl说明
  10. jQuery 元素移除empty() remove()与detach()的区别?