话不多说,既然来到这里想必已经对此比赛有所了解,比赛官网为:科赛平台。而我们团队为-小月亮团队,取得了比赛的第7名。以下为我们的代码以及答辩PPT网址:https://github.com/zhangyuepeng/Ctrip14。大家没事也不用看源码,没什么营养,干货没多少,想到的都说在这里了。


  • 首先我认为此题,数据量较小只有4000个产品,样本缺失数据大,最奇葩的地方在于要利用产品23个月的历史销量来预测未来14个月的销量。当时的感觉就是这要是用模型的话,我想到有两种:

    1. 建立一个模型,只预测未来一个月,然后级联的预测未来14个月,这样误差会累积,感觉十分不靠谱没有做。
    2. 针对预测的每一个月建立一个模型,认为未来的14个月间隔时间太长,还是觉得不靠谱。
  • 而让我最终选择使用规则放弃模型的主要原因还有,在这4000个出行产品中有几百个销量数据是不全的,并不是23个月都有数据,即使我使用模型来做,最后也要单独考虑这些脏数据(当然这只是我想到模型有这个弊端,后面我会介绍本次比赛前三的队的模型的基本思想,有的建模方式是不存在此问题的)。

  • 下面我简短的介绍一下我们的规则模型。下图为我们解决方案的主要架构:
    就是对数据进行分类处理,先提取强周期性的产品进行预测(剩下的数据我们还利用相关系数加上了一定的周期惩罚),然后根据已有的历史销量数据进行分类处理,具体细节这里不再详述。要提出的是,我们的规则重用了voters(评论数)这个特征,尤其在历史销量数据较少的情况,我们大量使用了voters进行修正。
  • 说到voters这个特征,不得不说,这个比赛携程方面出的明显不太合理。偏离了实际业务应用。我们预测未来14个月产品的销量,而数据直接把voters(包括了未来14个月的投票数)不经过处理给了我们,这相当于未来特征啊。这对于我们预测哪些没有历史销量的数据是一个极大的帮助,一般情况下,那当然是销量越大评论数越大了。

  • 下面我们看一下此次比赛top3团队的解决方案。首先要说的一点的是,top3的团队都是用模型来做的,当然他们用的模型与我上述所想的模型有所不同。
  • 他们用的模型是建立一个模型直接对未来14个月进行预测,说实话这样的方案我感觉也不靠谱,因为这样以来,模型中某个出行产品未来第1个月和第2个月不一样的特征,本质上只有一个就是月份不一样,就靠这一个特征能很好区分预测未来的14个月吗!事实是人家效果确实好,没办法了,只能说对于预测同一个产品未来的14个月的销量,其所有不同的特征也只能由不同的月份带来。有点绕,哈哈哈!!!
  • 而且这其中还有两队没有用历史销量来构造特征,我服了you,这都能行。想想看,一个产品上个月以及去年同月的销量最能够用来表征和预测这个月的销量了,这就是大家为什么一直用同比和环比来衡量公司的发展情况。但是,你们竟然没有用而是仅仅把销量作为target来进行回归。你们就不怕存在类似这种情况:面对面的两家店,所有特征都一样,但是就是因为一家老板娘漂亮,导致销量就是高吗。这样的话你们统计到的特征估计除了voters其他的都一样吧。但是,这样建模完美解决了那些没有历史销量而需要预测的这部分数据,一样的特征拿来我照做,厉害了。
  • top3的队伍中,我看了所有的答辩PPT和一个团队的源码,有两队明确说出在模型中结合了一些规则。

  • 最后感谢科赛平台和携程的服务人员,非常的尽职尽责。

携程-出行产品未来14个月销量预测-第七名代码解读相关推荐

  1. 当谈到携程机票产品经理的数据意识,我们在谈什么?

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...

  2. 二阶差分预测后数据还原公式_携程如何基于ARIMA时序分析做业务量的预测

    一. 前言 时间序列分析是统计学科的一个重要分支.它主要是通过研究随着时间的推移事物发展变化过程中的规律,来进行事物未来发展情况的预测.在我们的日常生活中,股票的价格走势,奶茶店每天的销售额,一年的降 ...

  3. 解读携程2019Q1财报:净利润同比增长超三倍 未来能否保住此增速

    ​美东时间5月22日盘后,携程对外发布了它在2019年第一季度的新财报.根据财报来看,携程在营收及净利润均超预期,受财报发布后的影响,携程的股价一度上涨近5%.回顾携程这几个季度的财报来看,它在营收跟 ...

  4. 基于携程游记的出行领域顺承事件图谱项目

    EvolutionaryEventGraph 项目地址:https://github.com/liuhuanyong/SequentialEventExtration Evolutionary Eve ...

  5. 携程集团副总裁王韦:探索携程度假农庄发展新路径 打造“一村一旅游目的地”...

    "深耕国内 心怀全球".在刚刚落幕的2021携程集团全球合作伙伴峰会上,这句话被频频提及.深耕国内,携程将从哪些方面持续发力,在明年又将有哪些创新?12月14日,携程集团副总裁王韦 ...

  6. 携程、美团、飞猪备战2023

    相关部门前脚刚取消出行查验健康码和48小时核酸检测阴性证明,人们后脚就在网上订票准备出游,一时间三亚.重庆.西双版纳等旅游城市迎来旅游小高峰. 网络数据显示,12月中下旬以来,三亚和西双版纳等城市的酒 ...

  7. 携程“919旅行囤货划算节”两年,已成行业超级IP

    中秋刚过,文旅产业又要迎来备受瞩目的重大节点:汇聚超百家头部商家.影响遍及全国的第二届"919旅行囤货划算节"开启帷幕. 一.扛住疫情压力,携程第二届"919旅行囤货划算 ...

  8. 携程发布2021第三季度财报:营收53亿元 国际国内旅游市场“攻守”同发力

    2021年12月16日,携程集团(纳斯达克:TCOM及香港联交所:9961)发布截至2021年9月30日第三季度未经审计的财务业绩.第三季度实现营收53亿元,经调整EBITDA(税息折旧摊销前利润)为 ...

  9. 该如何重新定义携程?

    物转星移,中国互联网发展已逾20年. 20年前,三大门户垫定了中国互联网第一个大格局的雏形:BAT逐渐在搜索.电商.社交三大领域各占一隅,独领风骚:携程则跳上了"在线旅游"万亿市场 ...

最新文章

  1. HTML5 canvas处理图片的各种效果,包括放大缩小涂鸦等
  2. 一文详解OpenCV中的CUDA模块
  3. docker保存linux镜像,docker导入导出容器和保存加载镜像
  4. 解决JavaScript中使用$.ajax方式提交数组参数
  5. 单片机开发设计之十层功力
  6. 您可能没有使用的最佳三星Galaxy功能
  7. 6D位姿估计算法Densefusion代码阅读
  8. 【华为云技术分享】浅谈产品模型(Profile)在程序设计中的作用
  9. SQL Server 2005 无法连接到服务器,error:26
  10. Java尖刀系列3:堆
  11. python之OrderedDict
  12. 线程同步(windows平台):信号量
  13. 项目管理-项目启动会
  14. Linux dstat监控工具简讲
  15. 百胜中国供应链管理中心正式开工落户上海嘉定;百度发布第六代量产无人车 | 美通企业日报...
  16. 电脑版微信网络连接已断开,解决方案
  17. 基于深度学习的色情视频鉴定
  18. 本地IP与网络IP的区别与查询方式
  19. 【金融基建】证券交易机制(三)(证券估值、拍卖、竞价撮合、做市商交易、市场交易指令、交易时段)
  20. 行列式 (背诵内容)

热门文章

  1. 微信小程序实现视频试看功能
  2. e生保等待期什么意思_平安e生保,关于等待期出险的详细解说
  3. jupyter远程登陆
  4. Gox语言的指针类型及其操作-GX12
  5. 学习Python想放弃,因为你没有培养自己的兴趣!
  6. 将剪切板中的图片粘贴至Word,浮动于文字上方,设置图片背景透明
  7. Windows显示进程路径
  8. VIM 配色方案推荐
  9. 福布斯区块链50强榜单发布,6家中国机构上榜
  10. 计算机/软件专业课【考二门】的211学校集合!