竞赛过去很久了,早就想写写感想与经历,可是一直拖着没写。今天终于有时间了,就写写吧。

竞赛题目是视频网站推荐,根据前七周每天用户对10个视频网站的访问次数数据以及其他上网行为,预测用户第八周对10个视频网站的访问量。

咋一看这是个时间序列预测问题,是啊,给出前49天用户访问数据,让你预测未来七天用户访问数据。这确实应该是个时间序列预测问题。

但我用时间预测算法模型Holt-Winter(3次指数平滑), ARIMA跑结果的时候,结果却并不是很好。

我后来分析了下数据,统计了七周每一周七天内用户对10个网站的点击次数。我很震惊的发现它是均匀分布的。

本来我原以为对于某些网站来说周末访问次数会高一点,或者说7周49天,每天的访问次数会有一定规律。但是没有发现。

唯一的发现是第五周会有一个数据突变,567周的访问次数骤然减半,所有网站都是如此。

而且对于个人来说,网站的点击更近似于随机分布,我们抽样了50个用户,都是如此。

周内没有规律,周间也没有规律。而且虽然7周看起来很长,但对于某一天来说,比如周一,有效数据只有7个,所以有效数据少。

所以对于把握周期性特征的时间序列预测算法来说,这种场合并不适用。

不过推荐嘛,总是有办法的。我想起了协同过滤。我把问题分成两步,第一步, 预测每天用户访问与否,这是个01分类问题。第二步,就是预测用户访问次数,可以用协同过滤解决。

对于第一步分类问题,选取特征最为重要。我选取了:相应每一天前七周访问与否,最近两周是否连续访问,对于网站的访问次数是否超过阈值,每周的访问天数和是否超过某一阈值等作为特征

以前六周作为数据集,第七周作为测试集,然后用神经网络跑出结果作为初步结果。

协同过滤我们采用针对用户的协同过滤算法。

待续

转载于:https://www.cnblogs.com/zqiguoshang/p/6965070.html

天翼杯大数据算法应用大赛感想相关推荐

  1. 报名开始!第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖!

    为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...

  2. 三城演义!第二届中国移动“梧桐杯”大数据应用创新大赛复赛完美收官

    8月19日至26日,第二届中国移动"梧桐杯"大数据应用创新大赛暨大数据创客马拉松大赛的三场复赛路演暨颁奖典礼在杭州.武汉.广州三地成功举办.35支队伍在数智乡村.数智城市.数智交通 ...

  3. 【报名开始】第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖

    为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...

  4. 报名即将截止,中国移动“梧桐杯”大数据应用创新大赛,寻找大数据敢想者!...

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办方:中国移动信息技术中心 也许,你在大数据分析路上踽踽独行 来这里, ...

  5. 前海征信“好信杯”大数据算法竞赛 - HM队【附源码】 原创 2017-06-17 高铭 科赛Kesci 赛题回顾 自2006年Hinton等人提出“深度学习”概念至今,深度学习在海量数据的挖

    前海征信"好信杯"大数据算法竞赛 - H&M队[附源码] 原创 2017-06-17 高铭 科赛Kesci 赛题回顾 自2006年Hinton等人提出"深度学习& ...

  6. 报名即将截止,“梧桐杯”大数据应用创新大赛,邀你进入大数据先锋阵营

    大数据建模不是孤独寂寞的路,面对无数的数字,一定要有人作伴 大数据建模不是望不到头的路,步履坚实的历程,要用成绩来证明 大数据建模不是沉闷无声的路,凝结心血的方案,值得大声说出来 路上的人 或许在电脑 ...

  7. 前海征信“好信杯”大数据算法大赛——入门篇笔记

    ctr+4/5注释 数据下载地址 1.先导入包: import pandas as pd import numpy as np import seaborn as sns import matplot ...

  8. “联创黔线”杯大数据应用创新大赛

    文章目录 赛题介绍 代码 1 特征工程 1.1 正样本 1.2 负样本 2 建模 3 预测 3.1 测试集 4 提交结果 0 查看数据 0.1 训练数据 0.1.1 正样本 0.1.2 负样本 0.1 ...

  9. 2019“联想杯”全国高校大数据能力提升大赛开战啦!

    本竞赛是全国性质的大数据能力大赛,旨在促进高校大学生大数据技能.数据科学思维.实践能力和协作能力的培养.通过本次竞赛,逐步推动大数据相关专业的建设,为大数据产业发展提供人才支撑. 竞赛将于2019年5 ...

最新文章

  1. CentOS7.4-btrfs管理及使用
  2. linux下的软硬资源限制,关于ulimit命令修改软硬资源大小说明及正确修改软硬资源限制数配置...
  3. VMware View 5.0从菜鸟到高手系列 10 –远程图形工作站配置篇
  4. DOS下查看局域网的ip使用情况,以及ip对应的主机名
  5. Linux Cobbler自动部署装机
  6. 十多位全球技术专家,为你献上近十个小时的.Net微服务介绍
  7. java jlist checkbox_JCheckBox检查Java中的JList中的切换逻辑时遇到问题
  8. Git中的‘HEAD’是什么?- Git名词解释
  9. STM 事务 ACID
  10. Android四大组件——BroadcastReceiver详解
  11. 找一下不男不女 ?。。?
  12. 解决Android Studio的ADB连接不到手机问题
  13. Uncaught Error: Rendered fewer hooks than expected. This may be caused by an accidental early return
  14. 基于MIission planner的VTOL垂直起降固定翼航线设计方法
  15. Android animation呼吸动画 心形动画
  16. 强制IE使用兼容模式
  17. 【20181020T1】蛋糕
  18. 《世界因你而不同-李开复自传》读书笔记(2/3)
  19. Spring事务概述
  20. AspectJ in Action 第2版 中文目录

热门文章

  1. 数据挖掘算法之离散化和二元化
  2. 软件测试基础课程学习笔记5---软件缺陷概述
  3. php pcre回溯攻击,PHP利用PCRE回溯次数限制绕过某些安全限制 | 码农网
  4. Java基础之深入认识hashCode和equals
  5. dataframe修改数据_利用Python进行数据分析(语法篇)
  6. 【Flink】Flink SQL 报错 ClassCastException: VarCharType cannot be cast to RowType
  7. 【Elasticsearch】es 面试题 积累
  8. Spark Structured : java.lang.RuntimeException: Offsets committed out of order: 2 followed by 0
  9. 95-140-128-源码-transform-算子maxMin
  10. IntelliJ IDEA 配置Tomcat 运行Web项目