动机

去年在同学推荐下参加了阿里的“资金流入流出预测大赛”,当时对数据挖掘的了解仅存在模糊的概念上,看了那本《大数据时代》后热血沸腾了几天,趁着这三分钟热度还没冷,就在什么都不懂的情况下报名开始搞了。我们三个队员都是新手,刚开始一片茫然后来是手忙脚乱。第一赛季在本地调试算法,期间换了Python,R,MATLAB各种平台和开发环境,倒腾了一个多月,幸运地进入了第二赛季。第二赛季在线上比赛,阿里要求利用ODPS的Map&Reduce、SQL及各种平台集成的机器学习算法包调试模型,从熟悉平台到开始编写,调试代码,我们每晚都忙到晚上12点,看完排名(零点十分左右公布最新排名)才睡觉,排名落后了郁闷睡不着,进步了激动睡不着。这期间也走了不少弯路,虽然不少想法都没能实现,最终还是非常幸运的获得了极客奖。两个半月的努力让我真正认识了实际项目中数据挖掘的流程和存在的问题,拓展了视野。今年看到类似的比赛,就抓紧组队报了名,准备边做比赛边写博客。在记录比赛历程的同时又能和许多牛人交流学习,也是怕自己坚持不下去,先为自己加油。

比赛介绍

下面贴一下官方介绍: 
本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛队伍通过对阿里音乐平台上每个时间段内艺人的试听量进行预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。大赛将开放一定规模的抽样歌曲艺人数据以及与这些艺人相关的用户行为,参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照规定的评价指标使用在线评测程序进行评阅和排名,结果最优者获胜。

参赛对象:

本次大赛面向全社会开放,高等院校、科研单位、互联网企业、创客团队等人员均可报名参赛。参赛队伍可以单人参赛或自由组队(最多不超过3人,可以跨单位组队)。

时间节点

第一赛季(5月17日—6月14日) 
平台赋权(6月14日—6月16日) 
第二赛季(6月17日—7月15日) 
决赛(8月下旬)

赛题数据

具体的赛题和数据注册后可以下载数据, 大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150830)的用户行为历史记录。
给出的两个表格我加入了自己的备注 


最后选手需要提交的表格如下 

具体的评估指标在官网上都有详细介绍。

疑问解答

一些选手研究了数据后发现了不少问题,也产生了不少疑问,这在官方FAQ里有解答。 
我选择了部分FAQ里内容和论坛里大家关注的问题copy到这里:

Q: 发布日期20160207,为什么2015年会有播放记录? 
A: 发布时间是整张专辑发布才算,有些歌曲先前已经存在,所以系统中存在少量歌曲试听时间会先于发布时间。有的是先发的单曲,然后后面整专辑的时候把单曲收录了。

Q: 如果用户下载歌曲后,离线在本地播放,还会产生记录么? 
A: 离线播放也会有播放记录。

Q: 预测的是daily plays,也就是说不包括downloads和collects? 
A: 最后预测的是所有用户60天里每天的播放量, 预测艺人下面所有歌曲的播放数的和。

Q:请问后面预测时间段艺人可能会发布新的歌曲吗?以及预测时间是否可能会新增用户? 
是有可能有新用户和新歌曲的。 
A:参见比赛详情页的这个FAQ:

  • Q:要预测的艺人当天的播放数据是基于user表中已有用户的播放,还是预测网站中所有用户的播放? 
    A:需要预测网站中所有用户的播放。注:初赛中是针对用户做了一次随机抽样,后续的真实结果也做了处理。

所以原则上,只需要根据已有的用户规模做合理预测即可。

Q:新用户我们可以预测, 新歌曲不具有普遍性吧 ?一个歌手发歌可不是那么随意的呢。也没任何规律可循啊? 
A:你这个问题问的很好,这也是大家各自展示数据分析和预测策略的地方,还有如何在不可预测的时候尽量地做得更好。

Q:艺人歌曲数据是否包含了某个艺人所有曾经发布的歌曲?还是只包含这6个月中有行为的歌曲? 
A:我们将没有行为的歌曲过滤了。所以是的,我们提供的歌曲不一定是艺人的全部歌曲,而是有六个月中有行为的歌曲列表。

交流渠道

在这么发达的社交化环境里,肯定会有很多交流方式啦 
1.官方论坛 
游客可以浏览,需要注册才能提问,会有阿里的师兄师姐们(主要是师兄哈)回答。 
2.阿里旺旺官方交流群 
群号:1270938233 
3、其他待开发方式

阿里音乐流行趋势预测大赛一起做-(1)介绍相关推荐

  1. 阿里音乐流行趋势预测大赛一起做-(3)思路

    最近几个月忙着写论文,比赛给抛到脑后了(汗颜..).昨天阿里给了短信通知,说今天可以提交成绩了,于是抓紧搞起,结果也没赶上截止时间(早上10点)提交.无论如何今天也要提交一次成绩试试水.比赛的详细思路 ...

  2. 阿里音乐流行趋势预测大赛一起做-(6)小结

    最近一直在忙毕业的事情,比赛也落下不少.今天第一次切换了数据,在此对之前的工作做个简单的总结.感谢组委会岱月邀请我写自己的参赛经历,<天池小白成长记>在阿里的"天池大数据科研平台 ...

  3. 天池_阿里音乐流行趋势预测大赛(1) —— 赛题分析

    本文以天池大数据竞赛的阿里音乐流行趋势预测大赛为背景,将机器学习实战的背景.模型.算法.代码和结果等都整理下来,放在博客中,算是对自己知识的整理吧,有兴趣的朋友也可以看看一起讨论学习. 由于很多比赛和 ...

  4. 天池阿里音乐流行趋势预测大赛--复赛

    天池阿里音乐流行趋势预测大赛–复赛 ☛想要干货直接忽略这部分☚ 话说初赛我们三个人,最好的成绩也就做到了200名,当时真的不打算搞了,但是命运就是这么喜欢捉弄人,第二赛季一换数据,就到了第二名, 一看 ...

  5. 阿里音乐流行趋势预测-代码分享

    向AI转型的程序员都关注了这个号

  6. D1-阿里音乐流行趋势预测竞赛数据清洗整合——纯python

    赛题和数据 经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听.收藏等行为.在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作 ...

  7. 网易云音乐与阿里音乐牵手!后版权时代,在线音乐拼什么?

    在与TME(腾讯音乐娱乐集团)达成版权互相授权合作.拿下华研国际的全曲库授权后,今天网易云音乐在版权合作上再下一城. 网易云音乐与阿里音乐共同对外宣布,双方达成音乐版权互相转授权的合作.网易云音乐将天 ...

  8. 力挺2007年国内原创音乐届最权威大赛!

    力挺2007年国内原创音乐届最权威大赛!<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office ...

  9. 阿里音乐打算用大数据发掘下一个TFboys

    大数据时代,音乐界正迎来一场革命:下一首歌流行什么,听众说了算.昨天,记者从阿里音乐得到证实,阿里音乐正在开展一项尝试:将阿里音乐平台上的用户行为数据与社交网络数据.新闻资讯数据等结合,借助阿里云&q ...

最新文章

  1. Python使用matplotlib可视化多分类变量组合下分组小提琴图、使用seaborn中的catplot函数可视化多分类变量组合下分组小提琴图(Categorical Plots)
  2. CVPR2017-最新目标检测相关
  3. ectouch java_ectouch第七讲 之ECshop模板机制整理
  4. 每日一博 - 如何理解跳表(SkipList)
  5. C#实现缩放和剪裁图片的方法示例
  6. 升级到AKU3.3 v1.1,感受智能手机的VGA模式
  7. (91)多人投票器(五人投票器)
  8. (67)Verilog HDL模块条件例化
  9. Windows10通过VNC远程连接Ubuntu18.04
  10. python类中导入库_python导入库的具体方法
  11. 如何实现ArcSDE的集群功能
  12. python截图搜题_新手篇之实现Python自动搜题
  13. HIVE Sql 笛卡尔积关联导致查询过慢问题优化
  14. IBM人工智能进入法律行业:推世界首位AI律师ROSS
  15. 米家1代电动牙刷 更换电池
  16. python描述对象静态特性的数据为_The couple wanted to adopt the black boy they had been _______._学小易找答案...
  17. js eq()选择器的使用
  18. 物联网卡无法激活使用的原因
  19. 贝塞尔曲线是什么?如何用 Canvas 绘制三阶贝塞尔曲线?
  20. 谢启鸿老师思考题及解答合集

热门文章

  1. Vscode java 环境搭建及使用技巧
  2. python 将内容写入表格 xlsx openpyxl使用笔记
  3. CentOS7(Linux)详细安装教程(图文详解)
  4. Java刺客信条回复生命_《刺客信条:英灵殿》回复生命值方法
  5. mac上免费的远程桌面工具:VNC Viewer for Mac
  6. 服务器维护王者荣耀8月4日,王者荣耀8月4日更新阿古朵上线正式服,谁说萌妹子不喜欢玩坦克?...
  7. 2020大学生网络知识大赛总决赛个人12——18急救包(最后还是肝完了,累~)
  8. Linux下的IO port, IO mem, IO space, Mem space及访问方式
  9. T8服务器怎么重装系统,美图 T8手机如何重装系统、手机系统怎样重装?
  10. 市场格局进入重构期,ESP频繁「召回」,中国供应商「乘势而上」