猫推荐算法大赛Top 9团队
http://www.csdn.net/article/2014-08-29/2821403-the-top-9-of-ali-bigdata-competition
2. 特征提取:提取的方式采用map-reduce编写的代码一次提取完成,避免频繁的使用SQL进行表连接。特征包括用户特征、品牌特征、用户-品牌特征和综合类特征。用户特征反应了用户的购买力和一些行为偏向;品牌特征反应了品牌的热门程度、周期性、季节性、购买趋势以及品牌整体的行为偏向;用户-品牌特征反应了用户对这个品牌喜爱程度、购买意向;复合类特征考虑了很多心理学和业务上的特点,建立行为转移、周期、偏好等复杂的特征。
3. 正负样本采样:所有的用户-品牌特征组中,在下一个月产生了购买的比例极小(1:300+),样本分布严重不均衡,因此对负样本进行了随机采样。不同模型的最佳采样比例会有区别,RF采样比在1:8左右,GBRT采样比在1:11~1:14左右。
4. 模型:最终采用的是GBRT模型,模型思想是Boosting,Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。
着重攻坚方向
在这次比赛中,花费时间最多的是特征的提取,考虑什么样的用户会购买,什么样的品牌会被购买,什么样的行为预示用户会购买一个品牌。
算法亮点
1. 数据预处理步骤填充了缺失的点击数据,并且填充的值是根据用户和品牌的历史行为进行填充,尽可能还原了真实的行为。
2. 由于本人是资深的网购爱好者,因此从自身的经验和用户心理出发,思考了一批结合业务的特征,包括行为转移、周期、偏好等。
CSDN:谈谈比赛感想。
Give:对研究数据挖掘、信息检索等领域的很多研究者来说,数据是非常珍贵的,但是对于还在高校的人,数据是很难获得的,现有的一些公开数据集,规模上一般也都比较小。阿里巴巴拥有海量商品、卖家、用户、交易、评价的数据,这些数据是很多从事数据挖掘方面研究者梦寐以求的。经历了几个月的比赛,不论是在学术研究水平上还是心理上都有了巨大的成长。天池平台给我们这些在校的学生提供了一个很好的机会去真正接触大数据,使得我们的研究思路能够在真实的数据中进行检验。这次比赛也让我懂得了在逆境中的坚持:当第一赛季眼看要进不了第二赛季的时候,我坚持了下来;在第二赛季成绩半个多月没有进展的时候,我也坚持了下来;在换数据集前还徘徊在10名之外,但是在最后7天,一个人熬夜奋战,又冲回到了前10。
CSDN:ODPS使用感受,优点及建议。
Give:优点:ODPS提供了丰富的机器学习算法,还有强大的计算能力。建议:(1)ODPS平台资源调度优化:小任务能保证在一定时间内可以分配到资源;大任务可以运行慢一些,但是保证不会报错中途停止;以团队为单位限制资源使用量。(2)错误提示信息可以更人性化。
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
本文导读
- 第1页:学生强则国强,访天猫推荐算法大赛Top 9团队
- 第2页:清水湾沙滩青年流浪者团队
- 第3页:Bazinga团队
- 第4页:Kevin团队
- 第5页:Tyche团队
- 第6页:数据心跳团队
- 第7页:Fly402团队
- 第8页:KLMJV团队
- 第9页:Marvel团队
- 顶
- 73
- 踩
- 4
- 相关文章
- 最新报道
- 腾讯李朝晖:不移动非互联,投资关注四大领域
- 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
- 2014 中国大数据技术大会将于12月中旬隆重召开
- AWS Elastic MapReduce开始支持Hive 13
- 【CTO俱乐部走进雅虎北京全球研发中心】活动图文实录
- 【问底】严澜:数据挖掘入门——分词
已有94条评论
还可以再输入500个字
-
laoda079欢迎您!
- 最新评论
- 最热评论
-
skran 2014-09-04 09:22不是说14个国家和地区吗,结果最后都是本国人
-
liufangmeng 2014-09-04 08:15怎么动不动就大数据啊,你it技术不就是解决数据的吗?
-
Cherish_ize 2014-09-03 09:48厉害啊~~
-
toxy66jun 2014-09-02 14:50膜拜啊
-
寸辰 2014-09-02 13:38忍不住吐槽两句,也就只有国人敢叫“大数据”,拿着数据挖掘的技术,去搞一些云里雾里华而不实的东西,说白了,还不如蓝翔高级技工学校挖掘机技术!
-
binouyang 2014-09-02 14:36难道大csdn也被蓝翔占领了?
-
benjust 2014-09-01 13:48大数据的真实应用啊!偶只能学习学习了
-
sql_juven 2014-09-01 09:21mark
-
suntsh 2014-09-01 08:49正帖子很火啊,有高手在吗,共同开发一个软件啊,加我qq吧:七九九六二二五九
-
zhiweitoushi 2014-08-31 22:45发表感想有积分吗
-
soton_dolphin 2014-08-31 21:261th, 2th, 3th... 应该是 1st, 2nd, 3rd,编辑的英文真是。。。
-
zclace 2014-08-31 15:02百分之60多的预测 相当于没预测 全失败的赶脚
-
silence1214 2014-08-31 12:31Logistic Regression 是逻辑回归,上面硬是写上 线性模型,逻辑回归怎么是线性模型呢
-
senduo 2014-08-31 11:46mark
-
九品仙 2014-08-31 11:27冲着标题前几个字说下.毕业后..你们面对的是小贩....算法...加减乘除用得好足矣... 什么强不强的....撤太远了....
-
普世编程技术 2014-08-31 05:39原来没看内容,刚才没事直接翻到第一名的看看。哈哈哈,看看人家美国大片,里面解决问题的时候,出现在第一线的永远都是心理学家、法律专家、社会学家等。我们这里,哈哈哈,什么推荐算法,明显是一个人的因素,而竟然在文章里出现一大批什么狗屁GBRT、RF、LR、神经网络算法。。。哈哈哈哈,程序员和算法,本来就应该像建筑工地的农民工和井底挖煤的工人一样,由人家搞心理学、传媒、广告、社会方面的专家指挥着,才可能开发出一个好的推荐算法。中国不仅仅在IT,技术,物理,材料方面落后欧美,更在心理学、传媒、广告、社会方面更加落后。5票 回复
-
qq_20241899 2014-08-30 23:33顶,下次有机会也参加...顶,下次有机会也参加...
-
SteveWorks 2014-08-30 17:33顶,下次有机会也参加...
-
qq_20229621 2014-08-30 16:34啦啦啦啦啦
-
健康快乐身体好 2014-08-30 12:41喷子好多,感觉自己很NB一样1票,来自健康快乐身体好 1票 回复
-
yangxuefeng09 2014-08-30 12:22都是牛人
-
ygtjcng1 2014-08-30 11:04不太懂这个东西,隔行如隔山啊。外行看着觉得很高深的东东。。。。。。。
-
普世编程技术 2014-08-30 11:03商品推荐,不需要算法,只需要心理学。比如一个人看了两样不同的商品:电冰箱和热水器,那么这个人可能是刚刚搬家、租房或者装修完,需要买所有的常用电器,那么也应该尝试给他推荐锅碗瓢盆等。如果一个人浏览的几样商品,都是性价比极高的,那么这个人可能很节俭,那就应该给他推荐其它性价比高。如果有个人浏览的是一些高端的,那就应该推荐高端的。这和你吗的算法和大数据有个屁关系啊,这是心理学、行为学、社会学方面。这和你吗的大数据有哥屁关系啊,大数据只是统计那个商品买的多,那个商品利润高,和你吗的用户意念能有什么关系?4票,来自Kong_David梅迎朝wushiheibing 更多 13票 回复
-
不败的拿破仑 2014-08-30 09:01虽然不太懂,但我理解的是 模型都是用现有的,就是特征靠自己用人脑来提取,用计算机优化。是这样吗?还有还是阿里巴巴厉害啊,如果真的效果有明显提升,直接可以拿来采用。再给学生团队几千几万的奖金。真是大赚特赚啊。特别是天猫淘宝这样需要大量数据分析的公司
-
beowulf2005 2014-08-30 12:00特征的提取也有专门算法。
-
gaucho114 2014-08-30 08:26真牛就自己弄个出来
-
jonathanwong 2014-08-30 00:59额。。。大数据预测的是趋势,而不是个体。。。2票,来自极情天jonathanwong 回复
-
普世编程技术 2014-08-29 22:36推荐还需要算法?不就是同一价位,同一种东西,不就行了嘛?本人有时候买了东西之后,结果广告上还显示那商品,老子都买了,难道还让我再买一个?有时候老子浏览了商品之后,发觉不合适,就不看了,结果那广告还是推荐那商品,老子已经否定,你他妈的再推荐老子也不买啊。什么狗屁推荐算法,都是自欺欺人的东西,说白了,没有任何推荐算法,最好的推荐方式,不是计算机算法,而是社会学,心理学。整你\妈\B的整天算法算法,好像显得多牛\逼似的。3票 回复
-
tacey_wong 2014-08-29 22:46好好说话,好好讨论
-
影轩老豆 2014-08-29 23:58请用计算机模拟社会学和心里学!
-
普世编程技术 2014-08-30 10:59回复@tacey_wong:对你这样的垃圾,还有资格要求好好说话?草他吗的,连基本基础知识都不懂,就他吗的开始鼓吹大数据。大数据你吗的是搞数据统计和分析的,不是搞行为预判的。大数据和你吗的商品推荐没有任何关系。基本概念都他吗的没弄清楚,干一点屁事,就赶紧粉饰成过牛逼的项目,就他吗往互联网、云计算、大数据上生搬硬套,就这几把水平,还“学生强则国强”呢,你吗的谁都当过学生,大家水平心里都有数,还上纲上线的,操!3票,来自nimade511chai25006019android无聊大神 12票 回复
-
zclace 2014-08-30 11:17我国还处于社会主义初期阶段
-
ice110956 2014-08-30 19:47回复@普世编程技术:我去,久仰已久你的大名,第一次靠的这么近。大家可以google下这个奇葩的所有言论,有惊喜。1票,来自ice110956 回复
-
zhongyu92 2014-08-30 22:55自己不行就说别人不行?自己不懂就说这玩意没用?1票,来自zhuanshen 回复
-
jasonchenee 2014-09-02 10:05话粗理不粗,确实用户需求的推荐方式,是你所说的那样的。
-
mogui369 2014-08-29 19:01都得名牌大学,都是硕士,博士。为毛都是中国的队伍,其他都是什么国家的?
-
攻城狮凌风 2014-08-29 18:52前50有成电的团队么,想学习下。
-
suntsh 2014-08-29 17:38这么牛啊,能帮我预测一下,小米下期的验证码是什么吗?历史数据如下:{"mod":"2695 乘以 1"}){"mod":"\"米兔有几只耳朵\" + \"每周二中午几点开始开放购买\" = "}){"mod":"\"每周二中午几点开始开放购买\" + \"今天是星期几\" = ?"}){"Q":"下列数字中最大的数字是什么?","D":"39 , 11 , 14 , 64 , 61"}){"Q":"下列数字中最大的数字 + 最小的数字 =","D":"30 , 29 , 30 , 20 , 10"}){"Q":"下列数字中最小的两个数字相加 = ?","D":"42 , 17 , 49 , 29 , 41"}){"Q":"请输入下列算式计算结果","D":"95 + 66"}){"Q":"请输入下列第二组算式计算结果","D":"37 + 27 = ? 18 + 4 = ?"}){"Q":"下面的单词共有几个字母?","D":"rule"})csdn的各位高手,如果能解决此验证码问题的,欢迎联系我,我的qq是79962259,重金酬谢啊2票,来自loveit111borland109 回复
-
eaststone_l 2014-08-29 17:04mark,前十的方法我都想了解了解,我队最后F1只有5.3%,与他们差远了啊,只排到了130名。PS:LS们的评论感觉与这文章不相关啊?2票,来自feic6666Mooker_Lee 1票 回复
-
跑ing 2014-08-31 20:34请问5.3%是代表什么呢1票 回复
-
lkxtracy 2014-08-29 17:01除了标题和参赛者的名字,我什么都没看懂
-
fkyhsb 2014-08-29 16:54博士毕业的小王同学,来到一家大超市工作,向老板拍胸脯说,我可以用先进的数据挖掘技术预测客户购买商品,小王花了无数个昼夜,加班工作,收集了上千个客户数据特征,又运用了逻辑回归随机森林等等复杂的算法模型,再经过几天几夜的训练计算,最后收敛得到一串小数,小王兴奋喊到:i got it!并将自己喜欢的一位女生客户的数据输入模型,然后再次兴奋的喊到:她是会买的!第二天一早,小王在超市里等到女生出现,拦出她,得意的说:你是要买**商品,对不对。女生吃惊半天,说一句:有病!就走了。小王满脸疑惑,不对啊,回去又继续检查了一番算法,是不是过拟合问题,是不是噪音问题,最后确定算法没错。于是第二天继续守候...3票,来自skuld2009wiige_seekerMcVilla 4票 回复
-
shg_shg 2014-08-29 16:35mark
-
mingxingxinxing 2014-08-29 16:02这样的赛事很值得期待
-
zhlvgj 2014-08-29 15:46不错的说,训练优化的说。
-
madao_00191980 2014-08-29 15:33挺厉害的 good
-
zhangrual 2014-08-29 13:43you can you up,no can no bi bi.
-
beowulf2005 2014-08-29 13:17大谬不然。20年来,IOI中国队战绩,年年金牌。有用吗?!1票,来自qq_17248619 1票 回复
-
LoveKobe_ 2014-08-29 17:04有用,人家现在年薪几十万,百万,国外,至少不是码农1票,来自YouCompleteMe 1票 回复
-
beowulf2005 2014-08-30 11:57回复@LoveKobe_:对不起。到目前为止,我还没有见到这些中国IOI的冠军们,对中国的软件行业或是计算机科研领域有任何杰出贡献。正经念过大学的人,年薪几十万百万算是一件很难的事吗???1票,来自不败的拿破仑 回复
-
心如刀割 2014-08-29 12:47什么玩意,没点实际用处,到处骗经费5票 回复
-
ice110956 2014-08-29 13:50md,阿里自己出的钱办的比赛,亲身经历的人都能感受到前十深厚的算法功底。你们这些弱智哪里来的自信??3票,来自u010138467YouCompleteMeporozhouhang 3票 回复
-
ice110956 2014-08-29 16:59回复@ice110956:说的气话,不要踩我~。~1票,来自u010540025 回复
-
tacey_wong 2014-08-29 22:45这是阿里自己出钱办的。。。
-
microzhe 2014-08-30 16:27到不是骗经费,而是阿里通过这个花费不多的活动来找到合适自己的人才。1票,来自不败的拿破仑 回复
-
gelei007 2014-08-29 11:30除了标题和参赛者的名字,我什么都没看懂
-
calahamidahh 2014-08-29 11:18成败都在特征提取啊
-
yueyuexiong 2014-08-29 10:34额,挺厉害的
-
普世编程技术 2014-08-29 10:30任何比赛,都是学生拿奖多,工作的人几乎很少有拿奖的。原因大家都懂得。1票,来自chensy2012 3票 回复
-
卧_槽 2014-08-29 11:52回复@yangyun:没参加工作就开始喷粪,从没研究过。
-
driverin 2014-08-29 14:43回复@卧_槽:小号亮了1票,来自driverin 回复
-
univmercury 2014-08-31 11:50这样的比赛都要长时间的投入,往往到最后就是比谁能够坚持下来。一般来说,学生时代是最有时间的,而且做东西没有其它干扰,能够全心投入。而工作后很少有这样的大把时间和安静的环境。而且,很多比赛仅限于在校生参加,所以看到的大部分是学生。当然,学生时代也是最具有创新性的时代,所谓初生牛犊不怕虎,什么都敢干,出成绩是自然而然的事情。1票,来自caimo 回复
-
back_ystone 2014-08-29 10:30mark
-
阳泉酒家小当家 2014-08-29 10:08最后要达到的就是通过过去,预测未来,这个对群体是有帮助的,但对于具体到某个个体,就不一定准确了
-
天煞狼 2014-08-29 10:07很棒啊!!
-
阳泉酒家小当家 2014-08-29 10:07其实说白了,就是用已有的算法,来建立模型,然后不断的迭代,进行训练,让以后的预测结果更加接近真实的这么一个过程。这个过程本身并不难理解。
-
s1257178372 2014-08-29 09:35mark
-
aaa3096 2014-08-29 09:31人跟人真是有差距
-
klzs1 2014-08-29 09:22马克
- ·自觉遵守:爱国、守法、自律、真实、文明的原则
- ·尊重网上道德,遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规
- ·严禁发表危害国家安全,破坏民族团结、国家宗教政策和社会稳定,含侮辱、诽谤、教唆、淫秽等内容的作品
- ·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
- ·您在CSDN新闻评论发表的作品,CSDN有权在网站内保留、转载、引用或者删除
- ·参与本评论即表明您已经阅读并接受上述条款
- CSDN官方微信
- 扫描二维码,向CSDN吐槽
- 微信号:CSDNnews
微博关注
相关热门文章
- 排名前十的SQL和NoSQL数据库
- R语言知识体系概览
- 【问底】严澜:数据挖掘入门——分词
- 【云先锋】数云:另类淘宝创业,瞄准背后百万卖家的数据挖掘
- 【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活
- 避免关注底层硬件,Nvidia将机器学习与GPU绑定
- 盘点MIT Demo Day上4个最有前途的创业点子
- 能准确“猜透”玩家心理,深度学习让游戏更智能
- 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
- 系统防护+DB安全+0Day+反漏洞挖掘,初窥ISC 2014互联网攻防(免费门票)
热门标签
- Hadoop
- AWS
- 移动游戏
- Java
- Android
- iOS
- Swift
- 智能硬件
- Docker
- OpenStack
- VPN
- Spark
- ERP
- IE10
- Eclipse
- CRM
- JavaScript
- 数据库
- Ubuntu
- NFC
- WAP
CSDN Share PPT下载
- GlusterFS模式及功能介绍
- 嵌入式华清远见
- Openvswtich实验教程
- Oracle工具orachk使用说明
猫推荐算法大赛Top 9团队相关推荐
- 阿里天池大数据之移动推荐算法大赛总结及代码全公布
移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展 ...
- 推荐算法竞赛TOP方案合集
作 者:九羽 公众号:炼丹笔记 推荐算法竞赛相关 会议赛 (一)2020 ACM Twitter RecSys Challenge 问题背景: Twitter上呈现的是正在发生的事情,也是人们现在谈论 ...
- 2015阿里移动推荐算法大赛总结
赛题 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用 ...
- 天池新人实战赛——阿里移动推荐算法大赛(离线赛与平台赛)
竞赛题目 (离线赛与平台赛题目一样,只是数据量不一样,离线2000w+数据,平台11亿+数据) 在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型.在完成这件任务的过程中,我们不仅 ...
- 阿里的推荐算法竞赛的宣传稿写得很不错,很生动,吸引眼球
阿里的推荐算法竞赛的宣传稿写得很不错,很生动,吸引眼球.贴在这里,以后可以借鉴 ------------------------------------------------------------ ...
- 微信视频号推荐算法上分技巧
躺平了一段时间之后,排行榜已经发生了翻天覆地的变化,emmm....不由的佩服年轻人的精力,作为老年选手,只能使用大局观了(此处内涵一下我大酒神,手动狗头).好久没写文章了,本文拿出 炼丹笔记 里的一 ...
- 计算机十大算法应用 知乎,2019 智源·知乎看山杯算法大赛收官:7 支团队脱颖而出,单人队荣摘桂冠!...
雷锋网 AI 开发者按:1 月 10 日,北京智源人工智能研究院联合知乎.数据评测平台 biendata 举办的「2019 智源·知乎看山杯专家发现算法大赛」正式收官. 大赛颁奖仪式暨算法交流会在清华 ...
- 适合小团队作战,奖金+招聘绿色通道,这一届算法大赛关注下?
大赛背景 伴随着5G.物联网与大数据形成的后互联网格局的逐步形成,日益多样化的用户触点.庞杂的行为数据和沉重的业务体量也给我们的数据资产管理带来了不容忽视的挑战. 为了建立更加精准的数据挖掘形式和更加 ...
- 【专访】首届腾讯社交广告“高校算法大赛”落幕 冠亚季军团队参赛心得精彩分享
导言: 7月6日,首届腾讯社交广告"高校算法大赛"正式落幕.在众多参赛团队中,来自南京大学的三人组合"nju_newbie"一举夺得决赛冠军,将30万元奖金收入 ...
最新文章
- Entity Framework:Code-First Tutorial开篇
- “芯痛”之下阿里苦心研发NPU AI芯片究竟哪款PU更厉害?
- Linux不停往外发包
- linux异常关机内存,linux关机及问题解决
- FaceShifter:北大微软新方法让换脸更惊艳
- 呕心之作:支付宝的手机网站支付接口的应用
- nginx https 配置
- Android开发环境搭建(Android Studio安装)
- 如何搭建 MTK 6577模拟器
- python 二项分布_如何理解python中的二项分布?
- 性能优化,进无止境---CPU篇
- 号称超越ETH、吊打EOS,技术流IOST的底气到底在哪里?
- 技术党求生骚操作!手把手教你做一只口红色号识别器!
- 今天开始学Java log2N的表示
- 工厂模式(简单工厂,工厂方法,抽象工厂)
- 【Linux修炼】6.gcc/g++及Makefile【工具篇】
- 机器学习:模型评价指标总结
- 51单片机10S秒表功能
- PAC文件解释-转载 小胡子哥的个人网站
- 如何获得海量的RoboCode代码
热门文章
- Ubuntu/Jetson Nano问题解决“Illegal instruction(core dumped)”
- C++实验3-税收计算
- 超越源域的攻击:面向黑盒域制作对抗样本
- 4g+uim卡是什么卡_你知道SIM卡是什么吗?
- QQ聊天记录备份助手 v1.0——搜索、备份、恢复QQ聊天记录文件,重装系统必备...
- k线图的分析小技巧以及买入卖出信号
- python获取word页数_使用Python的word文档的页数(Number of pages of a word document with Python)...
- hadoop2.x学习01
- 电脑笑脸蓝屏问题 也许你可以尝试一下这个
- 基于百度地图实现Android定位功能实现(详解+教程)