给的数据集有4部分

达人搭配组合

商品信息

购买记录

线上测试集

在第一赛季中的思路和阿里星小江分享的差不多

http://datartist.cn/?p=5

第二赛季自己实力不够,思路陷入迷信模型中,导致被干出了前10

那么我就来讲讲12名的思路吧

首先根据达人搭配提取出类别搭配对,一共2600+

然后把历史记录按同一个人同一个月购买的数据传入MR,得到搭配对,然后统计次数,去掉类别不搭配的商品对,这个结果线上2.72

然后是模型的一部分

刚开始模型选取的预测样本是预测集搭配类相似度top400

然后把达人搭配弄成两两搭配,有210W+

这些全部作为模型的正样本

负样本也全部使用达人搭配里面的商品,取类别搭配的商品对,随机采样和正样本1:5

这样得到的结果,把历史记录放前面,模型结果放后面大概是6.09

后来意识到预测样本召回太小了,于是通过关系网络又构建了一大波预测样本。

商品对之间的关系可以分为三种,达人搭配,相似,同时购买。

于是通过这三种关系互相传递得到10几份样本,再加进去用模型预测,最后结果在6.32

后面通过简单3:1的比例穿插融合历史记录和模型结果得到6.45

模型特征有51个:两个商品的销量,两个商品在每个月的向量在商品本身的占比26个,每个月销量占比向量的相似度,商品文本的TFIDF余弦相似度,还有其他各种加权相似度15个,类别权重cat_1,cat_2,weight,词权重权重cat_1,cat_2,term_1,term_2,weight.这两个提分还是挺大的。类别权重就是类别搭配对在达人搭配中的次数除以cat_1的次数,词权重思路也是差不多,但是词权重的代码不太好写。我写完之后过几天自己都看不懂了。。。

最后天我添加了一个特征,搭配商品在达人搭配中出现的次数,导致线上成绩5.5。。。。。我觉得有可能是我代码写错了,线下测试明明是提升很多的

这比赛跪掉的原因总结如下:迷信模型,没有充分考虑到传递搭配的权重问题,如果把传递的一些特征添加到模型中或许也有提升。

也没有充分融合各部分的结果,把不同样本放到同一个模型中预测不太靠谱,要么加上代表这类样本的特征,要么直接用权重来融合每一部分的结果

这样才能体现出商品对的权重信息,因为商品对可能出现在不同样本集中,这代表了不同的传递的信息量的融合。

下面这段模型融合的代码中,我是直接取的商品对的得分最大值,应该加权的.听说前面那些7,8分的都没用模型,直接按权重相加,顿时就给大神们跪了。

create table result1208 as
select item_1 as item_id,item_2 as sim_item,prediction_score as sim,rank
from(
select item_1,item_2,prediction_score,row_number() over(partition by item_1 order by prediction_score desc) as rank
from(
select item_1,item_2,max(prediction_score) as prediction_score from(
select * from result_match_sim
union all select * from result_cb
union all select * from result_cd
union all select * from result_ce
union all select * from result_cf
union all select * from result_cg
union all select * from result_ch
union all select * from result_ci
union all select * from result_cj
union all select * from result_ck
union all select * from result_cm
union all select * from result_cn
union all select * from result_co
union all select * from result_cp
)a group by item_1,item_2,prediction_score
)a)a where rank<=200;

至于图像方面,得到的特征太长了,算的时候比较浪费资源,而且一算就是一天,就没有用。

后面朋友告诉我可以用来算搭配类的相似度,把得到的结果前面几个放到提交结果的前面会有很大提升。

最后依依不舍的去平台数了下代码,有4800行SQL,MR大概有个千行吧

比赛结束后,最大的感触就是,还是自己太菜

【天池竞赛系列】淘宝穿衣搭配算法第二赛季12名思路相关推荐

  1. 淘宝穿衣搭配算法大赛有感

    去年阿里天池大赛年度答辩在美丽的华工举办,五组选手的精彩答辩为我们提供了一场知识的盛宴,评委大多数都是阿里的资深工作人员,所以他们的提问也很细致.阿里举办的这种比赛意义还是挺大的,既可以解决自己的存在 ...

  2. 淘宝穿衣搭配算法_赛制描述

    关于用户历史购买数据:举个简单例子可能会存在用户买了上装A后又买了与之搭配的下装B,配饰C等等. 关于terms:淘宝的商品标题大部分为有规律性的,其中可能会包含风格,款式等信息. 1:最终需要预测的 ...

  3. 淘宝穿衣搭配算法_方案三

    ReplaceItem1.java将原先的matchsets中的产品替换为它的分词结果,分词结果以空格隔开,产品与产品间用逗号隔开,输出结果ToTerms1.txt.为了之后比较每个产品与预测产品的相 ...

  4. 淘宝穿衣搭配算法_方案一

    ToCats.txt-,将预测的item由id变成它对应的类别 ToCatwithTime.txt是将dim_fashion_matchsets中各搭配的item由id变为dim_items.txt中 ...

  5. 天池竞赛-淘宝穿衣搭配(数据预处理部分)

    赛题简介 淘宝网是中国深受欢迎的网购零售平台,其中服饰鞋包行业占据市场的绝大部分份额,围绕着淘宝诞生了一大批优秀的服饰鞋包导购类的产品.穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术.算法能 ...

  6. 【天池竞赛系列】阿里移动推荐算法思路解析

    赛题地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1 登录就可以下载数据 从4月到7月,学习了非常多也收获了非常多 题 ...

  7. [天池竞赛系列] 历届天池竞赛答辩PPT和视频

    1.阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2.资金流入流出预测: 答辩视频:https://space.dingtalk.com ...

  8. 浅谈淘宝搜索排序算法【转自淘宝搜索博客】

    浅谈淘宝搜索排序算法 作者:鬼脚七     前言:        目前网上有很多介绍淘宝搜索排序的文章,大多是淘宝卖家们根据自己经验摸索整理出来的,里面提到的很多办法也很正确.只是搜索排序算法不是固定 ...

  9. 【淘宝SEO】官方淘宝搜索排序算法浅析(鬼脚七)

    浅谈淘宝搜索排序算法 作者:鬼脚七(淘宝搜索技术团队负责人) 前言: 目前网上有很多介绍淘宝搜索排序的文章,大多是淘宝卖家们根据自己经验摸索整理出来的,里面提到的很多办法也很正确.只是搜索排序算法不是 ...

最新文章

  1. fegin调用为什么要序列化_全方位解析Java的序列化
  2. 网络安全模型_基于TCM的网络安全访问模型
  3. 2019年集五福本周五上线!四种玩法你都会了吗?
  4. VC获取其他进程ListCtrl内容
  5. javax.websocket.DeploymentException: The path [webScoketServiceBaidu/{appID}] is not valid.
  6. 十进制整数(包括负数)和二进制的转换
  7. modem建链过程详述
  8. mysql日期纬度表_mysql中生成时间维度表
  9. 游戏编辑器研发第一天,对比思考确定底层技术和从0开发场景编辑器原因
  10. 学会对VUE的SEO优化,你的网站总是排在前面
  11. kata-container初探
  12. 前端项目使用阿里巴巴icon font的具体过程
  13. 图解 生成对抗网络GAN 原理 超详解
  14. MD5加密算法的原理和应用
  15. 微信按钮翻译中英对照表
  16. QT开发的pdf阅读器资料
  17. 记一次使用Cobar踩到的坑
  18. 1 最新最全新东方考研英语笔记
  19. Eclipse配置黑色酷炫主题
  20. 帆软FineReport本地部署springboot

热门文章

  1. Java实现 LeetCode 63 不同路径 II(二)
  2. JavaWeb学习之HttpServletRequest
  3. SSL警告是什么意思?
  4. “内容为王”永不过时
  5. Python数据分析复习整理(numpy)
  6. 借助智慧数字经营怎么进行营销推广?
  7. 数据结构第二版(朱昌杰版)补第一章习题答案
  8. drupal安装教程mysql_Drupal(一)下载与安装
  9. 基于Java毕业设计租车管理系统源码+系统+mysql+lw文档+部署软件
  10. Android开发五年,分享一些行业经验