第一章:商品画像体系
1.1 什么是商品画像体系
商品画像可以简单理解成是海量数据的标签,根据商品不同属性的差异,将它们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名称、价格、类别等描述。

1.2 商品画像体系的数据来源
平台数据来源以亚马逊为例


“dress”相关商品除了曝光页,还有曝光商品数量,商品曝光详细信息,商品详情页数据包括变体数量信息,商品价格段位,商品排名信息,商品详情页,网址中的商品ASIN信息,五点描述与review文本信息,Q&A文本信息和A+图文宣传信息。

使用第三方数据工具获取商品画像数据(www.helium10.com)

1.3 商品画像体系的应用

进行数据筛选,有效清洗

结论:这个图可以得知大部分人在干啥,曝光价格并没有像之前所想,便宜的价格很多,而是价格在中间居多,14-35美元左右。

结论:趋势分析一般用累计平均数表示,这个图可以得知干得好的人在干啥,在搜索排序1-310,累计平均数30美元左右,卖得好的商品不会特别便宜,也不会特别贵,综合第一张图可以得出排名前300的商品价格在20-30美元,说明最佳的曝光价格在20-30美元。

结论:这个图可以得知0-0.1指很多都是新链接,0.9-1,1.4-1.5,1.9-2指商品出单,有差评,逐渐呈现正态分布,3.9-4最多,4分以上慢慢减少,4.9-5有刷评加刷单。

结论:这个图可以得知,review数量前面多,后面少,随着排序越来越多,数量越来越少。

结论:这个图可以得知,平均分布意味着标品,review数量与搜索排序没有什么关系,标品一般指带着强烈的目的进行购买比如电脑,五金制品等。

结论:这个图可以得知,前面是刷评加刷单,波动非常剧烈,后面逐渐稳定下来,后面一般是销量很大,稳扎稳打上去的评分。

结论:对“Clothing, Shoes & Jewelry”列数据取对数,这个图可以得知,一般ln可以做回归,更好的代表其趋势,排名越小,销量越好,大部分的ln值在14-15之间,意味着排名在3269017左右,如果在ln值10以内就是在22026,这是属于排名不错。


结论:这个图可以得知,在top100和所有排名对比dress,women’s占据的比例更小,说明在前100卖得好的里面卖家更擅长编写这个标题,更具有技巧性,同时他们不会出现with这个废词。但是出现sleeveless这个新词,这很可能是将来的服装的一种趋势。

第二章:购物篮分析与产品定位分析
2.1什么是产品关联度分析
关联分析是发现交易数据库中不同商品(项)之间的联系,主要应用于电商网站推荐、线下零售门店商品摆放等场景中。
关联规则:
支持度(support):数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了A和B的次数是50次,那么此关联的支持度为5%。
置信度(Confidence):在数据集中已经出现A时,B发生的概率,置信度的计算公式是 :A与B同时出现的概率/A出现的概率。
提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比(置信度/无条件概率)。一般而言,提升度如果小于1,则该推荐规则不应该被使用。

2.2 什么是购物篮分析
业界一般将单个客户一次购买商品的总和称为一个购物篮,购物篮分析就是针对商品的相关性分析。因为最初这种关联分析主要是在超市应用广泛,所以也称为“购物篮分析”。
购物篮分析要点包括找到正确的物品组合,找到用户对应不同组合的购买时间,找到用户对应不同组合的购买顺序。

Apriori算法(先验算法)

Apriori是先验算法,假设子集S出现了k次,那么任何包含S的其它子集只会小于或等于k次. 反之如果S不满足最小的支持度,则任何包含S的子集也不会满足,这时包含S的子集就可以忽略计算了。



2.3 购物篮分析的应用

先输入商品零售数据,Apriori算法处理,是否满足条件:支持度≥最小支持度,置信度≥最小置信度(案例中最小支持度为0.02,最小置信度为0.35),输出关联规则,程序运行结束。

结论:这个图可以得知,比如,根茎类蔬菜到其他蔬菜,支持度0.04,置信度0.43,提升度2.24,说明用户大部分买了根茎类蔬菜还会买点别的蔬菜,酸牛奶到其他蔬菜,支持度0.028,置信度0.4,提升度2.24,说明用户买了酸牛奶一般会买其他蔬菜,按照常识推理,酸牛奶放在冷柜里面,蔬菜一般与冷柜挨着,所以这是符合用户行为逻辑。购买一种商品的顾客占全部顾客的比率,反映的是全品类的关联能力。行业参考值为40%,该值越小越好,越小说明关联能力越强。

2.4 产品定位分析
一般参考波士顿矩阵或者叫四象限分析法。

数据分析项目实战项目五:商品画像与产品关联分析体系实战相关推荐

  1. mysql颠覆实战笔记(五)--商品系统设计(二):定时更新商品总点击量

    继续回到沈老师的MYSQL颠覆实战,首先回顾下上一节课的内容,请大家会看下上节课写的存储过程. 打开prod_clicklog表, 我们只要把日期(不含时分秒)的部分存在数据库中, 如果同一日期有相同 ...

  2. 《深入理解JVM.2nd》笔记(五):调优案例分析与实战

    文章目录 概念 案例分析 高性能硬件上的程序部署策略 情景再现1 问题分析1 关于Full GC 使用64位JDK来管理大内存可能遇到问题 建立逻辑集群 使用逻辑集群可能遇到的问题 最后解决方案 集群 ...

  3. 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)

    文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...

  4. 【算法竞赛学习】数据分析达人赛2:产品关联分析

    赛题背景 赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则.通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适 ...

  5. GWAS | 全基因组关联分析 | PLINK | 实战 | 统计遗传学

    参考:PLINK | File format reference vcftools plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多 ...

  6. Dust3D项目实训五 | 基于modeloffscreenrender的画面渲染分析

    2021SC@SDUSC 目录 分析概括 模块功能 ​ 类函数基础 QSize类 QImage类 ModelOffscreenRender.h分析 ModelOffscreenRender.cpp R ...

  7. 毕业设计 商品推荐算法之关联分析

    文章目录 0 前言 数据说明 问题描述 购物篮简介 关联规则 关联规则Python代码 导入基本包 数据概览 探索性数据分析EDA 使用Apriori算法求解关联规则 筛选互补品和互斥品 1.获得最高 ...

  8. SPSS Modeler——超市商品购买关联分析

    更新于2022-12-13 感谢各位抬爱,已经收到太多的评论和私信要数据的,我把下载链接放在文首,请大家自取.非常抱歉没能给大家一一回复. 数据源(免费下载)https://download.csdn ...

  9. 【关联分析实战篇】为什么 BI 软件都搞不定关联分析

    文章目录 做不好关联分析的原因 在数据模型层面解决关联 给业务人员看的懂的数据结构 多级关联表 自关联表 互关联表 重复关联表 结语 润乾报表资料 事物都是普遍联系的,很难有一个独立的事物不和其它发生 ...

最新文章

  1. 内存映射文件(File Mapping)API
  2. CTFshow 命令执行 web75
  3. linux闲话FHS标准下linux目录结构
  4. DOM编程以及domReady加载的几种方式
  5. redis 了 什么地方用到_细节拉满!美团首推“百万级”Redis进阶笔记究竟有什么魅力...
  6. java-通过JDBC操作数据库
  7. 批量拷贝文件到服务器,Syncovery(数据备份工具)如何在windows下远程访问服务器批量拷贝文件?Syncovery图文教...
  8. 运行hadoop指令之——WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform....
  9. c++程序设计原理与实践 第二十四章部分答案
  10. linux 目录与分区与文件,LINUX中的分区与文件系统
  11. 苹果Mac怎样切换大写输入法?
  12. CentOS安装打字游戏,typespeed
  13. 必背C语言算法 C语言小写转大写
  14. 06 基于v5-resources在macos系统搭建a8服务
  15. PowerPoint课件动画制作三例
  16. 案例九:实现输出1~10中非4的倍数的数字。
  17. PIX学习路径-1-选择PIXHAWK作为飞控学习的起点
  18. 用计算机语法表示谁在说谎,2019考研管理类联考逻辑思维训练题:假设法(2)
  19. OIM实现OIM用户修改、OIM用户Disable流程审批
  20. 基于Java的人员信息管理系统

热门文章

  1. npm安装淘宝镜像后cnpm不是内部命令
  2. 基于tensorflow的聊天机器人
  3. Python爬虫----12306火车票余票查询器
  4. Lua中获取字符串长度整理
  5. mysql删除所有记录命令行_mysql表的清空、删除和修改操作详解
  6. 《牛津字典精华总结》- 初阶系列 - 字母 - C
  7. 【用动量与强度来分析股票的购买时机和仓位控制】
  8. MID() 函数的应用
  9. Django_day02
  10. mysql 复合索引_Mysql复合索引的顺序和必要值