数据分析项目实战项目五:商品画像与产品关联分析体系实战
第一章:商品画像体系
1.1 什么是商品画像体系
商品画像可以简单理解成是海量数据的标签,根据商品不同属性的差异,将它们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名称、价格、类别等描述。
1.2 商品画像体系的数据来源
平台数据来源以亚马逊为例
“dress”相关商品除了曝光页,还有曝光商品数量,商品曝光详细信息,商品详情页数据包括变体数量信息,商品价格段位,商品排名信息,商品详情页,网址中的商品ASIN信息,五点描述与review文本信息,Q&A文本信息和A+图文宣传信息。
使用第三方数据工具获取商品画像数据(www.helium10.com)
1.3 商品画像体系的应用
进行数据筛选,有效清洗
结论:这个图可以得知大部分人在干啥,曝光价格并没有像之前所想,便宜的价格很多,而是价格在中间居多,14-35美元左右。
结论:趋势分析一般用累计平均数表示,这个图可以得知干得好的人在干啥,在搜索排序1-310,累计平均数30美元左右,卖得好的商品不会特别便宜,也不会特别贵,综合第一张图可以得出排名前300的商品价格在20-30美元,说明最佳的曝光价格在20-30美元。
结论:这个图可以得知0-0.1指很多都是新链接,0.9-1,1.4-1.5,1.9-2指商品出单,有差评,逐渐呈现正态分布,3.9-4最多,4分以上慢慢减少,4.9-5有刷评加刷单。
结论:这个图可以得知,review数量前面多,后面少,随着排序越来越多,数量越来越少。
结论:这个图可以得知,平均分布意味着标品,review数量与搜索排序没有什么关系,标品一般指带着强烈的目的进行购买比如电脑,五金制品等。
结论:这个图可以得知,前面是刷评加刷单,波动非常剧烈,后面逐渐稳定下来,后面一般是销量很大,稳扎稳打上去的评分。
结论:对“Clothing, Shoes & Jewelry”列数据取对数,这个图可以得知,一般ln可以做回归,更好的代表其趋势,排名越小,销量越好,大部分的ln值在14-15之间,意味着排名在3269017左右,如果在ln值10以内就是在22026,这是属于排名不错。
结论:这个图可以得知,在top100和所有排名对比dress,women’s占据的比例更小,说明在前100卖得好的里面卖家更擅长编写这个标题,更具有技巧性,同时他们不会出现with这个废词。但是出现sleeveless这个新词,这很可能是将来的服装的一种趋势。
第二章:购物篮分析与产品定位分析
2.1什么是产品关联度分析
关联分析是发现交易数据库中不同商品(项)之间的联系,主要应用于电商网站推荐、线下零售门店商品摆放等场景中。
关联规则:
支持度(support):数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了A和B的次数是50次,那么此关联的支持度为5%。
置信度(Confidence):在数据集中已经出现A时,B发生的概率,置信度的计算公式是 :A与B同时出现的概率/A出现的概率。
提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比(置信度/无条件概率)。一般而言,提升度如果小于1,则该推荐规则不应该被使用。
2.2 什么是购物篮分析
业界一般将单个客户一次购买商品的总和称为一个购物篮,购物篮分析就是针对商品的相关性分析。因为最初这种关联分析主要是在超市应用广泛,所以也称为“购物篮分析”。
购物篮分析要点包括找到正确的物品组合,找到用户对应不同组合的购买时间,找到用户对应不同组合的购买顺序。
Apriori算法(先验算法)
Apriori是先验算法,假设子集S出现了k次,那么任何包含S的其它子集只会小于或等于k次. 反之如果S不满足最小的支持度,则任何包含S的子集也不会满足,这时包含S的子集就可以忽略计算了。
2.3 购物篮分析的应用
先输入商品零售数据,Apriori算法处理,是否满足条件:支持度≥最小支持度,置信度≥最小置信度(案例中最小支持度为0.02,最小置信度为0.35),输出关联规则,程序运行结束。
结论:这个图可以得知,比如,根茎类蔬菜到其他蔬菜,支持度0.04,置信度0.43,提升度2.24,说明用户大部分买了根茎类蔬菜还会买点别的蔬菜,酸牛奶到其他蔬菜,支持度0.028,置信度0.4,提升度2.24,说明用户买了酸牛奶一般会买其他蔬菜,按照常识推理,酸牛奶放在冷柜里面,蔬菜一般与冷柜挨着,所以这是符合用户行为逻辑。购买一种商品的顾客占全部顾客的比率,反映的是全品类的关联能力。行业参考值为40%,该值越小越好,越小说明关联能力越强。
2.4 产品定位分析
一般参考波士顿矩阵或者叫四象限分析法。
数据分析项目实战项目五:商品画像与产品关联分析体系实战相关推荐
- mysql颠覆实战笔记(五)--商品系统设计(二):定时更新商品总点击量
继续回到沈老师的MYSQL颠覆实战,首先回顾下上一节课的内容,请大家会看下上节课写的存储过程. 打开prod_clicklog表, 我们只要把日期(不含时分秒)的部分存在数据库中, 如果同一日期有相同 ...
- 《深入理解JVM.2nd》笔记(五):调优案例分析与实战
文章目录 概念 案例分析 高性能硬件上的程序部署策略 情景再现1 问题分析1 关于Full GC 使用64位JDK来管理大内存可能遇到问题 建立逻辑集群 使用逻辑集群可能遇到的问题 最后解决方案 集群 ...
- 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)
文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...
- 【算法竞赛学习】数据分析达人赛2:产品关联分析
赛题背景 赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则.通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适 ...
- GWAS | 全基因组关联分析 | PLINK | 实战 | 统计遗传学
参考:PLINK | File format reference vcftools plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多 ...
- Dust3D项目实训五 | 基于modeloffscreenrender的画面渲染分析
2021SC@SDUSC 目录 分析概括 模块功能 类函数基础 QSize类 QImage类 ModelOffscreenRender.h分析 ModelOffscreenRender.cpp R ...
- 毕业设计 商品推荐算法之关联分析
文章目录 0 前言 数据说明 问题描述 购物篮简介 关联规则 关联规则Python代码 导入基本包 数据概览 探索性数据分析EDA 使用Apriori算法求解关联规则 筛选互补品和互斥品 1.获得最高 ...
- SPSS Modeler——超市商品购买关联分析
更新于2022-12-13 感谢各位抬爱,已经收到太多的评论和私信要数据的,我把下载链接放在文首,请大家自取.非常抱歉没能给大家一一回复. 数据源(免费下载)https://download.csdn ...
- 【关联分析实战篇】为什么 BI 软件都搞不定关联分析
文章目录 做不好关联分析的原因 在数据模型层面解决关联 给业务人员看的懂的数据结构 多级关联表 自关联表 互关联表 重复关联表 结语 润乾报表资料 事物都是普遍联系的,很难有一个独立的事物不和其它发生 ...
最新文章
- 内存映射文件(File Mapping)API
- CTFshow 命令执行 web75
- linux闲话FHS标准下linux目录结构
- DOM编程以及domReady加载的几种方式
- redis 了 什么地方用到_细节拉满!美团首推“百万级”Redis进阶笔记究竟有什么魅力...
- java-通过JDBC操作数据库
- 批量拷贝文件到服务器,Syncovery(数据备份工具)如何在windows下远程访问服务器批量拷贝文件?Syncovery图文教...
- 运行hadoop指令之——WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform....
- c++程序设计原理与实践 第二十四章部分答案
- linux 目录与分区与文件,LINUX中的分区与文件系统
- 苹果Mac怎样切换大写输入法?
- CentOS安装打字游戏,typespeed
- 必背C语言算法 C语言小写转大写
- 06 基于v5-resources在macos系统搭建a8服务
- PowerPoint课件动画制作三例
- 案例九:实现输出1~10中非4的倍数的数字。
- PIX学习路径-1-选择PIXHAWK作为飞控学习的起点
- 用计算机语法表示谁在说谎,2019考研管理类联考逻辑思维训练题:假设法(2)
- OIM实现OIM用户修改、OIM用户Disable流程审批
- 基于Java的人员信息管理系统