大数据挖掘型标签RFM/RFE/PSM
挖掘标签KMeans
- 监督学习 对目标有期望值(目标值)
- 无监督学习 对目标没有对应的期望值(目标值)
- 半监督学习 对目标有部分的期望值(目标值)
- 强化学习 目标不断与外界交互获得反馈,决定自身的行为 ps 阿尔法狗
用户价值模型-RFM
XXX网店,6-18期间得活动到底发给谁????
例如有50w历史用户,如何对用户分群???
使用RFM模型对用户分群
RFM是
Rencency(最近一次消费)---- 最后一次得消费得时间
Frequency(消费频率) ---- 消费次数(半年内/一年内/所有)
Monetary(消费金额) ---- 消费金额(半年内/一年内/所有)
R(日期) F(次数) M(人民币)
张三 2020-06-15 100 56550 李四 2020-03-19 30 55660以上数据量纲(相当于单位)不相同,无法直接进行计算。需要将去转换为相同量纲得数据,才能计算R(日期)今日日期2020年06月19日认为设立一个规则1-5天内à5分 6-10天内à4分 11-20天内à3分 21-30天内à2分 31天内+à1分【业务部门确定】张三 4 à 5分(2020-06-15)李四 90 à 1分(2020-03-19)F(次数)≥200次=5分,150-199次=4分,100-149次=3分,50-99次=2分,1-49次=1分【业务部门确定】张三 3分(100)李四 1分(30)M(人民币)≥20w=5分,10-19w=4分,5-9w=3分,1-4w=2分,<1w=1分 【业务部门确定】张三 3分(56550)李四 3分(55660)-----------------------------------------------张三 5分 3分 3分 1 高价值李四 1分 1分 3分 0 低价值王五 4分 4分 3分 1 高价值-----------------------------------------------数据归一化:将不同量纲得数据整理成相同量纲得数据如何进行分类??1、求和 ??2、放入空间??3、使用机器学习算法(K-Means聚类)超高 高 中高 中 中低 低 超低(id , rule)计算流程第一步:计算每个用户的最后一次消费时间,一定时间段内(半年/一年/所有)的消费数量,消费金额第二步:数据归一化,将不同量纲(单位)的数据处理成相同量纲的数据第三步:使用机器学习算法K-Means进行聚类(分类)第四步:根据标签系统,进行标签匹配,打标签。## 实现RFM用户价值模型计算第一步:在标签系统添加用户价值标签
第二步写代码KMeans聚类算法(K均值)
知识点1:中心点数量4, 起始位置不相同。知识点2:中心点可以移动知识点2:中心点最后不移动
K 指得就是类别/簇的数量(几个类别)
MeansK- Means最终的结果受什么影响?迭代计算的次数。可设置的参数1 K的值2 循环计算的次数聚类:在输入为多个数据时,将相似的数据分为一组的操作。一个组就叫一个“簇”。
计算流程
K-Means算法的优缺点
K-Means 使用的数据格式libSVM
libsvm数据格式
libsvm使用的训练数据和检验数据文件格式如下:
- [label] [index1]:[value1] [index2]:[value2] …
- [label] [index1]:[value1] [index2]:[value2] …
label 目标值,就是class(属于哪一类), 要分类的种类,通常是一些整数。
index 是有顺序的索引,通常是连续的整数。就是指特征编号,必须按照升序排列
value 就是特征值,用来train的数据,通常是一堆实数组成。
样例数据
1 1:5.1 2:3.5 3:1.4 4:0.2
1 1:4.9 2:3.0 3:1.4 4:0.2
1 1:4.7 2:3.2 3:1.3 4:0.2
1 1:4.6 2:3.1 3:1.5 4:0.2
代码实现鸢尾花案例、
import org.apache.spark.ml.clustering.{KMeans, KMeansModel}
import org.apache.spark.ml.feature.{MinMaxScaler, MinMaxScalerModel}
import org.apache.spark.sql.{DataFrame, SparkSession}/*
用于实现 使用kmeans为鸢尾花数据分类*/
object Iris {def main(args: Array[String]): Unit = {//1、创建sparlsession对象val spark: SparkSession = SparkSession.builder().appName("Iris").master("local[*]").getOrCreate()//2、读取libsvm 数据val irisLibSvmDF: DataFrame = spark.read.format("libsvm").load("file:///***")val scalerDatas: MinMaxScalerModel = new MinMaxScaler() .setInputCol("features") .setOutputCol("featuresOut") .fit(irisLibSvmDF) //设置数据val scalerDF: DataFrame = scalerDatas.transform(irisLibSvmDF)//4、使用kmeans进行计算val prediction: KMeansModel = new KMeans().setK(3) //设置需要划分类别的数量/个数.setMaxIter(10) //设置最大计算次数.setFeaturesCol("featuresOut") //设置特征的列 归一化后的列.setPredictionCol("predictionValue") //设置最终预测后的结果列名.setSeed(10) //设置随机种子.fit(scalerDF)val predictionDF: DataFrame = prediction.transform(scalerDF)}
}
RFE
RFM用户价值
表示已经消费了的用户的价值
用户活跃度模型-RFE
表示用户(非购买用户 – 只是浏览用户)的活跃度
## 价格敏感度模型-PSM
一包方便面定价多少??1元 太便宜了,用户想法:1元的方便面能不能吃?? 不买, 企业利润低。20元 太贵了,用户想法:吃不起啊, 不买, 企业利润低。价格到定多少???制作价格与用户接受度的图
价格区间:用户觉得便宜,并且企业利润较高的范围
如何定价:觉得便宜的人最多的百分比就是最好的价格
结论:区间时300-450元,实际定价330
结合价格敏感度,敏感度高(差1元就不买了)的,给最优惠的价格(400)敏感度低(差800元,无所谓,依然买)的,给用户可接受范围内,一个较高的价格
**若要实现根据不同的人给出不同的价格**目标变为如何实现PSM如何确定用户的价格敏感度(PSM)???公式:*psm =* 优惠订单占比 *+* 平均优惠金额占比 *+* 优惠总金额占比引导100次购物,10次有优惠,90次没有优惠**一个商品100元,优惠20元,成交价80元 应收是100****一个商品200元,优惠30元,成交价170元 应收是200**目标进一步变成计算以下数据只要计算出以下四个数据,那么PSM就能计算出来了**优惠次数** **总购买次数****优惠总金额****应收总金额** =优惠金额+成交金额
大数据挖掘型标签RFM/RFE/PSM相关推荐
- 大数据【企业级360°全方位用户画像】基于RFE模型的挖掘型标签开发
上一篇博客,已经为大家介绍了基于RFM(用户价值模型)的挖掘型标签开发过程(
- 大数据【企业级360°全方位用户画像】匹配型标签开发
写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...
- 美的大数据挖掘笔试总结
美的大数据挖掘: 20单选 + 5多选 + 5 对错判断 我做完后发现一下挺好的资料,发现最近做的很多关于数据挖掘的题在这里都能找到类似的,堪称数据挖掘题库,贴过来学习一下~ 数据挖掘题库 一.异常值 ...
- 大数据挖掘与分析平台整体解决方案
大数据挖掘与分析平台 ...
- 30个学习大数据挖掘的重要知识点!
https://www.jianshu.com/p/2441b69794b0 下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下. 1. 数据.信息和知识是广义数据表现的不同形式. 2. 主要 ...
- 大数据挖掘在销售管理中的应用价值
参与调研即可下载本期资料,包含ppt文档及视频链接:点击下载 大家下午好,我是来自西安荣峰软件科技有限公司CTO李昊泽,今天在这个秋分的日子里,由我和大家分享一下大数据在销售管理中的应用价值.下面我会 ...
- 混凝土泵送机械大数据挖掘与应用
混凝土泵送机械大数据挖掘与应用 赵鑫, 吴德志, 周志忠 中联重科股份有限公司,湖南 长沙 410205 国家混凝土机械工程技术研究中心,湖南 长沙 410205 摘要:基于混凝土机械设备的施工数据. ...
- 作者:孟凡(1989-),男,中国科学院大学经济与管理学院、中国科学院大数据挖掘与知识管理重点实验室博士生...
孟凡(1989-),男,中国科学院大学经济与管理学院.中国科学院大数据挖掘与知识管理重点实验室博士生,主要研究方向为大数据信用评分.量化投资.大数据图像挖掘.弱标签学习问题等.
- 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...
- 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...
大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大学 迈 ...
最新文章
- python使用matplotlib可视化棉签图、棉棒图(stem plot)、展示离散而有序的数据
- 解决在VS(winform)程序中无法在调试时修改代码的问题(也就是“编辑并继续”功能无效)...
- 写SpringBoot项目的时候,报错Ordinal parameter not bound
- mes建设指南_给予和接受建设性批评的设计师指南
- 在jsp文件中通过超链接访问servlet_Eclipse中创建Servlet
- 什么是JavaScript中的回调函数?
- 4-10:TCP协议之面向字节流和粘包问题
- java 增 删 查 改_如何对java链表进行增、删、查、改操作
- XPath解析网页学习笔记
- system2之:4-LVM逻辑卷管理
- vue3 富文本编辑器
- 关于ModifyStyle
- 全球及中国复合纸板管包装行业研究及十四五规划分析报告
- vue使用element 上传图片,修改图片
- 开发APP的费用是多少?
- 在线观看北京奥运会直播 在网上看奥运会直播
- 关于宇宙大爆炸的理论模型
- android 开发积累
- 常常被问路吗?我今年一共 26 次!
- 为什么不建议在MySQL中使用 utf8?
热门文章
- 微信服务号添加小程序
- 网络安全竞赛C模块批量拿值脚本
- 银河麒麟鸿蒙计划,银河麒麟Kydroid2.0发布,支持海量安卓APP,要抢鸿蒙的风头吗?...
- webgl图库研究(包括BabylonJS、Threejs、LayaboxJS、SceneJS、ThingJS等框架的特性、适用范围、支持格式、优缺点、相关网址)
- C# ComboBox 文本居中设置
- web前端面试(1) 前端缓存怎么做?
- 抖音招商团长申请需要资料
- DirectX11,DirectX12,OpenGL,Vulkan学习资料
- 【测试】各类视频(MP4、FLV、MKV、3GP)测试地址摘录,目前链接亲测有效!
- arcgis导出的图片无效_img影像在arcgis中生成JPG图片空白求解