挖掘标签KMeans

监督学习对目标有期望值(目标值)
无监督学习对目标没有对应的期望值(目标值)
半监督学习对目标有部分的期望值(目标值)
强化学习目标不断与外界交互获得反馈,决定自身的行为 ps 阿尔法狗

用户价值模型-RFM

XXX网店，6-18期间得活动到底发给谁？？？？

例如有50w历史用户，如何对用户分群？？？

使用RFM模型对用户分群

RFM是

Rencency（最近一次消费）---- 最后一次得消费得时间

Frequency（消费频率） ---- 消费次数（半年内/一年内/所有）

Monetary（消费金额） ---- 消费金额（半年内/一年内/所有）

R（日期） F（次数） M（人民币）

张三 2020-06-15 100 56550 李四 2020-03-19 30 55660以上数据量纲（相当于单位）不相同，无法直接进行计算。需要将去转换为相同量纲得数据，才能计算R（日期）今日日期2020年06月19日认为设立一个规则1-5天内à5分 6-10天内à4分 11-20天内à3分 21-30天内à2分 31天内+à1分【业务部门确定】张三 4 à 5分（2020-06-15）李四 90 à 1分（2020-03-19）F（次数）≥200次=5分，150-199次=4分，100-149次=3分，50-99次=2分，1-49次=1分【业务部门确定】张三 3分（100）李四 1分（30）M（人民币）≥20w=5分，10-19w=4分，5-9w=3分，1-4w=2分，<1w=1分 【业务部门确定】张三 3分（56550）李四 3分（55660）-----------------------------------------------张三 5分 3分 3分 1 高价值李四 1分 1分 3分 0 低价值王五 4分 4分 3分 1 高价值-----------------------------------------------数据归一化：将不同量纲得数据整理成相同量纲得数据如何进行分类？？1、求和 ？？2、放入空间？？3、使用机器学习算法（K-Means聚类）超高 高 中高 中 中低 低 超低（id , rule）计算流程第一步：计算每个用户的最后一次消费时间，一定时间段内（半年/一年/所有）的消费数量，消费金额第二步：数据归一化，将不同量纲（单位）的数据处理成相同量纲的数据第三步：使用机器学习算法K-Means进行聚类（分类）第四步：根据标签系统，进行标签匹配，打标签。## 实现RFM用户价值模型计算第一步：在标签系统添加用户价值标签

第二步写代码KMeans聚类算法（K均值）

知识点1：中心点数量4， 起始位置不相同。知识点2：中心点可以移动知识点2：中心点最后不移动

K 指得就是类别/簇的数量（几个类别）

MeansK- Means最终的结果受什么影响？迭代计算的次数。可设置的参数1 K的值2 循环计算的次数聚类：在输入为多个数据时，将相似的数据分为一组的操作。一个组就叫一个“簇”。

计算流程

K-Means算法的优缺点

K-Means 使用的数据格式libSVM

libsvm数据格式

libsvm使用的训练数据和检验数据文件格式如下：

[label] [index1]:[value1] [index2]:[value2] …
[label] [index1]:[value1] [index2]:[value2] …

label 目标值，就是class（属于哪一类），要分类的种类，通常是一些整数。

index 是有顺序的索引，通常是连续的整数。就是指特征编号，必须按照升序排列

value 就是特征值，用来train的数据，通常是一堆实数组成。

样例数据

1 1:5.1 2:3.5 3:1.4 4:0.2

1 1:4.9 2:3.0 3:1.4 4:0.2

1 1:4.7 2:3.2 3:1.3 4:0.2

1 1:4.6 2:3.1 3:1.5 4:0.2

代码实现鸢尾花案例、

import org.apache.spark.ml.clustering.{KMeans, KMeansModel}
import org.apache.spark.ml.feature.{MinMaxScaler, MinMaxScalerModel}
import org.apache.spark.sql.{DataFrame, SparkSession}/*
用于实现  使用kmeans为鸢尾花数据分类*/
object Iris {def main(args: Array[String]): Unit = {//1、创建sparlsession对象val spark: SparkSession = SparkSession.builder().appName("Iris").master("local[*]").getOrCreate()//2、读取libsvm 数据val irisLibSvmDF: DataFrame = spark.read.format("libsvm").load("file:///***")val scalerDatas: MinMaxScalerModel = new MinMaxScaler() .setInputCol("features") .setOutputCol("featuresOut") .fit(irisLibSvmDF) //设置数据val scalerDF: DataFrame = scalerDatas.transform(irisLibSvmDF)//4、使用kmeans进行计算val prediction: KMeansModel = new KMeans().setK(3) //设置需要划分类别的数量/个数.setMaxIter(10) //设置最大计算次数.setFeaturesCol("featuresOut") //设置特征的列    归一化后的列.setPredictionCol("predictionValue") //设置最终预测后的结果列名.setSeed(10) //设置随机种子.fit(scalerDF)val predictionDF: DataFrame = prediction.transform(scalerDF)}
}

RFE

RFM用户价值

表示已经消费了的用户的价值

用户活跃度模型-RFE

表示用户（非购买用户 – 只是浏览用户）的活跃度

## 价格敏感度模型-PSM

一包方便面定价多少？？1元 太便宜了，用户想法：1元的方便面能不能吃？？ 不买， 企业利润低。20元 太贵了，用户想法：吃不起啊， 不买， 企业利润低。价格到定多少？？？制作价格与用户接受度的图

价格区间：用户觉得便宜，并且企业利润较高的范围

如何定价：觉得便宜的人最多的百分比就是最好的价格

结论：区间时300-450元，实际定价330

结合价格敏感度，敏感度高（差1元就不买了）的，给最优惠的价格（400）敏感度低（差800元，无所谓，依然买）的，给用户可接受范围内，一个较高的价格

**若要实现根据不同的人给出不同的价格**目标变为如何实现PSM如何确定用户的价格敏感度（PSM）？？？公式：*psm =* 优惠订单占比 *+* 平均优惠金额占比 *+* 优惠总金额占比引导100次购物，10次有优惠，90次没有优惠**一个商品100元，优惠20元，成交价80元 应收是100****一个商品200元，优惠30元，成交价170元 应收是200**目标进一步变成计算以下数据只要计算出以下四个数据，那么PSM就能计算出来了**优惠次数** **总购买次数****优惠总金额****应收总金额** =优惠金额+成交金额

大数据挖掘型标签RFM/RFE/PSM相关推荐

大数据【企业级360°全方位用户画像】基于RFE模型的挖掘型标签开发
上一篇博客,已经为大家介绍了基于RFM(用户价值模型)的挖掘型标签开发过程(
大数据【企业级360°全方位用户画像】匹配型标签开发
写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...
美的大数据挖掘笔试总结
美的大数据挖掘: 20单选 + 5多选 + 5 对错判断我做完后发现一下挺好的资料,发现最近做的很多关于数据挖掘的题在这里都能找到类似的,堪称数据挖掘题库,贴过来学习一下~ 数据挖掘题库一.异常值 ...
大数据挖掘与分析平台整体解决方案
大数据挖掘与分析平台 ...
30个学习大数据挖掘的重要知识点！
https://www.jianshu.com/p/2441b69794b0 下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下. 1. 数据.信息和知识是广义数据表现的不同形式. 2. 主要 ...
大数据挖掘在销售管理中的应用价值
参与调研即可下载本期资料,包含ppt文档及视频链接:点击下载大家下午好,我是来自西安荣峰软件科技有限公司CTO李昊泽,今天在这个秋分的日子里,由我和大家分享一下大数据在销售管理中的应用价值.下面我会 ...
混凝土泵送机械大数据挖掘与应用
混凝土泵送机械大数据挖掘与应用赵鑫, 吴德志, 周志忠中联重科股份有限公司,湖南长沙 410205 国家混凝土机械工程技术研究中心,湖南长沙 410205 摘要:基于混凝土机械设备的施工数据. ...
作者：孟凡（1989-），男，中国科学院大学经济与管理学院、中国科学院大数据挖掘与知识管理重点实验室博士生...
孟凡(1989-),男,中国科学院大学经济与管理学院.中国科学院大数据挖掘与知识管理重点实验室博士生,主要研究方向为大数据信用评分.量化投资.大数据图像挖掘.弱标签学习问题等.
2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘（上）...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...
【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘（上）...
大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘李涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑理1,2 1. 南京邮电大学计算机学院南京 210023:2. 美国佛罗里达国际大学迈 ...

大数据挖掘型标签RFM/RFE/PSM

挖掘标签KMeans

大数据挖掘型标签RFM/RFE/PSM相关推荐

最新文章

热门文章