挖掘标签KMeans

  1. 监督学习 对目标有期望值(目标值)
  2. 无监督学习 对目标没有对应的期望值(目标值)
  3. 半监督学习 对目标有部分的期望值(目标值)
  4. 强化学习 目标不断与外界交互获得反馈,决定自身的行为 ps 阿尔法狗
  • 用户价值模型-RFM

    XXX网店,6-18期间得活动到底发给谁????

    例如有50w历史用户,如何对用户分群???

    使用RFM模型对用户分群

    RFM是

    Rencency(最近一次消费)---- 最后一次得消费得时间

    Frequency(消费频率) ---- 消费次数(半年内/一年内/所有)

    Monetary(消费金额) ---- 消费金额(半年内/一年内/所有)


R(日期) F(次数) M(人民币)

张三 2020-06-15 100 56550 李四 2020-03-19 30 55660以上数据量纲(相当于单位)不相同,无法直接进行计算。需要将去转换为相同量纲得数据,才能计算R(日期)今日日期2020年06月19日认为设立一个规则1-5天内à5分 6-10天内à4分 11-20天内à3分 21-30天内à2分 31天内+à1分【业务部门确定】张三 4 à 5分(2020-06-15)李四 90 à 1分(2020-03-19)F(次数)≥200次=5分,150-199次=4分,100-149次=3分,50-99次=2分,1-49次=1分【业务部门确定】张三 3分(100)李四 1分(30)M(人民币)≥20w=5分,10-19w=4分,5-9w=3分,1-4w=2分,<1w=1分 【业务部门确定】张三 3分(56550)李四 3分(55660)-----------------------------------------------张三 5分 3分 3分 1 高价值李四 1分 1分 3分 0 低价值王五 4分 4分 3分 1 高价值-----------------------------------------------数据归一化:将不同量纲得数据整理成相同量纲得数据如何进行分类??1、求和 ??2、放入空间??3、使用机器学习算法(K-Means聚类)超高 高 中高 中 中低 低 超低(id , rule)计算流程第一步:计算每个用户的最后一次消费时间,一定时间段内(半年/一年/所有)的消费数量,消费金额第二步:数据归一化,将不同量纲(单位)的数据处理成相同量纲的数据第三步:使用机器学习算法K-Means进行聚类(分类)第四步:根据标签系统,进行标签匹配,打标签。## 实现RFM用户价值模型计算第一步:在标签系统添加用户价值标签

第二步写代码KMeans聚类算法(K均值)

知识点1:中心点数量4, 起始位置不相同。知识点2:中心点可以移动知识点2:中心点最后不移动


K 指得就是类别/簇的数量(几个类别)

MeansK- Means最终的结果受什么影响?迭代计算的次数。可设置的参数1 K的值2 循环计算的次数聚类:在输入为多个数据时,将相似的数据分为一组的操作。一个组就叫一个“簇”。

计算流程


K-Means算法的优缺点

K-Means 使用的数据格式libSVM

libsvm数据格式

libsvm使用的训练数据和检验数据文件格式如下:

  1. [label] [index1]:[value1] [index2]:[value2] …
  2. [label] [index1]:[value1] [index2]:[value2] …

label 目标值,就是class(属于哪一类), 要分类的种类,通常是一些整数。

index 是有顺序的索引,通常是连续的整数。就是指特征编号,必须按照升序排列

value 就是特征值,用来train的数据,通常是一堆实数组成。

样例数据

1 1:5.1 2:3.5 3:1.4 4:0.2

1 1:4.9 2:3.0 3:1.4 4:0.2

1 1:4.7 2:3.2 3:1.3 4:0.2

1 1:4.6 2:3.1 3:1.5 4:0.2

代码实现鸢尾花案例、

import org.apache.spark.ml.clustering.{KMeans, KMeansModel}
import org.apache.spark.ml.feature.{MinMaxScaler, MinMaxScalerModel}
import org.apache.spark.sql.{DataFrame, SparkSession}/*
用于实现  使用kmeans为鸢尾花数据分类*/
object Iris {def main(args: Array[String]): Unit = {//1、创建sparlsession对象val spark: SparkSession = SparkSession.builder().appName("Iris").master("local[*]").getOrCreate()//2、读取libsvm 数据val irisLibSvmDF: DataFrame = spark.read.format("libsvm").load("file:///***")val scalerDatas: MinMaxScalerModel = new MinMaxScaler() .setInputCol("features") .setOutputCol("featuresOut") .fit(irisLibSvmDF) //设置数据val scalerDF: DataFrame = scalerDatas.transform(irisLibSvmDF)//4、使用kmeans进行计算val prediction: KMeansModel = new KMeans().setK(3) //设置需要划分类别的数量/个数.setMaxIter(10) //设置最大计算次数.setFeaturesCol("featuresOut") //设置特征的列    归一化后的列.setPredictionCol("predictionValue") //设置最终预测后的结果列名.setSeed(10) //设置随机种子.fit(scalerDF)val predictionDF: DataFrame = prediction.transform(scalerDF)}
}
  • RFE

    RFM用户价值

    表示已经消费了的用户的价值

    用户活跃度模型-RFE

    表示用户(非购买用户 – 只是浏览用户)的活跃度


## 价格敏感度模型-PSM

一包方便面定价多少??1元 太便宜了,用户想法:1元的方便面能不能吃?? 不买, 企业利润低。20元 太贵了,用户想法:吃不起啊, 不买, 企业利润低。价格到定多少???制作价格与用户接受度的图

价格区间:用户觉得便宜,并且企业利润较高的范围

如何定价:觉得便宜的人最多的百分比就是最好的价格


结论:区间时300-450元,实际定价330

结合价格敏感度,敏感度高(差1元就不买了)的,给最优惠的价格(400)敏感度低(差800元,无所谓,依然买)的,给用户可接受范围内,一个较高的价格

**若要实现根据不同的人给出不同的价格**目标变为如何实现PSM如何确定用户的价格敏感度(PSM)???公式:*psm =* 优惠订单占比 *+* 平均优惠金额占比 *+* 优惠总金额占比引导100次购物,10次有优惠,90次没有优惠**一个商品100元,优惠20元,成交价80元 应收是100****一个商品200元,优惠30元,成交价170元 应收是200**目标进一步变成计算以下数据只要计算出以下四个数据,那么PSM就能计算出来了**优惠次数** **总购买次数****优惠总金额****应收总金额** =优惠金额+成交金额

大数据挖掘型标签RFM/RFE/PSM相关推荐

  1. 大数据【企业级360°全方位用户画像】基于RFE模型的挖掘型标签开发

    上一篇博客,已经为大家介绍了基于RFM(用户价值模型)的挖掘型标签开发过程(

  2. 大数据【企业级360°全方位用户画像】匹配型标签开发

    写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...

  3. 美的大数据挖掘笔试总结

    美的大数据挖掘: 20单选 + 5多选 + 5 对错判断 我做完后发现一下挺好的资料,发现最近做的很多关于数据挖掘的题在这里都能找到类似的,堪称数据挖掘题库,贴过来学习一下~ 数据挖掘题库 一.异常值 ...

  4. 大数据挖掘与分析平台整体解决方案

                                              大数据挖掘与分析平台                                                 ...

  5. 30个学习大数据挖掘的重要知识点!

    https://www.jianshu.com/p/2441b69794b0 下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下. 1. 数据.信息和知识是广义数据表现的不同形式. 2. 主要 ...

  6. 大数据挖掘在销售管理中的应用价值

    参与调研即可下载本期资料,包含ppt文档及视频链接:点击下载 大家下午好,我是来自西安荣峰软件科技有限公司CTO李昊泽,今天在这个秋分的日子里,由我和大家分享一下大数据在销售管理中的应用价值.下面我会 ...

  7. 混凝土泵送机械大数据挖掘与应用

    混凝土泵送机械大数据挖掘与应用 赵鑫, 吴德志, 周志忠 中联重科股份有限公司,湖南 长沙 410205 国家混凝土机械工程技术研究中心,湖南 长沙 410205 摘要:基于混凝土机械设备的施工数据. ...

  8. 作者:孟凡(1989-),男,中国科学院大学经济与管理学院、中国科学院大数据挖掘与知识管理重点实验室博士生...

    孟凡(1989-),男,中国科学院大学经济与管理学院.中国科学院大数据挖掘与知识管理重点实验室博士生,主要研究方向为大数据信用评分.量化投资.大数据图像挖掘.弱标签学习问题等.

  9. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

  10. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大学 迈 ...

最新文章

  1. python使用matplotlib可视化棉签图、棉棒图(stem plot)、展示离散而有序的数据
  2. 解决在VS(winform)程序中无法在调试时修改代码的问题(也就是“编辑并继续”功能无效)...
  3. 写SpringBoot项目的时候,报错Ordinal parameter not bound
  4. mes建设指南_给予和接受建设性批评的设计师指南
  5. 在jsp文件中通过超链接访问servlet_Eclipse中创建Servlet
  6. 什么是JavaScript中的回调函数?
  7. 4-10:TCP协议之面向字节流和粘包问题
  8. java 增 删 查 改_如何对java链表进行增、删、查、改操作
  9. XPath解析网页学习笔记
  10. system2之:4-LVM逻辑卷管理
  11. vue3 富文本编辑器
  12. 关于ModifyStyle
  13. 全球及中国复合纸板管包装行业研究及十四五规划分析报告
  14. vue使用element 上传图片,修改图片
  15. 开发APP的费用是多少?
  16. 在线观看北京奥运会直播 在网上看奥运会直播
  17. 关于宇宙大爆炸的理论模型
  18. android 开发积累
  19. 常常被问路吗?我今年一共 26 次!
  20. 为什么不建议在MySQL中使用 utf8?

热门文章

  1. 微信服务号添加小程序
  2. 网络安全竞赛C模块批量拿值脚本
  3. 银河麒麟鸿蒙计划,银河麒麟Kydroid2.0发布,支持海量安卓APP,要抢鸿蒙的风头吗?...
  4. webgl图库研究(包括BabylonJS、Threejs、LayaboxJS、SceneJS、ThingJS等框架的特性、适用范围、支持格式、优缺点、相关网址)
  5. C# ComboBox 文本居中设置
  6. web前端面试(1) 前端缓存怎么做?
  7. 抖音招商团长申请需要资料
  8. DirectX11,DirectX12,OpenGL,Vulkan学习资料
  9. 【测试】各类视频(MP4、FLV、MKV、3GP)测试地址摘录,目前链接亲测有效!
  10. arcgis导出的图片无效_img影像在arcgis中生成JPG图片空白求解