目录

一、关联分析

1.构建过程

1.1导入数据

1.2检查缺失值,异常值

1.3 约减数据集中属性

2.对结果的评述

2.1 FP-Growth的支持度(Support)参数为0.95情况

2.2 不同min support对关联规则结果的影响

2.3 不同min confidence对结果的影响

3.促销政策

二、分类预测

1.对Titannic Unlabeld进行预测

1.1构建过程

1.2 预测结果

1.3 构建决策树过程的发现

2.五折交叉检验

2.1 引入Cross Validation算子

2.2 将number of folds改为5

2.3 进入子流程进行配置

2.4 结果

3.改变criterion参数


用到的算子有read csv,select attribute,fp-growth,create association rules;set role,decision tree,apply model,cross validation

Exteter是一家综合类百货公司。其销售的商品种类包括:服装、家具用品、健康相关产品、汽车、个人电子产品、电脑、花园相关产品、新奇礼品和珠宝等九大类。为了降低广告促销的成本,公司希望通过挖掘顾客购买记录数据,实现当顾客购买某一件产品时,将“诱饵”商品推荐给顾客,尽可能促使顾客的购买。

公司现有4998条用户购买历史记录(见“数据集-作业1-CatalogCrossSell.xls”),每条记录包含以下字段:

(1)Customer Number:编号,每个顾客有一个唯一的编号用以识别用户;

(2)Clothing Division:0/1, 顾客是否购买了服装。0为未购买,1为购买;

(3)Housewares Division:0/1,顾客是否购买了家具用品。0为未购买,1为购买;

(4)Health Products Division:0/1,顾客是否购买了与健康相关的商品。0为未购买,1为购买;

(5) Automotive Division:0/1,顾客是否购买了汽车。0为未购买,1为购买;

(6)Personal Electronics Division:0/1顾客是否购买了个人电子产品。0为未购买,1为购买;

(7)Computers Division:0/1,顾客是否购买了电脑。0为未购买,1为购买;

(8)Garden Division:0/1,顾客是否购买了有关花园的产品。0为未购买,1为购买;

(9)Novelty Gift Division:0/1,顾客是否购买了新奇礼品。0为未购买,1为购买;

(10)Jewelry Division:0/1, 顾客是否购买了珠宝商品。0为未购买,1为购买。

一、关联分析

1.构建过程

1.1导入数据

选择方法1将数据导入,如图

1.2检查缺失值,异常值

引入Numerical to Binominal算子

将除了Customer Number之外的变量放到右边,如图

这些变量都要0/1变为flase/true

1.3 约减数据集中属性

引入Select Attributes算子,

将除了Customer Number之外的变量放到右边(保留了顾客对不同商品的购买情况),如图

1.4 FP-Growth找到频繁项集

引入FP-Growth算子

设置min support为0.95

如下图,我们可以看到在size2,3中有很多

例如,家具用品的购买就和个人电子产品、珠宝商品、花园产品、新奇产品可能存在关联

Size3表示一项的购买可能与其他两项有关,这里就不一一解释。

1.5 产生关联规则

引入Create Association Rules算子

FP-Growth的支持度(Support)参数为0.95情况下,如下图

FP-Growth的支持度(Support)参数为0.85情况下,如下图

FP-Growth的支持度(Support)参数为0.75情况下,如下图

FP-Growth的支持度(Support)参数为0.5情况下,如下图

2.对结果的评述

2.1 FP-Growth的支持度(Support)参数为0.95情况

购买了个人电子产品可以推出买了健康相关产品

购买了家具用品可以推出买了健康相关产品

购买了珠宝产品可以推出买了健康相关产品

购买了花园相关产品可以推出买了健康相关产品

购买了新奇产品产品可以推出买了健康相关产品

还有可能由购买了两样物品推出购买了另外的一项产品

购买了个人电子设备和家具可以推出购买了健康有关产品

购买了个人电子产品和珠宝可以推出购买了健康有关产品

2.2 不同min support对关联规则结果的影响

下图依次为min support为0.95,0.85,0.75

首先,随着支持度的下降,我们可以看到相关联的变量越来越多。但是到了后面的的置信度(support)越来越低,即两个购买行为之间不是太过关联。

同时,我们可以看到,所有的购买行为都是预测会购买健康类的产品,但是由于健康类的产品可以认为是人们日常生活中必须的产品,所以参考意义不大。

2.3 不同min confidence对结果的影响

在之前min confidence为0.8的情况下都是预测健康类,现在我们将min confidence放宽到0.5

结果为

产生了更为多样的预测结果(家具类的购买推出电子产品的购买)

3.促销政策

由之前的关联规则结果,我们可以知道,健康类的产品和其他不同的产品购买相关性很多。可以认为健康类产品是一种必需品,因此可以在商场显眼的位置摆放健康类产品,或者是在顾客结账的地方摆放。还可以将健康类产品和其他的产品捆绑销售。

根据修改min confidence之后的结果,我们知道家具类的购买和电子产品的购买相关联。我们可以在商场的家具购买区判别设置电子产品体验区。

二、分类预测

1.对Titannic Unlabeld进行预测

1.1构建过程

我们对训练数据进行观察,发现没有唯一ID的一列,我们通过Generate ID算子来构建id属性一列

加入Set Role算子

加入Decision Tree和Apply Model算子

1.2 预测结果

Yes表示存活

1.3 构建决策树过程的发现

票价大于35.562,且为女性的容易存活

有父母或者小孩的不容易存活

小于18岁的容易存活

票价小于26.144的男性不容易存活

2.五折交叉检验

2.1 引入Cross Validation算子

2.2 将number of folds改为5

2.3 进入子流程进行配置

如图

2.4 结果

如图,我们可以看到,对于Yes的预测,准确率有71.06%。

对于No的预测,准确率有85.89%。

accuracy: 80.24% +/- 3.41% (micro average: 80.24%)

3.改变criterion参数

将参数修改为gini_index

根据检验表,我们可以看到准确率相较于gini_ratio有下降

根据决策树,我们树的广度提高了,深度减少了

将参数改为accuracy

对于Yes的预测准确率下降

对于No的预测准确率上升

决策树层层递进,一目了然。

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)相关推荐

  1. GAPIT 3.0:全基因组关联分析与预测软件最新版发布

    近日,GPB在线发表了西南民族大学青藏高原动物遗传资源保护与利用(四川省.教育部)重点实验室题为"GAPIT Version 3: Boosting Power and Accuracy f ...

  2. 运用RapidMiner进行关联分析(算子有read csv,select attribute,fp-growth,create association rules)

    目录 问题 导入数据 方法一:通过工具栏选择Import,导入数据"数据集-关联分析.csv" ​编辑方法二:通过算子载入数据集 数据探索 结果透视图 Step1:检查数据缺失值. ...

  3. mybats实操-前期入门写法分析,SqlSessionFactory 获取SqlSession, 系统核心配置文件 mybatis-config.xml,SQL映射XML文件,MyBatis缓存

    标题 偏向这一块的配置 打个预防针 尽量别用中文路径 尤其配置文件 1.导入数据库(smbms_db.sql) 下载maven并且配置环境变量 去IDEA配置好maven 以后maven项目直接用 m ...

  4. 实操:商品列表三级分类的实现方法

    对于分类来说,一般包括一级分类,二级分类,三级分类,一般2级分类是比较好做的,大部分网站都是左边点击二级分类,右边显示相对应商品,这就要用到jquery技术了.下面就来为大家详细分析一下该如何实现吧. ...

  5. 2013.10.5-7台风“菲特“fitow模拟实例【WRF模拟实操:WRFdomain范围设置,namelist代码,WRF模拟流程,wrfout结果查看头文件,原文对比】

    文章目录 前言 一.下载数据 使用python下载FNL资料 二.WPS前处理 0.安装WRFdomain 1.区域设置--namelist.wps 论文提供信息: WRFDomain设置范围 nam ...

  6. 信息流广告ROI线性预测看板投放分析监控看板展示数据处理入库全流程

    ROI线性预测看板 投放分析监控看板 项目背景 :X公司是一家专注于抖音广告投放的公司,该公司的北极星指标是ROI(ROI=GMV/成本),随着业务发展,数据量级逐日上升,数据部门决定开发一个半自动的 ...

  7. 基于关联分析与机器学习的配网台区重过载预测方法

    基于关联分析与机器学习的配网台区重过载预测方法 张国宾,王晓蓉,邓春宇 中国电力科学研究院,北京 100192 摘要:针对配电网运行中长期存在的台区重过载问题,提出基于关联规则挖掘的重过载影响因素分析 ...

  8. 实操信贷场景中的反欺诈模型

    今天的文章,关于反欺诈模型的实操,之前有跟大家分享过相关内容,部分反欺诈的领域的童鞋感觉内容比较有帮助,今天就该内容进行讲解.本文介绍的产品适合在消费零售信贷及现金场景贷中的中短期产品,其中涉及的变量 ...

  9. 手把手实操系列|信贷风控中的额度管理和额度模型设计

    序言: 如今的个人信贷行业步入合规发展阶段后,额度管理和差异化定价成为金融机构是否能最大化盈利的核心竞争力,其中额度管理包括贷前阶段的授信额度,贷中阶段的提额,降额等,本文将着重讲解这两个阶段的额度设 ...

  10. 手把手实操|深度剖析电商贷款风控相关细节(电商贷模型)

    序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...

最新文章

  1. 深入浅出理解c++虚函数
  2. PHP整数取余返回负数解决办法
  3. 工作计划2017-01-03
  4. PowerDesigner中在生成的数据库脚本中用name列替换comment列作为字段描述的方法
  5. 深入浅出Google Android这本书怎么样
  6. MySQL的环境变量配置详细步骤
  7. 一刀传世网页破天服务器同步,一刀传世破天1844服开服时间表_一刀传世新区开服预告_第一手游网手游开服表...
  8. SSCE(SQL Server Compact Edition)适合哪些应用场景
  9. 修改MySQL的默认数据存储引擎
  10. linux安装中文输入法sc,Ubuntu 设置中文输入法
  11. Unbuntu 出现无法解析或打开软件包的列表或是状态文件的解决办法
  12. 网易云音乐自建服务器,自建私有云音乐服务–Subsonic
  13. C4D OCtane渲染器大师之路笔记(四):使用OC灯光
  14. 编码规约学习——《阿里巴巴 Java 开发手册》
  15. Chrome 安装有道画词取义插件
  16. 洛谷 P5602 小E与美食 (尚贤)
  17. 微信小程序中相机api_微信小程序调用内置照相机实现拍照及图片上传
  18. Negotiation - 04
  19. oracle重建表导致同义词失效,一次对dual表的恢复操作(ORA-00980:同义词转换不再有效错误解决方法)...
  20. 最新表情包小程序+前后端去授权版/最火表情包小程序源码

热门文章

  1. oracle数据库三大日志,Oracle 数据库日志和用户日志位置
  2. 文件扩展名(后缀名)是什么?win10怎么显示扩展名?
  3. Nginx跨域配置 proxy_pass
  4. html菜鸟教程选项卡,jQuery EasyUI 布局插件 – Tabs 标签页/选项卡 | 菜鸟教程
  5. 《调色师手册:电影和视频调色专业技法(第2版)》——拍摄之前:选择录制格式...
  6. 软考中级-软件设计师|下午题攻略
  7. Linux编程中C语言头文件位置
  8. 入门OJ P:1300 面积题解
  9. 非参数统计吴喜之_SPSS混合线性模型在生物医药统计中的应用与操作——【杏花开生物医药统计】...
  10. 如何使用PDF阅读器将PDF转换成图片