[机器学习]关联挖掘介绍
关联挖掘又称关联分析,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
如下是一个超市的几笔交易记录:
中:TID代表交易流水号,Items代表一次交易的商品。
相关概念:
1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。
2、项:交易的每一个物品称为一个项,例如Cola、Egg等。
3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。
4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Egg}叫做2-项集。
5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3。
6、支持度(support):支持度表示项集{A,B}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为:
support(A→B) = P(A,B) / P(I) = P(A∩B) / P(I) = num(A∩B) / num(I)
其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。
即支持度计数除于总的事务数。例如上例中总的事务数为4,{Diaper, Beer}的支持度计数为3,所以它的支持度是3÷4=75%,说明有75%的人同时买了Diaper和Beer。
即:
7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为50%时,因为{Diaper, Beer}的支持度是75%,所以它是频繁项集。
8、前件和后件:对于规则{Diaper}→{Beer},{Diaper}叫做前件,{Beer}叫做后件。
9、置信度(confidence):置信度表示在先决条件A发生的情况下,由关联规则”A→B“推出B的概率。表示在发生A的项集中,同时会发生B的可能性,即A和B同时发生的个数占仅仅A发生个数的比例,公式为:
confidence(A→B) = P(B|A) = P(A,B) / P(A) = P(A∩B) / P(A)
对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数除以{Diaper}的支持度计数,为这个规则的置信度,说明做A事务时,有多少同时做了B事务。
例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。
10、强关联规则:大于或等于最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则。
11、提升度(lift):A事务对B事务的提升度,表示有A作为前提,对B出现的概率有什么样的影响。对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度除以{ Beer }的支持度与{ Diaper }的支持度的积。
Lift(A→B) = P(A|B) / P(B) /P(A) 即A对于B的置信度除以B的支持度和A的支持度之积
提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1 表示A事务和B事务是排斥(即购买A不太购买B),提升度=1表明A和B没有任何关联。
注意:
- 置信度很高,可能是在所有交易中,二者出现的频率都很高,所以它们之间的关联可能只是巧合,这时需要对比提升度。
- 置信度低可能是因为该项集在总事务中占比过小,这时也需要对比提升度。
- 提升度是一种很简单的判断关联关系的手段,但是在实际应用过程中受零事务的影响比较大,零事务就是上例中既不包含A又不包含B的事务。受零事务越大,提升度越大。实际应用中为了避免零事件的影响,一般用KULC度量+IR进行度量。
KULC=0.5*P(B|A)+0.5*P(A|B) 即双向置信度的平均值;
IR=P(B|A)/P(A|B)
局限性:
计算量过大!
[机器学习]关联挖掘介绍相关推荐
- [机器学习]关联挖掘算法Apriori和FP-Growth以及基于Spark 实例
目录 Apriori 算法 FP-Growth算法 算法原理 步骤1 统计各个商品被购买的频次 步骤2 构建FP树 步骤3 频繁项的挖掘 阅读本文需要了解关联挖掘的基本知识,了解关联挖掘的基本原理,参 ...
- 如何告别“人工运维”,借助算法进行告警关联挖掘分析?
背景 近年来互联网技术高速发展,接入监控告警的设备和业务也越来越多,不断增新的设备和业务使得告警的量级也逐级递加.各种软硬件模块每天会产生大量的告警信息,这些告警中有表象告警,有冗余告警,也有根因告警 ...
- 关联挖掘算法及其应用(1)
目录 一.关联挖掘基本概念--从购物篮分析说起 二.关联规则经典算法[^1] 2.1 相关术语 2.2 Apriori算法 2.3 FP-Growth算法 FP-Tree的构造 从FP-Tree中提取 ...
- 明略数据SCOPA发布 开启大数据关联挖掘的新时代
10月22日,明略数据战略产品发布会在中国大饭店隆重召开,同时也开启了基于数据关系挖掘的大数据智能分析新篇章.此次发布会吸引了众多明略数据的客户.合作伙伴及行业专业人士莅临到场.明略数据董事长吴明辉先 ...
- WEKA使用(基础配置+垃圾邮件过滤+聚类分析+关联挖掘)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析, ...
- python机器学习-sklearn挖掘乳腺癌细胞(五)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- 数据挖掘:基于关联挖掘的商品销售分析
摘 要 本次论文作为数据仓库的结课论文,主要总结了课堂上学到的有关关联挖掘定义和属性以及分类等理论知识:并根据李建老师提供的Northwind数据(这是一系列有关商品销售情况的数据),建立星型模型 ...
- 机器学习之西瓜书绪论--关于机器学习的简单介绍
机器学习的简单介绍 绪论 1.1机器学习是能够用来干嘛的 1.2 机器学习的基本术语 1.3 假设空间 1.4归纳偏好 总结 参考链接 绪论 1.1机器学习是能够用来干嘛的 我们在辨别一个西瓜的好坏的 ...
- 利用机器学习算法挖掘群控网络黑产设备
群控,是黑产团伙中一种比较流行的作弊工具,可以批量操作多台手机.黑产团伙使用群控设备的一般流程是,自动化注册.登录.操作,从业务行为上伪装成正常的用户,不断重复操作使得获利最大化. 前面介绍的多种手段 ...
最新文章
- Django(五)模型(model)系统 -- 常用字段和字段参数
- clusterProfiler对差异表达基因进行富集分析
- 集群调度架构的变革 (二)
- b-2014四川电子机械职业技术学院计算机科学与技术毕业设计选题,2014届计算机科学与技术专业本科毕业设计(论文)选题指南...
- Android系统(116)---APP启动过程
- C#中的深度学习:了解神经网络架构
- WPF和Expression Blend开发实例:Adorner(装饰器)应用实例
- rsync文件同步应用--客户端的配置
- YB1205B 外置MOS异步升压恒流LED驱动控制器
- python八皇后问题递归算法_八皇后问题--递归回溯算法(Python实现)
- 基于微信视频点播小程序系统设计与实现 开题报告
- 苹果电脑双系统正确打开方式,虚拟机已经Out了
- 董导微博rust视频_丝绸扣碎、阴阳 AJ1 纷纷登场,5 月球鞋发售又有「新惊喜」!...
- 6m缓存和8m缓存差距_全能工具箱一款专门为安卓设备研发的综合型系统管理工具。实时内存、进程清理、缓存清理、SD卡文件管理、历史记录清除、开机项管理!...
- 2021-07-18大学 复习网课 视频 (倍速详细篇)
- python xmxl 无法启动_auto-pypi-一个Python命令行工具,用于自动设置包并将其上载到PyPi。-Sen LEI Use As A Command Line Tool...
- 解决电脑插耳机听视频暂停后继续耳机声音突然变大的问题(详细图解)
- ValidationError: Invalid options object.报错
- 2022最新网盘系统源码仿蓝奏
- tpshop商城web测试环境