1. 频繁项集的评估标准

    什么样的数据才是频繁项集呢?也许你会说,这还不简单,肉眼一扫,一起出现次数多的数据集就是频繁项集吗!的确,这也没有说错,但是有两个问题,第一是当数据量非常大的时候,我们没法直接肉眼发现频繁项集,这催生了关联规则挖掘的算法,比如Apriori, PrefixSpan, CBA。第二是我们缺乏一个频繁项集的标准。比如10条记录,里面A和B同时出现了三次,那么我们能不能说A和B一起构成频繁项集呢?因此我们需要一个评估频繁项集的标准。

    常用的频繁项集的评估标准有支持度,置信度和提升度三个。

    支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。如果我们有两个想分析关联性的数据X和Y,则对应的支持度为:

该算法的核心 思想就是对目标事务库采用逐层迭代搜索的方式进行挖掘k 阶频繁项目集,直至找 到最高阶的频繁项目集即止,最后通过获得的频繁项目集进行关联规则挖掘,从 而实现挖掘目标数据间关联关系的最终目标。 Apriori 算法的主要策略是根据预先设定的最小支持度获取目标事务库中的全部频繁项目集,再根据频繁项目集快速获取出关联规则,详细的挖掘步骤如下所 示: 步骤一:首次遍历目标事务库,找出 1 阶频繁项集 L1。 步骤二:将 )2( k1 kL  采用自身连接生成k 阶候选项目集Ck 。 步骤三:根据频繁项目集的任一子集全部都为频繁项目集,可以对k 阶候选项 目集 Ck 进行剪枝。假设 Ck 1 是 Ck 的任意一个 k  )1( 阶子集,若  LC kk  11 ,则  LC kk ,则该候选项目集肯定不是频繁的,可以直接将该候选项目集进行删除。 步骤四:循环步骤二、步骤三,直至不能得到更高阶的频繁项目集为止,在 得出的所有频繁项目集中计算出满足要求的关联规则,挖掘过程结束。 为了更直观地说明 Apriori 算法的挖掘步骤,将给出一个具体事例,简单起见, 假设事务库 D 有 5 条记录,具体内容如表 2.1 所示以及最小支持度为 2。

2.2.2 常见的 Apriori 算法改进策略

(1)基于事务压缩的方法 在对 Apriori 算法分析的基础上,可以得出 Apriori 算法具有如下性质和推论: 性质 1:如果存在一个项集是频繁项集,则其任一非空子集也必然是频繁项集 的。 推论 1:如果存在一个项集不是频繁项集,那么它的任意超集也肯定不会是频 繁项集。

2021-09-15频繁项集的评估标准相关推荐

  1. 12使用FP-growth算法来高效发现频繁项集

    第12章 使用FP-growth算法来高效发现频繁项集 一.背景 大家都用过搜索引擎.当我们输入一个单词或单词的一份,搜索引擎就会自动补全查询词项.例如:当我们在百度输入"为什么" ...

  2. Chapter 12 使用FP-growth算法来高效发现频繁项集

    本博文内容包括以下: 发现事务数据中的公共模式 FP-growth算法 发现twitter源中的共同词 FP-growth 算法 是基于Apriori算法,但在完成相同的任务(将数据集存储在一个特定的 ...

  3. 机器学习之手把手实现,第 2 部分 频繁项集与关联规则 FP-growth 的原理和实现...

    https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on2-fp-growth/index.h ...

  4. FP-growth算法高效发现频繁项集

    在用搜索引擎时,我们发现输入单词的一部分时,搜索引擎会自动补全查询词项,这里的原理其实是通过查询互联网上的词来找出经常出现在一块的词对,这需要一种高效发现频繁集的方法. 它基于Apriori构建,但在 ...

  5. 数据挖掘: 频繁项集挖掘(购物篮问题)

    大家恐怕都听说过著名的啤酒与尿布, 这是典型的购物篮问题, 在数据挖掘界叫做频繁项集(Frequent Itemsets). note: 数据类型写法按照Python的格式. 一. 目标与定义 1. ...

  6. FP-growth算法发现频繁项集(一)——构建FP树

    常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数 ...

  7. FP-growth算法发现频繁项集(二)——发现频繁项集

    上篇介绍了如何构建FP树,FP树的每条路径都满足最小支持度,我们需要做的是在一条路径上寻找到更多的关联关系. 抽取条件模式基 首先从FP树头指针表中的单个频繁元素项开始.对于每一个元素项,获得其对应的 ...

  8. 基于Python的购物篮频繁项集数据挖掘分析系统

    目 录 第一章 绪论 1 1.1 选题背景与研究意义 1 1.2 应用领域 1 1.3 主要研究内容 2 1.4 论文组织结构 2 第二章 理论基础 4 2.1 数据挖掘 4 2.2 频繁项集 5 2 ...

  9. 河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集

    河北工业大学数据挖掘实验三 应用 Apriori 算法挖掘频繁项集 一.实验目的 二.实验原理 1.Apriori 算法 2.提高频繁项集逐层产生的效率 三.实验内容和步骤 1.实验内容 2.实验步骤 ...

  10. 频繁项集的产生及经典算法

    前言: 关联规则是数据挖掘中最活跃的研究方法之一, 是指搜索业务系统中的所有细节或事务,找出所有能把一 组事件或数据项与另一组事件或数据项联系起来的规则,以获 得存在于数据库中的不为人知的或不能确定的 ...

最新文章

  1. 咸鱼翻身 汉能薄膜是如何做到的?
  2. ASP.NET代码优化浅析
  3. MySQL datediff()函数
  4. css实现左(右)侧固定宽度,右(左)侧宽度自适应 ---清除浮动
  5. VMware虚拟机安装
  6. Linux Kbuild文档 2
  7. laravel 项目迁移_在Laravel迁移
  8. [Web]Restful风格的适用场景
  9. 10 个内存引发的大坑,你能躲开几个?
  10. caffe调参经验资料文章
  11. ds哈希查找--链地址法_Hash冲突之开放地址法
  12. 计算机术语宏是什么意思,宏(计算机术语)
  13. 六轴传感器—姿态检测(MPU6050、LSM6DS3)
  14. vlan tenant network on ovn based dvr (by quqi99)
  15. 最常用到的35种心理效应集锦
  16. C语言每日一练——第66天:委派任务问题
  17. revit插件建模助手怎么快速标注轴网距离
  18. NXP恩智浦集成开发环境IDE S32DS下载教程(最全)
  19. Java生成随机数原理_Java中随机数的产生方式与原理详解
  20. openwrt下载安装中文语言包(离线版)

热门文章

  1. 定时器_STM32通用定时器
  2. 准备学Java的同学看过来,初学者入门必备!
  3. Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network
  4. 祖传CMOS走出家门,佳能将在传感器供应圈中决战索尼
  5. J2EE 第二阶段项目之JUnit4进行单元测试(五)
  6. c# ThreadPoold使用心得
  7. 二分搜索 POJ 1064 Cable master
  8. Java 问答:终极父类(第一部分)
  9. js实现删除文章弹窗提示是否确认
  10. Linux vip地址通信原理,IPv6的组播地址(掌握IPv6通信原理的关键知识点)