原始链接:基于Python的机器学习实战:Apriori

原始链接里的代码是在python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。

Apriori算法的pyspark实现:pyspark实现Apriori算法、循环迭代、并行处理

#coding=utf8
#python3.5
#http://www.cnblogs.com/90zeng/p/apriori.htmldef loadDataSet():'''创建一个用于测试的简单的数据集'''return [ [ 1, 3, 4,5 ], [ 2, 3, 5 ], [ 1, 2, 3,4, 5 ], [ 2,3,4, 5 ] ]
def createC1( dataSet ):'''构建初始候选项集的列表,即所有候选项集只包含一个元素,C1是大小为1的所有候选项集的集合'''C1 = []for transaction in dataSet:for item in transaction:if [ item ] not in C1:C1.append( [ item ] )C1.sort()#return map( frozenset, C1 )#return [var for var in map(frozenset,C1)]return [frozenset(var) for var in C1]
def scanD( D, Ck, minSupport ):'''计算Ck中的项集在数据集合D(记录或者transactions)中的支持度,返回满足最小支持度的项集的集合,和所有项集支持度信息的字典。'''ssCnt = {}for tid in D:                  # 对于每一条transactionfor can in Ck:             # 对于每一个候选项集can,检查是否是transaction的一部分 # 即该候选can是否得到transaction的支持if can.issubset( tid ):ssCnt[ can ] = ssCnt.get( can, 0) + 1numItems = float( len( D ) )retList = []supportData = {}for key in ssCnt:support = ssCnt[ key ] / numItems                   # 每个项集的支持度if support >= minSupport:                           # 将满足最小支持度的项集,加入retListretList.insert( 0, key )supportData[ key ] = support                        # 汇总支持度数据return retList, supportData
def aprioriGen( Lk, k ): # Aprior算法'''由初始候选项集的集合Lk生成新的生成候选项集,k表示生成的新项集中所含有的元素个数'''retList = []lenLk = len( Lk )for i in range( lenLk ):for j in range( i + 1, lenLk ):L1 = list( Lk[ i ] )[ : k - 2 ];L2 = list( Lk[ j ] )[ : k - 2 ];L1.sort();L2.sort()if L1 == L2:retList.append( Lk[ i ] | Lk[ j ] ) return retList
def apriori( dataSet, minSupport = 0.5 ):C1 = createC1( dataSet )                                # 构建初始候选项集C1#D = map( set, dataSet )                                 # 将dataSet集合化,以满足scanD的格式要求#D=[var for var in map(set,dataSet)]D=[set(var) for var in dataSet]L1, suppData = scanD( D, C1, minSupport )               # 构建初始的频繁项集,即所有项集只有一个元素L = [ L1 ]                                              # 最初的L1中的每个项集含有一个元素,新生成的k = 2                                                   # 项集应该含有2个元素,所以 k=2while ( len( L[ k - 2 ] ) > 0 ):Ck = aprioriGen( L[ k - 2 ], k )Lk, supK = scanD( D, Ck, minSupport )suppData.update( supK )                             # 将新的项集的支持度数据加入原来的总支持度字典中L.append( Lk )                                      # 将符合最小支持度要求的项集加入Lk += 1                                              # 新生成的项集中的元素个数应不断增加return L, suppData                                      # 返回所有满足条件的频繁项集的列表,和所有候选项集的支持度信息
def calcConf( freqSet, H, supportData, brl, minConf=0.7 ):  # 规则生成与评价  '''计算规则的可信度,返回满足最小可信度的规则。freqSet(frozenset):频繁项集H(frozenset):频繁项集中所有的元素supportData(dic):频繁项集中所有元素的支持度brl(tuple):满足可信度条件的关联规则minConf(float):最小可信度'''prunedH = []for conseq in H:conf = supportData[ freqSet ] / supportData[ freqSet - conseq ]if conf >= minConf:print(freqSet - conseq, '-->', conseq, 'conf:', conf)brl.append( ( freqSet - conseq, conseq, conf ) )prunedH.append( conseq )return prunedHdef rulesFromConseq( freqSet, H, supportData, brl, minConf=0.7 ):'''对频繁项集中元素超过2的项集进行合并。freqSet(frozenset):频繁项集H(frozenset):频繁项集中的所有元素,即可以出现在规则右部的元素supportData(dict):所有项集的支持度信息brl(tuple):生成的规则'''m = len( H[ 0 ] )if len( freqSet ) > m + 1: # 查看频繁项集是否足够大,以到于移除大小为 m的子集,否则继续生成m+1大小的频繁项集Hmp1 = aprioriGen( H, m + 1 )Hmp1 = calcConf( freqSet, Hmp1, supportData, brl, minConf ) #对于新生成的m+1大小的频繁项集,计算新生成的关联规则的右则的集合if len( Hmp1 ) > 1: # 如果不止一条规则满足要求(新生成的关联规则的右则的集合的大小大于1),进一步递归合并,#这样做的结果就是会有“[1|多]->多”(右边只会是“多”,因为合并的本质是频繁子项集变大,#而calcConf函数的关联结果的右侧就是频繁子项集)的关联结果rulesFromConseq( freqSet, Hmp1, supportData, brl, minConf )def generateRules( L, supportData, minConf=0.7 ):'''根据频繁项集和最小可信度生成规则。L(list):存储频繁项集supportData(dict):存储着所有项集(不仅仅是频繁项集)的支持度minConf(float):最小可信度'''bigRuleList = []for i in range( 1, len( L ) ):for freqSet in L[ i ]:                                                      # 对于每一个频繁项集的集合freqSetH1 = [ frozenset( [ item ] ) for item in freqSet ]if i > 1:# 如果频繁项集中的元素个数大于2,需要进一步合并,这样做的结果就是会有“[1|多]->多”(右边只会是“多”,#因为合并的本质是频繁子项集变大,而calcConf函数的关联结果的右侧就是频繁子项集),的关联结果rulesFromConseq( freqSet, H1, supportData, bigRuleList, minConf )else:calcConf( freqSet, H1, supportData, bigRuleList, minConf )return bigRuleList
if __name__ == '__main__':myDat = loadDataSet()                                   # 导入数据集#C1 = createC1( myDat )                                  # 构建第一个候选项集列表C1#D = map( set, myDat )                                   # 构建集合表示的数据集 D,python3中的写法,或者下面那种#D=[var for var in map(set,myDat)]#D=[set(var) for var in myDat] #D: [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]#L, suppData = scanD( D, C1, 0.5 )                       # 选择出支持度不小于0.5 的项集作为频繁项集#print(u"频繁项集L:", L)#print(u"所有候选项集的支持度信息:", suppData)#print("myDat",myDat)L, suppData = apriori( myDat, 0.5 )                     # 选择频繁项集print(u"频繁项集L:", L)print(u"所有候选项集的支持度信息:", suppData)rules = generateRules( L, suppData, minConf=0.7 )print('rules:\n', rules)

Apriori算法的python实现相关推荐

  1. apriori算法python代码_通俗易懂Apriori算法及Python实现

    本篇分为三个部分: 一.算法背景 啤酒与尿布故事: 某超市为增加销售量,提取出了他们超市所有的销售记录进行分析.在对这些小票数据进行分析时,发现男性顾客在购买婴儿尿片时,通常会顺便搭配带打啤酒来犒劳自 ...

  2. Apriori算法与python实现

    Apriori算法   Apriori算法用于关联分析,其目标包括两个:发现频繁项集,发现关联规则.首先需要发现频繁项集,然后才能发现关联规则.本文Apriori部分的代码来自<机器学习实战&g ...

  3. 原理 + 代码 | Apriori 算法与基于关联规则的购物篮推荐

    本文的代码与数据可在公众号 " 数据分析与商业实践 " 后台回复 " 0716 " 获取,更多商业实践案例等你来撩 推荐系统将成为未来十年里最重要的变革,社会化 ...

  4. 【商业挖掘】关联规则——Apriori算法(最全~)

    目录 一.关联规则挖掘 二.Apriori-关联规则算法 三.Apriori算法分解-Python大白话式实现 步骤1: 外部库调用❀ 步骤2: 数据导入❀ 步骤3: 数据处理❀ 步骤4:输出所有Go ...

  5. Apriori算法基本概念以及原理解析

    Apriori算法中几个重要的概念 A->B: 支持度: P(A^B) 表示A和B同时发生时的概率,没有先后顺序. 可信度或置信度: P(B|A) 表示A发生时,B发生的概率,有先后顺序. P( ...

  6. 关联分析——频繁项集的产生之Apriori算法

    关联分析--频繁项集的产生之Apriori算法 频繁项集的产生-Apriori算法 Apriori算法的Python实现 提取1-项集 提取频繁k-项集 生成候选k-项集 Apriori算法 封装 频 ...

  7. Apriori算法介绍(Python实现)

    导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...

  8. Apriori算法简介及实现(python)

    Apriori这个词的意思是"先验的",从priori这个词根可以猜出来~;) .该算法用于从数据中挖掘频繁项数据集以及关联规则.其核心原理是基于这样一类"先验知识&qu ...

  9. python——pandas数据分析(表格处理)工具实现Apriori算法

    pandas 是基于NumPy 的一种工具, 名字很卡哇伊,来源是由" Panel data"(面板数据,一个计量经济学名词)两个单词拼成的.pandas纳入了大量库和一些标准的数 ...

最新文章

  1. Help Johnny-(类似杭电acm3568题)
  2. 【总结】栈溢出StacOverflowError
  3. 适配器设计模式,简单的Java代码模拟
  4. Tick技术栈之InfluxDB
  5. Android Camera的使用(一) 读书笔记
  6. OpenCV SVM支持向量机和KNearest数字识别的实例(附完整代码)
  7. js清空本地存储_JS原理、方法与实践 本地存储
  8. html js脚本限制 正则,简单谈谈JS中的正则表达式
  9. 记录:Android中StackOverflow的问题
  10. Ubuntu14.04如何备份和恢复系统
  11. 005.在Windows下编程让效率起飞
  12. 服务器网络销售软文,关于云服务器的软文
  13. 如何用计算机制作思维导向图,电脑怎样制作思维导图,手把手教你绘制思维导图简单方法...
  14. Matplotlib可视化数据分析图表下(常用图表的绘制、折线图、柱形图、直方图、饼形图、散点图、面积图、热力图、箱形图、3D图表、绘制多个图表、双y轴可视化图表、颜色渐变图)
  15. 2018年最全阿里巴巴开源项目汇总
  16. 虚拟机VMware安装PhoenixOS(凤凰OS)
  17. Document.readyState 如何使用和侦听
  18. AI三大主义:符号主义、联结主义、行为主义
  19. python学习004-----python中%s的各种用法
  20. Spring cloud 和 Spring Boot 升级到F版和2.x遇到的问题。

热门文章

  1. 一个交期建议程序的坑 4gl SQL
  2. fiyme android底层,魅族首批Android 10底层Flyme于今日正式推送
  3. 喜马拉雅如何正序播放
  4. 如何做好客户维护与服务器,如何做好客户维护关系与管理
  5. 性能测试,你需要了解这款工具
  6. MATLAB国产替代软件出现,这些学校已解决被禁用问题
  7. 优秀课程案例:使用Scratch图形化编程工具模拟物理机械运动-连杆
  8. sublime text3安装python插件和flake8_Sublime Text环境配置(Python、Latex、Markdown)及常见问题汇总...
  9. 单片机毕业设计 stm32智能路灯设计与实现
  10. OGG 抓取进程模式转换(集成模式→经典模式)(integrated→classic)