python数据挖掘（1.亲和性分析）

数据源(python数据挖掘文件下的chapter1)

亲和性分析

亲和性分析根据样本之间的相似度，确定他们关系的亲疏。
下面我们说一个非常常见的应用场景，顾客在买一件商品时，商家可以趁机了解他们还想买什么，以便把多数顾客愿意同时购买的商品放到一起增加销量以提升销售额，当商家收集到足够多的数据时，可以进行亲和性分析，确定哪些商品放到一起出售效果最佳。

亲和性有多种测量方式，例如，两件商品同时出售的频率，购买A再购买B的比例，还有其他方法，我们在后续章节中介绍。

为了方便讲述，我们只考虑一次购买两种商品的情况，我们的商场中有5种商品分别是面包，牛奶，奶酪，苹果和香蕉。数据在文章开头的链接中可以下载到。我们看一下数据

第一行0，0，1，1，1 。0代表没有购买，1代表购买了，该顾客购买了奶酪，苹果和香蕉，并没有购买面包和牛奶。每个特征值只有2个可能的值，1或0，表示是否购买了该商品，并非购买的个数。

我们需要找出的是‘如果顾客购买了商品A，那么他可能愿意购买商品B’这样的规则，最简单的办法是找出数据中同时购买的两件商品，看一下多少人这么做了。
有很多种衡量方法，常用的是支持度和置信度。
支持度指的是给定规则下的次数。
置信度衡量给定规则应验的比例

下面我们通过一个简单的例子来说明一下支持度和置信度的计算。
我们现在想知道，如果顾客购买了苹果，他们也会购买香蕉的支持度和置信度。

In [1]: import numpy as np                                                      In [2]: data_filename = 'Chapter1.txt'                             In [3]: x = np.loadtxt(data_filename)                                           In [4]: print(x[:5])
[[0. 0. 1. 1. 1.][1. 1. 0. 1. 0.][1. 0. 1. 1. 0.][0. 0. 1. 1. 1.][0. 1. 0. 0. 1.]]In [5]: n_samples, n_features = x.shape ...: print(n_samples,n_features)
100 5#一共100行，每行有5个数In [6]: features = ['bread','milk','cheese','apples','banana']                  In [7]: rule_valid = 0 ...: rule_invalid = 0 ...: for sample in x: ...:     if sample[3] == 1: ...:         if sample[4] ==1: ...:             rule_valid += 1 ...:         else: ...:             rule_invalid += 1 ...: print("既买了苹果又买香蕉的有%s人"%(rule_valid)) ...: print("买了苹果没买香蕉有%s人"%(rule_invalid))
既买了苹果又买香蕉的有21人
买了苹果没买香蕉有15人

那么我们所需要的数都算出来了。
在这个例子中，顾客购买了苹果，也会购买香蕉的支持度就是21，置信度为21/(21+15)=0.583.

现在我们要统计所有规则的相关数据，计算所有规则下的置信度和支持度。
下面我将创建几个字典用来存放这些数据，我们就按照features = [‘bread’,‘milk’,‘cheese’,‘apples’,‘banana’] 这个列表的索引来代替商品的名称，我用一个元组来当字典的键，例如（2，1）既购买奶酪的情况下也会购买牛奶，注意（2，1）和（1，2）是不同的概念。

In [21]: from collections import defaultdict                                                                         In [22]: valid_rules = defaultdict(int)                                                                              In [23]: invalid_rules = defaultdict(int)                                                                            In [24]: num_occurences = defaultdict(int)                                                                           In [25]: for sample in x: ...:     for primise in range(5): ...:         if sample[primise] == 0:continue ...:         num_occurences[primise] += 1 ...:         for conclusion in range(5): ...:             if primise == conclusion: ...:                 continue ...:             if sample[conclusion] == 1: ...:                 valid_rules[(primise,conclusion)] += 1 ...:             else: ...:                 invalid_rules[(primise,conclusion)] += 1 ...:                                                                                                             In [26]: support = valid_rules                                                                                       In [27]: confidence = defaultdict(float)                                                                             In [28]: for primise,conclusion in valid_rules.keys(): ...:     confidence[(premise,conclusion)] = valid_rules[(primise, conclusion)] / num_occurences[premise] ...:                                                                                                             In [29]: print(support)
defaultdict(<class 'int'>, {(2, 3): 25, (2, 4): 27, (3, 2): 25, (3, 4): 21, (4, 2): 27, (4, 3): 21, (0, 1): 14, (0, 3): 5, (1, 0): 14, (1, 3): 9, (3, 0): 5, (3, 1): 9, (0, 2): 4, (2, 0): 4, (1, 4): 19, (4, 1): 19, (0, 4): 17, (4, 0): 17, (1, 2): 7, (2, 1): 7})In [30]: print(confidence)
defaultdict(<class 'float'>, {(2, 3): 0.6944444444444444, (2, 4): 0.75, (3, 2): 0.6944444444444444, (3, 4): 0.5833333333333334, (4, 2): 0.75, (4, 3): 0.5833333333333334, (0, 1): 0.3888888888888889, (0, 3): 0.1388888888888889, (1, 0): 0.3888888888888889, (1, 3): 0.25, (3, 0): 0.1388888888888889, (3, 1): 0.25, (0, 2): 0.1111111111111111, (2, 0): 0.1111111111111111, (1, 4): 0.5277777777777778, (4, 1): 0.5277777777777778, (0, 4): 0.4722222222222222, (4, 0): 0.4722222222222222, (1, 2): 0.19444444444444445, (2, 1): 0.19444444444444445})

我们已经生成了所需要的支持度和置信度，这么看起来不是很方便。让我们更清楚的看一下

In [31]: features_c = ['面包','牛奶','奶酪','苹果','香蕉'] ...: for premise, conclusion in confidence: ...:     premise_name = features_c[premise] ...:     conclusion_name = features_c[conclusion] ...:     print("结果:同时购买{0}和{1}".format(premise_name, conclusion_name)) ...:     print(" - 占比: {0:.1f}%".format(confidence[(premise, conclusion)]*100)) ...:     print(" - 支持度: {0}".format(support[(premise, conclusion)])) ...:     print("") ...:
结果:同时购买奶酪和苹果- 占比: 69.4%- 支持度: 25结果:同时购买奶酪和香蕉- 占比: 75.0%- 支持度: 27结果:同时购买苹果和奶酪- 占比: 69.4%- 支持度: 25结果:同时购买苹果和香蕉- 占比: 58.3%- 支持度: 21结果:同时购买香蕉和奶酪- 占比: 75.0%- 支持度: 27结果:同时购买香蕉和苹果- 占比: 58.3%- 支持度: 21结果:同时购买面包和牛奶- 占比: 38.9%- 支持度: 14结果:同时购买面包和苹果- 占比: 13.9%- 支持度: 5结果:同时购买牛奶和面包- 占比: 38.9%- 支持度: 14结果:同时购买牛奶和苹果- 占比: 25.0%- 支持度: 9结果:同时购买苹果和面包- 占比: 13.9%- 支持度: 5结果:同时购买苹果和牛奶- 占比: 25.0%- 支持度: 9结果:同时购买面包和奶酪- 占比: 11.1%- 支持度: 4结果:同时购买奶酪和面包- 占比: 11.1%- 支持度: 4结果:同时购买牛奶和香蕉- 占比: 52.8%- 支持度: 19结果:同时购买香蕉和牛奶- 占比: 52.8%- 支持度: 19结果:同时购买面包和香蕉- 占比: 47.2%- 支持度: 17结果:同时购买香蕉和面包- 占比: 47.2%- 支持度: 17结果:同时购买牛奶和奶酪- 占比: 19.4%- 支持度: 7结果:同时购买奶酪和牛奶- 占比: 19.4%- 支持度: 7

我们再进行一下排序。

In [40]: from operator import itemgetter ...: sorted_support = sorted(support.items(),key=itemgetter(1),reverse=True) ...: for index in range(5): ...:     print("排名{0}".format(index+1)) ...:     premise,conclusion = sorted_support[index][0] ...:     print("同时购买{0}和{1}".format(features_c[premise],features_c[conclusion])) ...:     print(' - 占比:{0:.1f}%'.format(confidence[(premise,conclusion)]*100)) ...:     print(' - 支持度:{0}'.format(sorted_support[index][1])) ...:     print("") ...:
排名1
同时购买奶酪和香蕉- 占比:75.0%- 支持度:27排名2
同时购买香蕉和奶酪- 占比:75.0%- 支持度:27排名3
同时购买奶酪和苹果- 占比:69.4%- 支持度:25排名4
同时购买苹果和奶酪- 占比:69.4%- 支持度:25排名5
同时购买苹果和香蕉- 占比:58.3%- 支持度:21

这是根据支持度进行的排序。根据置信度的代码就不上了。
从结果上看‘顾客买苹果，也会买奶酪’，和‘顾客买奶酪，也会买香蕉’，这两条在置信度还是支持度上都很高，超市就可以根据这些规则调整摆放，例如在苹果促销时旁边摆上奶酪，但是香蕉和奶酪同时促销就没有他打意义，因为在买奶酪的顾客中66%都会购买香蕉，所以即使香蕉不搞促销，顾客也会购买。
上面是一个最最简单的例子，我们能获取到很多很多的信息。通过寻找各变量的关系，就能得出一些有用的结论，提高效率。