pagerank数据集_机器学习十大经典算法-PageRank（附实践代码）

Yo, yo, check it out. 保证看完不晕倒...

如果公式让你脑瓜疼，请忽略公式，或者忽略脑瓜。

Kagging咖金：推荐系统之关联规则（附实践代码）zhuanlan.zhihu.com

继上一个十大经典算法Ariori关联规则算法，今天的主角是曾经撑起Google帝国的PageRank算法。1998年，Stanford大学博士生Larry Page和Sergey Brin创立了Google，使用PageRank对海量的网页进行重要性分析。

Stanford大学博士生Larry Page

PageRank算法是参照论文引用影响力的算法，是属于图论的影响力模型（基于图论的还有经常被用于用户画像的社区发现系列如LPA算法，另写文章）。先上一张图，看这几个网页的影响力图

import networkx as nx
# 创建有向图
G = nx.DiGraph()
# 有向图之间边的关系
edges = [("A", "B"), ("A", "C"), ("A", "D"), ("B", "A"), ("B", "D"), ("C", "A"), ("D", "B"), ("D", "C")]
for edge in edges:G.add_edge(edge[0], edge[1])
pagerank_list = nx.pagerank(G, alpha=1)
print("pagerank值是：", pagerank_list)

[output] pagerank值是： {'A': 0.333, 'B': 0.222, 'C': 0.222, 'D': 0.222}

这样就量化了各个网页的影响力，是不是很Cool

我们通过手推来理解下PageRank简化模型的原理：

两个概念
出链：链接出去的链接。
入链：链接进来的链接。

一个网页u的影响力 = 所有入链集合的页面的加权影响力之和，来看下全文只出现一次的公式

（u：待评估的页面，Bu为u的入链集合）

Lv不是名牌包包，是节点v的初恋个数。。。

转移矩阵：统计网页对于其他网页的跳转概率
因为出链会给被链接的页面赋予影响力，关键在于统计他们出链的数量

假装能看懂的矩阵

看第一列，分别是A>A, A>B, A>C, A>D的转移表示。
这是一个不自恋的人和三个人的初恋的故事：
A对A的没有出链，那叫不自恋的A。A对BCD都有出链，A对BCD都有初恋。
所以表示成，前面第一个是0，后面三个都是1/3。

PageRank实现过程：

Step1，假设A、B、C、D的初始影响力相同

Step2，进行第一次转移之后，页面的影响力变成：

假装能看懂的矩阵运算

Step3，进行n次迭代后，直到页面的影响力不再发生变化，也就是影响力收敛=>最终影响力

对数学公式运算不感冒，没关系，我们还有人见人恨的手推代码。

import numpy as np
a = np.array([[0, 1/2, 1, 0], [1/3, 0, 0, 1/2],[1/3, 0, 0, 1/2],[1/3, 1/2, 0, 0]])
b = np.array([1/4, 1/4, 1/4, 1/4])

让表哥给你把a和b转成你爱看的样子：

接下来是关键代码，看好了

结合step1-3对照完整代码再看一下

import numpy as np
a = np.array([[0, 1/2, 1, 0], [1/3, 0, 0, 1/2],[1/3, 0, 0, 1/2],[1/3, 1/2, 0, 0]])
w = np.array([1/4, 1/4, 1/4, 1/4])
for i in range(100):w = np.dot(a, w)

就这么几步，这PageRank真是骨骼清奇啊

然而鹅鹅鹅：简化版的模型在实际应用中是不Work的

因为不是所有人都初恋过，也不是所有的节点都满足既有出链，又有入链。

有些网页只有进没有出，就像A这样

有些只有出没有进，就像这个A这样

看到这里，配齐崩溃了

拉里-佩奇的PageRank优化：

Larry Page提出了PageRank的随机浏览模型，假设用户并不都是按照跳转链接的方式来上网，还有一种可能是不论当前处于哪个页面，都有概率访问到其他任意的页面。引入阻尼因子d，通常取值为0.85（默认）。

简洁而优美的随机浏览模式，一如优雅的赫本

假装你看不见的优化版公式，d是阻尼因子，N是总页面数

# PageRank的随机浏览模型
def random_work(a, w, n):d = 0.85for i in range(100):w = (1-d)/n + d*np.dot(a, w)print(w)

PageRank的模型使用场景还是比较广的：

社交网络领域：

如何计算博主影响力（粉丝数=影响力么？）
如何计算职场影响力（脉脉的影响力计算）

生物领域：

基因、蛋白研究，通过PageRank确定七个与遗传有关的肿瘤基因

推荐系统：

将用户行为转化为图的形式，对用户u进行推荐，转化为计算用户u和与所有物品i之间的相关性，取与用户没有直接边相连的物品，按照相关性的高低生成推荐列表

交通网络：

预测城市的交通流量和人流动向

这个模型还可以有很多运用场景，因为节点可以是任何事物：words, sentences, images, users...

是的，它比六环少一环，但它比四环多一环。。。

接下来跟着佩奇进行PageRank实战

数据集

希拉里邮件数据集，513个人名，9306封邮件，人名存在别名的情况
目标：计算不同的人在邮件数据集中的权重，筛选重要的人物，绘制网络图

整个数据集由三个文件组成：Aliaes.csv, Email.csv和Person.csv,其中Email文件记录了所有公开邮件的内容，发送者和接受者的信息。Persons这个文件统计了邮件中所有人的姓名以及对应的ID。
因为姓名存在别名的情况，为了将邮件中的人物进行统一，我们还需要使用Aliases文件来查询别名和人物的对应关系。
整个数据集中包括9306封邮件和513个人名，数据集还是比较大的。不过这一次我们不需要对邮件的内容进行分析，只需要通过邮件的发送者和接收者（对应的Emails.csv文件中的MetadataForm和MetadataTo字段）来绘制整个关系网络。

因为涉及到的人物很多，因此我们需要通过PageRank算法计算每个人物在邮件关系网络中的权重，最后筛选出来最有价值的人物来进行关系网络图的绘制。

中心状网络图

圆桌状网络图

PageRank不仅仅是一个算法，而是一种思想，这一系列算法还有：

TextRank算法，一种用于文本的基于图的排序算法，根据词之间的共现关系构造网络
EdgeRank算法，2017年底，微博采用了类似FaceBook的EdgeRank算法
PersonalRank算法，在推荐场景中，从用户u对应的节点开始游走，改成以(1-d)的概率固定从u重新开始，当收敛的时候，计算item节点影响力排名，即为用户u感兴趣的item

文章收录于【机器学习从入门到奖牌】专栏，如何使用PageRank算法实战，实践代码我放Github。

Yo, yo, Check it out. Data if Kagging now...