数据科学家需要知道的5种图算法
作者:Rahul Agarwal
编译:ronghuaiyang
来源 | AI公园(ID:AI_Paradise)
【导读】因为图分析是数据科学家的未来。
作为数据科学家,我们对pandas、SQL或任何其他关系数据库非常熟悉。
我们习惯于将用户的属性以列的形式显示在行中。但现实世界真的是这样吗?
在一个互联的世界里,用户不能被视为独立的实体。它们之间有一定的关系,我们在建立机器学习模型的时候,有时也会考虑这些关系。
现在,虽然在关系数据库中,我们不能在不同的行(用户)之间使用这样的关系,但是在图形数据库中,这样做非常简单。
在本文中,我将讨论一些你应该知道的最重要的图算法,以及如何使用Python实现它们。
1. 连通组件
一个包含3个连通组件的图
我们都知道聚类是如何工作的。
你可以用外行人的术语来理解连通组件,它是一种硬聚类算法,可以在相关/连接的数据中找到聚类/岛屿
举个具体的例子:假设你有连接世界上任何两个城市的道路的数据。你需要找出世界上所有的大陆以及它们包含哪些城市
你将如何实现这一点?来想想吧。
我们使用的连通组件算法是基于BFS/DFS的特殊情况。我不会在这里过多地讨论它是如何工作的,但是我们将看到如何使用Networkx编写和运行代码。
应用
从零售的角度来看:假设我们有很多客户,使用很多账户。使用连通组件算法的一种方法是在数据集中找出明显不同的家族。
我们可以根据相同的信用卡使用情况、相同的地址或相同的移动电话号码等设定客户ID之间的边(路)。一旦我们有了这些连接,我们就可以运行连通组件算法来创建单独的簇,然后我们可以为其分配一个家族ID。
然后,我们可以使用这些家族ID根据家族需求提供个性化的推荐。我们还可以使用这个家族ID,通过创建基于家族的分组特征来支持我们的分类算法。
从财务的角度来看:另一个用例是使用这些家族ID捕获欺诈。如果一个账户在过去有过欺诈行为,关联账户很可能也容易进行欺诈。
可能性只受你自己想象力的限制。
代码
我们将使用Python中的Networkx模块来创建和分析图。
让我们从一个示例图开始,我们使用它来实现我们的目的。包含城市和城市之间的距离信息。
使用随机距离的图
我们首先创建一个带有距离的边的列表,我们把距离作为边的权重:
edgelist = [['Mannheim', 'Frankfurt', 85], ['Mannheim', 'Karlsruhe', 80], ['Erfurt', 'Wurzburg', 186], ['Munchen', 'Numberg', 167], ['Munchen', 'Augsburg', 84], ['Munchen', 'Kassel', 502], ['Numberg', 'Stuttgart', 183], ['Numberg', 'Wurzburg', 103], ['Numberg', 'Munchen', 167], ['Stuttgart', 'Numberg', 183], ['Augsburg', 'Munchen', 84], ['Augsburg', 'Karlsruhe', 250], ['Kassel', 'Munchen', 502], ['Kassel', 'Frankfurt', 173], ['Frankfurt', 'Mannheim', 85], ['Frankfurt', 'Wurzburg', 217], ['Frankfurt', 'Kassel', 173], ['Wurzburg', 'Numberg', 103], ['Wurzburg', 'Erfurt', 186], ['Wurzburg', 'Frankfurt', 217], ['Karlsruhe', 'Mannheim', 80], ['Karlsruhe', 'Augsburg', 250],["Mumbai", "Delhi",400],["Delhi", "Kolkata",500],["Kolkata", "Bangalore",600],["TX", "NY",1200],["ALB", "NY",800]]
使用Networkx构建图:
g = nx.Graph()
for edge in edgelist:
g.add_edge(edge[0],edge[1], weight = edge[2])
现在我们想从这张图中找出不同的大陆及其包含的城市。
我们现在可以使用连通组件算法做到这一点:
for i, x in enumerate(nx.connected_components(g)):
print("cc"+str(i)+":",x)
------------------------------------------------------------
cc0: {'Frankfurt', 'Kassel', 'Munchen', 'Numberg', 'Erfurt', 'Stuttgart', 'Karlsruhe', 'Wurzburg', 'Mannheim', 'Augsburg'}
cc1: {'Kolkata', 'Bangalore', 'Mumbai', 'Delhi'}
cc2: {'ALB', 'NY', 'TX'}
正如你所看到的,我们能够在数据中找到不同的部分。只需要使用边和顶点。这个算法可以在不同的数据上运行,以满足我上面提到的任何用例。
2. 最短路径
继续上面的例子,我们得到了一个德国城市的图以及它们之间的距离。
你想知道如何从法兰克福(起始节点)到慕尼黑的最短距离。
我们用来解决这个问题的算法叫做Dijkstra。用Dijkstra自己的话来说:
从鹿特丹到[格罗宁根的最短路线是什么?一般来说,最短路径的算法是这样的,我花了大约20分钟来设计它。一天早上我在阿姆斯特丹和我的年轻的未婚妻购物,累了,我们坐在咖啡馆露台喝一杯咖啡,我就在想我能不能想出这个最短路径算法,然后我就想出来了。正如我所说,这是一个20分钟的发明。事实上,它是在1959年出版的。三年后,还可以读到,事实上,它相当不错。它如此漂亮的原因之一是我不用铅笔和纸来设计它。后来我了解到,不用铅笔和纸设计的好处之一是,你几乎不得不避免所有可以避免的复杂性。最终,令我大为惊讶的是,这个算法成了我成名的基石之一。
- Edsger Dijkstra,在对Philip L. Frana的采访中
应用
- Dijkstra算法的变体广泛应用于谷歌地图中,用于寻找最短路径。
- 你在沃尔玛,你有不同的通道和所有通道之间的距离。你想要提供从A通道到D通道到客户的最短路径。
- 你可以看到LinkedIn如何显示1级和2级的连接。幕后发生了什么?
代码
print(nx.shortest_path(g, 'Stuttgart','Frankfurt',weight='weight'))
print(nx.shortest_path_length(g, 'Stuttgart','Frankfurt',weight='weight'))
--------------------------------------------------------
['Stuttgart', 'Numberg', 'Wurzburg', 'Frankfurt']
503
for x in nx.all_pairs_dijkstra_path(g,weight='weight'):
print(x)
--------------------------------------------------------
('Mannheim', {'Mannheim': ['Mannheim'], 'Frankfurt': ['Mannheim', 'Frankfurt'], 'Karlsruhe': ['Mannheim', 'Karlsruhe'], 'Augsburg': ['Mannheim', 'Karlsruhe', 'Augsburg'], 'Kassel': ['Mannheim', 'Frankfurt', 'Kassel'], 'Wurzburg': ['Mannheim', 'Frankfurt', 'Wurzburg'], 'Munchen': ['Mannheim', 'Karlsruhe', 'Augsburg', 'Munchen'], 'Erfurt': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Erfurt'], 'Numberg': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Numberg'], 'Stuttgart': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Numberg', 'Stuttgart']})
('Frankfurt', {'Frankfurt': ['Frankfurt'], 'Mannheim': ['Frankfurt', 'Mannheim'], 'Kassel': ['Frankfurt', 'Kassel'], 'Wurzburg': ['Frankfurt', 'Wurzburg'], 'Karlsruhe': ['Frankfurt', 'Mannheim', 'Karlsruhe'], 'Augsburg': ['Frankfurt', 'Mannheim', 'Karlsruhe', 'Augsburg'], 'Munchen': ['Frankfurt', 'Wurzburg', 'Numberg', 'Munchen'], 'Erfurt': ['Frankfurt', 'Wurzburg', 'Erfurt'], 'Numberg': ['Frankfurt', 'Wurzburg', 'Numberg'], 'Stuttgart': ['Frankfurt', 'Wurzburg', 'Numberg', 'Stuttgart']})
....
3. 最小生成树
应用
- 最小生成树直接应用于网络设计,包括计算机网络、电信网络、交通网络、供水网络和电网(它们最初是为这些网络而发明的)
- MST用于逼近旅行商问题
- 聚类 — 首先构造MST,然后使用簇间距离和簇内距离确定MST中某些边缘的分割阈值。
- 图像分割 — 用于图像分割,我们首先在一个图上构造一个MST,其中像素是节点,像素之间的距离基于一些相似性度量(颜色、强度等)。
代码
# nx.minimum_spanning_tree(g) returns a instance of type graph
nx.draw_networkx(nx.minimum_spanning_tree(g))
4. Pagerank
应用
- 它被用来寻找最具影响力的论文使用引文。
- 被谷歌用来排列页面
- 它可以用来把tweets-用户和以及tweets-tweets当成节点进行排序。如果用户A关注了用户B,那么创建用户之间的链接,如果用户tweet/retwets一条tweet,则创建用户和tweet之间的链接。
- 推荐引擎
代码
# reading the dataset
fb = nx.read_edgelist('../input/facebook-combined.txt', create_using = nx.Graph(), nodetype = int)
pos = nx.spring_layout(fb)
import warnings
warnings.filterwarnings('ignore')
plt.style.use('fivethirtyeight')
plt.rcParams['figure.figsize'] = (20, 15)
plt.axis('off')
nx.draw_networkx(fb, pos, with_labels = False, node_size = 35)
plt.show()
pageranks = nx.pagerank(fb)
print(pageranks)
------------------------------------------------------
{0: 0.006289602618466542,
1: 0.00023590202311540972,
2: 0.00020310565091694562,
3: 0.00022552359869430617,
4: 0.00023849264701222462,
........}
import operator
sorted_pagerank = sorted(pageranks.items(), key=operator.itemgetter(1),reverse = True)
print(sorted_pagerank)
------------------------------------------------------
[(3437, 0.007614586844749603), (107, 0.006936420955866114), (1684, 0.0063671621383068295), (0, 0.006289602618466542), (1912, 0.0038769716008844974), (348, 0.0023480969727805783), (686, 0.0022193592598000193), (3980, 0.002170323579009993), (414, 0.0018002990470702262), (698, 0.0013171153138368807), (483, 0.0012974283300616082), (3830, 0.0011844348977671688), (376, 0.0009014073664792464), (2047, 0.000841029154597401), (56, 0.0008039024292749443), (25, 0.000800412660519768), (828, 0.0007886905420662135), (322, 0.0007867992190291396),......]
first_degree_connected_nodes = list(fb.neighbors(3437))
second_degree_connected_nodes = []
for x in first_degree_connected_nodes:
second_degree_connected_nodes+=list(fb.neighbors(x))
second_degree_connected_nodes.remove(3437)
second_degree_connected_nodes = list(set(second_degree_connected_nodes))
subgraph_3437 = nx.subgraph(fb,first_degree_connected_nodes+second_degree_connected_nodes)
pos = nx.spring_layout(subgraph_3437)
node_color = ['yellow' if v == 3437 else 'red' for v in subgraph_3437]
node_size = [1000 if v == 3437 else 35 for v in subgraph_3437]
plt.style.use('fivethirtyeight')
plt.rcParams['figure.figsize'] = (20, 15)
plt.axis('off')
nx.draw_networkx(subgraph_3437, pos, with_labels = False, node_color=node_color,node_size=node_size )
plt.show()
5. 中心度量
应用
中心度量可以作为任何机器学习模型的一个特征。
代码
pos = nx.spring_layout(subgraph_3437)
betweennessCentrality = nx.betweenness_centrality(subgraph_3437,normalized=True, endpoints=True)
node_size = [v * 10000 for v in betweennessCentrality.values()]
plt.figure(figsize=(20,20))
nx.draw_networkx(subgraph_3437, pos=pos, with_labels=False, node_size=node_size )
plt.axis('off')
总结
◆
精彩推荐
◆
推荐阅读
掌握这些步骤,机器学习模型问题药到病除
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(下)
6张拓扑图揭秘中心化交易所的5种行为, 原来中心化比你想象的重要!
分布式存储春天已来Storj首登top10; Cardano排名上升; 以太坊比特币活跃地址双下降 | 数据周榜
华为愿出售5G技术渴望对手;苹果将向印度投资10亿美元;华为全联接大会首发计算战略;腾讯自研轻量级物联网操作系统正式开源……
TDD 就是个坑!
我愿出 2 倍工资,挖这个被裁的程序员!
厉害!接班马云的为何是张勇?
你点的每个“在看”,我都认真当成了喜欢“
数据科学家需要知道的5种图算法相关推荐
- dijkstra算法代码_数据科学家需要知道的5种图算法(附代码)
在本文中,我将讨论一些你应该知道的最重要的图算法,以及如何使用Python实现它们. 作者:AI公园 导读 因为图分析是数据科学家的未来. 作为数据科学家,我们对pandas.SQL或任何其他关系数据 ...
- 作为数据科学家应该知道的11件事
背景 在我们举办的聚会期间,我们见到了很多朋友.从数据科学领域完全的菜鸟到专家,在同一个屋檐下,每个人都发出自己的疑惑.然而,当我们面对这群朋友--很大比例的这部分人(包括一些专家),一件事情显得尤为 ...
- 面向数据科学家的实用统计学_数据科学家必知的统计数据
面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...
- 独家 | 数据科学家应该避免的5种统计陷阱(附链接)
作者:Matthew Mayo 翻译:冯羽 校对:陈雨琳 本文长度约为2500字,建议阅读5分钟 本文介绍了数据科学家应该避免的五种统计陷阱. 标签:偏见,谬误,辛普森悖论,统计 这篇文章讲了五种统计 ...
- 物联网产品:你需要知道的9种智能家居产品
前NASA科研人员:你需要知道的9种智能家居产品 width="22" height="16" src="http://hits.sinajs. ...
- python 欠采样_数据科学家需要了解的 5 种采样方法
雷锋网 AI 科技评论按,采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家需要了解的 5 种采样方法,雷锋网 AI 科技评论编译 ...
- 推荐 :数据科学家应该避免的5种统计陷阱
作者:Matthew Mayo 翻译:冯羽 校对:陈雨琳 本文长度约为2500字,建议阅读5分钟 本文介绍了数据科学家应该避免的五种统计陷阱. 标签:偏见,谬误,辛普森悖论,统计 这篇文章讲了五种 ...
- android电视打开ppt,很少人知道的3种智能电视演示PPT的方法
原标题:很少人知道的3种智能电视演示PPT的方法 演示PPT,通常是在投影上,但随着大屏智能电视的火热和普及,越来越多的办公室以大屏智能电视取代投影,成为办公室不可或缺的生产力.今天就以60吋酷开K6 ...
- 与员工沟通 你需要知道的6种聊天姿势
与员工沟通 你需要知道的6种聊天姿势! 回顾中国企业的管理文化,上司与下属的沟通开场通常利用"封闭式问题"与"为什么式问题"这两种模式,第一种类问题下属的回答有 ...
最新文章
- linux下安装hadoop
- java中数据池有哪些_什么是数据库的 “缓存池” ?(万字干货)
- liunx 下巧妙使用代理服务器(squid)
- Linux的awk命令使用心得
- java中sofa并发访问,云上的日子:用块存储、文件存储还是对象存储?
- 深入Java----集合----BitSet
- jsp连接Sql Server 2000数据库
- 邮箱服务器退回,发出去的邮件为什么被退回?
- POJ3263 Tallest Cow【差分数组】
- Mybatis——持久层框架
- Python字符串函数使用详解
- js使用微信上传图片功能
- 【基金申报】研究目标、内容、方案之间的区别,一文全了解
- python 数字运算及格式化_Python基础教程(3)Python数据类型、运算与格式化
- php表单设置出生日期,纯JS实现出生日期[年月日]下拉菜单效果_茜茜_前端开发者...
- cx oracle 连接编码,python用cx_Oracle连接oracle编码问题解决办法
- 用matlab结合STM32作上位机,基于stm32智能小车视觉控制导航的设计参考.pdf
- 主线程中同步的 XMLHttpRequest 已不推荐使用,因其对终端用户的用户体验存在负面影响。
- 贱人就是矫情——当打假成为一门生意
- 开学splay(这个模版要背的滚瓜烂熟)
热门文章
- C# 格式串(收藏)
- Linux系统之路——如何在CentOS7.2安装MySQL
- 几个定制 iTerm2 的 tip
- 如何卸载sql2008,完全清除
- ibaits插入即获取主键(mssql,mysql,oracle)
- IDEA设置git提交需要忽略的文件
- 常见的函数式编程模型
- 你为什么应该经常访问招聘网站?招聘网站至少有4个方面的价值!
- 使用C#的HttpWebRequest模拟登陆网站
- 未能加载文件或程序集“Report.Basic”或它的某一个依赖项。试图加载格式不正确的程序...