作者:Rahul Agarwal编译:刘静图灵联邦编辑部出品本文作者Rahul Agarwal是一位数据科学家,近期,他在Medium上分享了常用的5种图算法的介绍和代码实现。以下是具体博文内容:作为数据科学家,我们已经对Pandas或SQL或任何其他关系数据库非常熟悉了。我们习惯于将在行中看到用户,并且将他们的属性在列中展示。但现实世界真的是这样吗?在一个互联的世界里,用户不能被视为独立的实体。他们之间有一定的关系,我们在建立机器学习模型的时候,有时也会考虑这些关系。现在,虽然在关系数据库中,我们不能在不同的行(用户)之间使用这样的关系,但是在图数据库中,这样做是相当简单的。在这篇文章中,我将讨论一些您应该知道的最重要的图算法以及如何使用Python实现它们。此外,这里是UCSanDiego关于Coursera的大数据图表分析课程,我强烈建议您学习图理论的基础知识。课程链接:https://www.coursera.org/learn/big-data-graph-analytics

1、Connected Components(连通域)

一张包含3个Connected Components的图

大家应该都知道聚类是如何工作的吧?您可以将非常接近的Connected Components视为一种在相关/连接数据中查找群集/孤岛的硬聚类算法。举一个具体的例子:假设您有关于连接世界上任何两个城市的道路的数据。你的任务是需要找出世界上所有大陆以及它们所包含的城市。你将如何实现这一目标?来想一想吧。我们用于执行此操作的Connected Components算法是基于BFS / DFS的特殊情况。我不会在这里谈论它是如何工作的,但我们将看到如何使用Networkx启动和运行代码。应用从零售角度来看:假设,我们有很多客户使用大量账户。我们可以使用Connected Components算法的一种方法是在我们的数据集中找出不同的家庭。我们可以根据相同的信用卡使用情况、相同的地址或相同的移动电话号码等假定customer id之间的边(路)。一旦我们有了这些连接,我们就可以运行Connected Components算法来创建单独的集群,然后我们可以为其分配一个家庭ID。然后,我们可以使用这些家庭ID,来根据家庭需求提供个性化推荐。我们还可以使用这个家庭ID,通过创建基于家庭的分组功能来推动我们的分类算法。从财务角度来看:另一个用例是使用这些家庭ID捕获欺诈。如果某个帐户过去曾发生过欺诈行为,那么关联帐户很可能也容易受到欺诈。还有更多无限可能的应用,发挥自己的想象力吧。代码我们将使用Python中的Networkx模块来创建和分析图。让我们从一个示例图开始,我们使用它来实现我们的目的。包含城市和城市之间的距离信息。带有随机距离的图我们首先创建一个边列表并且将添加为边权重的距离。edgelist = [['Mannheim', 'Frankfurt', 85], ['Mannheim', 'Karlsruhe', 80], ['Erfurt', 'Wurzburg', 186], ['Munchen', 'Numberg', 167], ['Munchen', 'Augsburg', 84], ['Munchen', 'Kassel', 502], ['Numberg', 'Stuttgart', 183], ['Numberg', 'Wurzburg', 103], ['Numberg', 'Munchen', 167], ['Stuttgart', 'Numberg', 183], ['Augsburg', 'Munchen', 84], ['Augsburg', 'Karlsruhe', 250], ['Kassel', 'Munchen', 502], ['Kassel', 'Frankfurt', 173], ['Frankfurt', 'Mannheim', 85], ['Frankfurt', 'Wurzburg', 217], ['Frankfurt', 'Kassel', 173], ['Wurzburg', 'Numberg', 103], ['Wurzburg', 'Erfurt', 186], ['Wurzburg', 'Frankfurt', 217], ['Karlsruhe', 'Mannheim', 80], ['Karlsruhe', 'Augsburg', 250],["Mumbai", "Delhi",400],["Delhi", "Kolkata",500],["Kolkata", "Bangalore",600],["TX", "NY",1200],["ALB", "NY",800]]我们用 Networkx创建一个图:g = nx.Graph()for edge in edgelist:g.add_edge(edge[0],edge[1], weight = edge[2])现在我们想从这张图中找出不同的大陆及其城市。可以使用连接组件算法执行此操作:for i, x in enumerate(nx.connected_components(g)):print("cc"+str(i)+":",x)------------------------------------------------------------cc0: {'Frankfurt', 'Kassel', 'Munchen', 'Numberg', 'Erfurt', 'Stuttgart', 'Karlsruhe', 'Wurzburg', 'Mannheim', 'Augsburg'}cc1: {'Kolkata', 'Bangalore', 'Mumbai', 'Delhi'}cc2: {'ALB', 'NY', 'TX'}如您所见,我们能够在数据中找到不同的Components。只需使用边缘和顶点。该算法可以在不同的数据上运行,以满足我上面提到的任何用例。

2、Shortest Path(最短路径)

继续上述示例,我们将获得德国的城市及其相应距离的图。您想找到从法兰克福(起始节点)前往慕尼黑的最短距离。我们用来解决这个问题的算法叫做Dijkstra算法。用Dijkstra自己的话来说:从鹿特丹到格罗宁根的最短途径是什么:从特定城市到特定城市。这是最短路径的算法,我花了大约20分钟设计。一天早上,我和年轻的未婚妻在阿姆斯特丹购物,累了,我们坐在咖啡馆的露台上喝了一杯咖啡,我只想着能否做到这一点,然后我设计了最短路径的算法。正如我所说,这是一个20分钟的发明。事实上,它是在1959年出版的,三年后。该出版物仍然可读,事实上,它相当不错。它之所以如此美妙,其中一个原因就是我没用铅笔和纸张就设计了它。后来我才知道,没有铅笔和纸的设计的一个优点是你不得不避免所有可避免的复杂性。最终,令我大为惊讶的是,这个算法成了我成名的基石之一。-  Edsger Dijkstra,接受ACM通讯公司Philip L. Frana的采访,2001年应用

  • Dijkstra算法的变体在Google地图中广泛使用,以找到最短的路线。

  • You are in a Walmart Store. You have different Aisles and distance between all the aisles. You want to provide the shortest pathway to the customer from Aisle A to Aisle D.

  • 您在沃尔玛商店。你知道不同的过道和所有过道之间的距离信息。您想要为客户提供从A通道到D通道的最短路径。

  • 你已经看到LinkedIn如何显示一级连接,二级连接。幕后发生了什么?

    代码

print(nx.shortest_path(g, 'Stuttgart','Frankfurt',weight='weight'))print(nx.shortest_path_length(g, 'Stuttgart','Frankfurt',weight='weight'))--------------------------------------------------------['Stuttgart', 'Numberg', 'Wurzburg', 'Frankfurt']503您还可以使用以下命令找到所有对之间的最短路径:for x in nx.all_pairs_dijkstra_path(g,weight='weight'):print(x)--------------------------------------------------------('Mannheim', {'Mannheim': ['Mannheim'], 'Frankfurt': ['Mannheim', 'Frankfurt'], 'Karlsruhe': ['Mannheim', 'Karlsruhe'], 'Augsburg': ['Mannheim', 'Karlsruhe', 'Augsburg'], 'Kassel': ['Mannheim', 'Frankfurt', 'Kassel'], 'Wurzburg': ['Mannheim', 'Frankfurt', 'Wurzburg'], 'Munchen': ['Mannheim', 'Karlsruhe', 'Augsburg', 'Munchen'], 'Erfurt': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Erfurt'], 'Numberg': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Numberg'], 'Stuttgart': ['Mannheim', 'Frankfurt', 'Wurzburg', 'Numberg', 'Stuttgart']})('Frankfurt', {'Frankfurt': ['Frankfurt'], 'Mannheim': ['Frankfurt', 'Mannheim'], 'Kassel': ['Frankfurt', 'Kassel'], 'Wurzburg': ['Frankfurt', 'Wurzburg'], 'Karlsruhe': ['Frankfurt', 'Mannheim', 'Karlsruhe'], 'Augsburg': ['Frankfurt', 'Mannheim', 'Karlsruhe', 'Augsburg'], 'Munchen': ['Frankfurt', 'Wurzburg', 'Numberg', 'Munchen'], 'Erfurt': ['Frankfurt', 'Wurzburg', 'Erfurt'], 'Numberg': ['Frankfurt', 'Wurzburg', 'Numberg'], 'Stuttgart': ['Frankfurt', 'Wurzburg', 'Numberg', 'Stuttgart']})....

3、Minimum Spanning Tree(最小生成树)

现在我们有另一个问题。我们在水管铺设公司或互联网光纤公司工作。我们需要使用最少量的电线/管道连接我们所拥有的图中的所有城市。我们如何做到这一点?无向图及其右边的MST。应用

  • 最小生成树在网络设计中具有直接应用,包括计算机网络,电信网络,运输网络,供水网络和电网(这个算法最初是为它们发明的)

  • MST用于近似商旅问题

  • 聚类 - 首先构造MST,然后使用群集间距离和群集间距确定用于破坏MST中某些边缘的阈值。

  • 图像分割 - 它用于图像分割,我们首先在图形上构建MST,其中像素是节点,像素之间的距离基于某种相似性度量(颜色,强度等)

代码# nx.minimum_spanning_tree(g) returns a instance of type graphnx.draw_networkx(nx.minimum_spanning_tree(g))

我们图的MST。

正如你所看到的,上面是我们要铺设的电线。

4、Pagerank(网页排名)

这就是长期以来支持谷歌的页面排序算法。它根据输入和输出链接的数量和质量为每个网页分配分数。应用Pagerank可用于我们想要估算任何网络中节点重要性的任何地方。

  • 它已被用于使用引文找到最有影响力的论文。

  • 已被谷歌用于页面排名

  • 它可以用来给tweet排序——用户和tweet作为节点。如果用户A跟随用户B创建用户之间的链接,如果用户tweet / retwets一条tweet,则创建用户和tweet之间的链接

  • 推荐引擎

代码在本练习中,我们将使用Facebook数据。我们在facebook用户之间有一个边缘/链接文件。我们首先使用以下方法创建FB图:# reading the datasetfb = nx.read_edgelist('../input/facebook-combined.txt', create_using = nx.Graph(), nodetype = int)它是这样运作的:pos = nx.spring_layout(fb)import warningswarnings.filterwarnings('ignore')plt.style.use('fivethirtyeight')plt.rcParams['figure.figsize'] = (20, 15)plt.axis('off')nx.draw_networkx(fb, pos, with_labels = False, node_size = 35)plt.show()FB 用户图现在我们想要找到具有高影响力的用户。直观地说,Pagerank算法会给有很多朋友的用户打高分,而这些朋友又有很多facebook上的朋友。pageranks = nx.pagerank(fb)print(pageranks)------------------------------------------------------{0: 0.006289602618466542,1: 0.00023590202311540972,2: 0.00020310565091694562,3: 0.00022552359869430617,4: 0.00023849264701222462,........}我们可以使用以下方式获取已排序的PageRank或最有影响力的用户:import operatorsorted_pagerank = sorted(pagerank.items(), key=operator.itemgetter(1),reverse = True)print(sorted_pagerank)------------------------------------------------------[(3437, 0.007614586844749603), (107, 0.006936420955866114), (1684, 0.0063671621383068295), (0, 0.006289602618466542), (1912, 0.0038769716008844974), (348, 0.0023480969727805783), (686, 0.0022193592598000193), (3980, 0.002170323579009993), (414, 0.0018002990470702262), (698, 0.0013171153138368807), (483, 0.0012974283300616082), (3830, 0.0011844348977671688), (376, 0.0009014073664792464), (2047, 0.000841029154597401), (56, 0.0008039024292749443), (25, 0.000800412660519768), (828, 0.0007886905420662135), (322, 0.0007867992190291396),......]以上ID适用于最有影响力的用户。我们可以看到最有影响力的用户的子图:first_degree_connected_nodes = list(fb.neighbors(3437))second_degree_connected_nodes = []for x in first_degree_connected_nodes:second_degree_connected_nodes+=list(fb.neighbors(x))second_degree_connected_nodes.remove(3437)second_degree_connected_nodes = list(set(second_degree_connected_nodes))subgraph_3437 = nx.subgraph(fb,first_degree_connected_nodes+second_degree_connected_nodes)pos = nx.spring_layout(subgraph_3437)node_color = ['yellow' if v == 3437 else 'red' for v in subgraph_3437]node_size =  [1000 if v == 3437 else 35 for v in subgraph_3437]plt.style.use('fivethirtyeight')plt.rcParams['figure.figsize'] = (20, 15)plt.axis('off')nx.draw_networkx(subgraph_3437, pos, with_labels = False, node_color=node_color,node_size=node_size )plt.show()我们最有影响力的用户(黄色)

5、 Centrality Measures(中心度量)

您可以将许多centrality measure算法用作机器学习模型的功能。我将谈谈其中两个。Betweenness Centrality:不仅拥有最多朋友的用户是重要的,将一个地理位置连接到另一个地理位置的用户也很重要,因为这样可以让用户看到来自不同地理位置的内容。Betweenness Centrality量化特定节点在两个其他节点之间的最短选择路径中的次数。Degree Centrality: 它只是节点的连接数。应用Centrality measures可以用作任何机器学习模型中的特征。代码以下是查找子图的Betweenness centrality的代码。pos = nx.spring_layout(subgraph_3437)betweennessCentrality = nx.betweenness_centrality(subgraph_3437,normalized=True, endpoints=True)node_size =  [v * 10000 for v in betweennessCentrality.values()]plt.figure(figsize=(20,20))nx.draw_networkx(subgraph_3437, pos=pos, with_labels=False,node_size=node_size )plt.axis('off')

您可以在此处查看按其betweenness centrality值确定大小的节点。他们可以被认为是信息传递者。打破任何具有高betweenness Centrality的节点将会将图形分成许多部分。

结论

在这篇文章中,我谈到了一些改变了我们生活方式的最有影响力的图算法。随着社交数据的出现,网络分析可以帮助我们改进模型和创造价值。甚至更多地了解这个世界。有很多图算法,但这些是我最喜欢的算法。如果您愿意,请更详细地研究算法。这是带有整个代码的Kaggle Kernel。https://www.kaggle.com/mlwhiz/top-graph-algorithms参考链接:https://towardsdatascience.com/data-scientists-the-five-graph-algorithms-that-you-should-know-30f454fa5513

觉得不错,点个在看呗

dijkstra算法代码_深度好文:改变了我们生活方式最有影响力的5种图算法相关推荐

  1. dijkstra算法代码_数据科学家需要知道的5种图算法(附代码)

    在本文中,我将讨论一些你应该知道的最重要的图算法,以及如何使用Python实现它们. 作者:AI公园 导读 因为图分析是数据科学家的未来. 作为数据科学家,我们对pandas.SQL或任何其他关系数据 ...

  2. din算法 代码_深度兴趣网络(DIN,Deep Interest Network)

    1. DIN介绍 Deep Interest Network是基于BaseModel演化而来 1.1 流程: 整个流程可以描述为:1.检查用户历史行为数据 2.使用matching module产生候 ...

  3. java dijkstra算法代码_[转载]Java实现dijkstra算法: 地图中任意起点寻找最佳路径...

    最近在复习java,下学期要用,写这个练手.  技术较粗糙,见谅. 代码里用的是这幅地图,根据实际情况更改,在addNode方法中 这个是运行结果,起点和终点在 运行wrap(String qidia ...

  4. 深度置信网络预测算法matlab代码_深度学习双色球彩票中的应用研究资料

    点击蓝字关注我们 AI研习图书馆,发现不一样的世界 深度学习在双色球彩票中的应用研究 前言 人工神经网络在双色球彩票中的应用研究网上已经有比较多的研究论文和资料,之前比较火的AlphaGo中用到的深度 ...

  5. 随机森林分类算法python代码_独家 | 一文读懂随机森林的解释和实现(附python代码)...

    作者:William Koehrsen 翻译:和中华 校对:李润嘉 本文约6000字,建议阅读15分钟. 本文从单棵决策树讲起,然后逐步解释了随机森林的工作原理,并使用sklearn中的随机森林对某个 ...

  6. dijkstra算法原理_这 10 大基础算法,程序员必知必会!

    来源:博客园原文地址:http://kb.cnblogs.com/page/210687/算法一:快速排序算法快速排序是由东尼·霍尔所发展的一种排序算法.在平均状况下,排序n个项目要Ο(nlogn)次 ...

  7. 头脑风暴算法代码_混乱的头脑导致混乱的代码

    头脑风暴算法代码 We live in a world with many things that consume our time, and the constant need of always ...

  8. 简述dijkstra算法原理_理解最短路径——迪杰斯特拉(dijkstra)算法

    1.       迪杰斯特拉算法简介 迪杰斯特拉(dijkstra)算法是典型的用来解决最短路径的算法,也是很多教程中的范例,由荷兰计算机科学家狄克斯特拉于1959年提出,用来求得从起始点到其他所有点 ...

  9. python多分类混淆矩阵代码_深度学习自学记录(3)——两种多分类混淆矩阵的Python实现(含代码)...

    深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码),矩阵,样本,模型,类别,真实 深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码) 深度学习自学记录(3) ...

最新文章

  1. 《分布式操作系统》知识点(15~21)三
  2. 调试Release发布版程序的Crash错误
  3. 由浅到深理解ROS(7)-URDF
  4. 【POJ - 1463】Strategic game (树上最小点覆盖,树形dp)
  5. python的cmd下小白开发应用教程
  6. 教育为什么重要 大数据_为什么开放数据在教育中很重要
  7. 网页百度地图api,支持位置偏移
  8. 牛客第三场多校 H Diff-prime Pairs
  9. 下载faceScrub人脸数据库 (多线程版本)
  10. PrintStream 打印流、System 剖析、Java 16 进制转换
  11. 工时分析软件哪个好用?ECRS工时分析软件-精益人都在用的IE分析软件
  12. oracle 财务云优势,Oracle ERP云助力财务团队提升业务弹性
  13. orl_faces数据集分享
  14. python定时发送qq消息
  15. 二元二次方程例题_2元1次方程100道题 七年级数学下册二元二次方程组100道计算题及答案!......
  16. 编程 100个训练题目
  17. Mysql出现 “ERROR 1062” 的解决方法
  18. 从零开始:教你如何训练神经网络
  19. bootstrap图标大全
  20. ifconfig eth0 down禁用网卡操作致使ssh连接不上,ping不通机器

热门文章

  1. Java ObjectInputStream readFloat()方法与示例
  2. 数组的fill方法_数组fill()方法以及JavaScript中的示例
  3. numpy zeros矩阵_零矩阵使用numpy.zeros()| 使用Python的线性代数
  4. 工作几年了,原来我只用了数据校验的皮毛
  5. 这个 bug 让我更加理解 Spring 单例了
  6. 漫画:如何找到链表的倒数第n个结点?
  7. oracle 序列的概念与使用步骤
  8. C语言——循环控制语句
  9. c++ for each 遍历tuple
  10. Shiro并发登录人数控制遇到的问题和解决