前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

关联

Spark RDD 论文详解（三）Spark 编程接口

正文

简介

GraphX 提供了静态和动态 PageRank 的实现方法，这些方法在 PageRank 对象中。

静态的 PageRank 运行固定次数的迭代，而动态的 PageRank 一直运行直到收敛为止。

数据

GraphX 源码中提供了一个运用 PageRank 算法分析社交网络中各用户重要性的案例。

社交网络中的用户数据在 data/graphx/users.txt 中，用户之间关系数据在 data/graphx/followers.txt 中。

users . txt 内容如下:

1,BarackObama,Barack Obama
2,ladygaga,Goddess of Love
3,jeresig,John Resig
4,justinbieber,Justin Bieber
6,matei_zaharia,Matei Zaharia
7,odersky,Martin Odersky
8,anonsys

followers.txt 内容如下

首先以 users.txt 中的用户作为顶点、 followers.txt 中的关系作为边集创建图

然后通过图直接调用 PageRank 算法计算出每个顶点的 PR 值，即用户的重要性

最后结合用户的属性信息对结果输出展示。

代码

package com.shockang.study.spark.graphximport org.apache.log4j.{Level, Logger}
import org.apache.spark.graphx.GraphLoader
import org.apache.spark.sql.SparkSession/*** 基于社交网络数据集的 PageRank 示例*/
object PageRankExample {val FOLLOWERS_PATH = "/Users/shockang/code/spark-examples/data/simple/graphx/followers.txt"val USERS_PATH = "/Users/shockang/code/spark-examples/data/simple/graphx/users.txt"def main(args: Array[String]): Unit = {// 关闭 Spark 内部的日志打印，只关注结果日志Logger.getLogger("org").setLevel(Level.OFF)// 创建 SparkSessionval spark = SparkSession.builder.appName("PageRankExample").master("local[*]").getOrCreate()val sc = spark.sparkContext// 加载边作为图val graph = GraphLoader.edgeListFile(sc, FOLLOWERS_PATH)// 运行 PageRankval ranks = graph.pageRank(0.0001).vertices// Join ranks with the usernamesval users = sc.textFile(USERS_PATH).map { line =>val fields = line.split(",")(fields(0).toLong, fields(1))}val ranksByUsername = users.join(ranks).map {case (id, (username, rank)) => (username, rank)}// 打印结果println(ranksByUsername.collect().mkString("\n"))spark.stop()}
}

输出

(justinbieber,0.15007622780470478)
(matei_zaharia,0.7017164142469724)
(ladygaga,1.3907556008752426)
(BarackObama,1.4596227918476916)
(jeresig,0.9998520559494657)
(odersky,1.2979769092759237)

使用 Spark GraphX 实现 PageRank 算法相关推荐

Spark GraphX下强连通子图和社团发现算法在1T TPC-DS数据集下执行方法、优化和性能估算
概述: 下面内容说的是在TPC-DS 1T数据集上用web_sales表ws_bill_customer_sk, ws_ship_customer_sk作为起始点和结束点,以ws_quantity为权 ...
Spark GraphX 中的PageRank算法、pregel函数、航班飞行网图分析
PageRank算法 PageRank算法原理剖析及Spark实现 - 简书 (jianshu.com) import org.apache.spark.SparkContext import org ...
spark的数三角形算法_spark graphx 图计算
写在前面态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - -茂强) 什么是一个图一个网络 Network 一个树 Tree 一个RDBMS R ...
杨鹏谈世纪佳缘推荐算法：基于Spark GraphX，弃GBDT和LR用FM
杨鹏谈世纪佳缘推荐算法:基于Spark GraphX,弃GBDT和LR用FM 发表于2015-09-30 09:53| 1447次阅读| 来源CSDN| 2 条评论| 作者杨鹏机器学习推荐算法 ...
大数据——Spark GraphX中算法介绍
一.ConnectedComponents算法 ConnectedComponents即连通体算法用id标注图中每个连通体,将连通体中序号最小的顶点的id作为连通体的id. 图关系如下时: //创建点 ...
大数据——GraphX之Pregel算法原理及Spark实现
GraphX之Pregel算法原理及Spark实现 Pregel 案例:求顶点5到其他各点的最短距离 Pregel原理分析 Pregel 源码 def pregel[A: ClassTag](init ...
《Spark GraphX in Action》书评及作者访谈
\ 关键要点 \ 图数据分析与传统数据分析间的差异是什么? \ 如何使用Apache Spark GraphX软件库和GraphFrames这样的API进行图数据处理. \ 使用图数据分析的热门用例. ...
Spark GraphX相关使用方法
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求.Spark GraphX ...
Spark GraphX 图算法的理解
Spark GraphX是一个分布式图处理框架,基于 Pregel 接口实现了常用的图算法.包括 PageRank.SVDPlusPlus.TriangleCount. ConnectedCompon ...

使用 Spark GraphX 实现 PageRank 算法

前言

关联

正文

简介

数据

代码

输出

使用 Spark GraphX 实现 PageRank 算法相关推荐

最新文章

热门文章