节点重要性与相似性

本章要点

  • 无向网络节点重要性排序指标:度值、介数、接近数、h-壳值、特征向量
  • 有向网络节点重要性排序算法:HITS 算法和 PageRank算法
  • 节点相似性与链路预测

1 无向网络节点重要性指标

1.1 度中心性

在社会网络分析中,常用“中心性(Centrality)"来判断网络中节点重要性或影响力。最直接的度量是度中心性(Degrree centrality),即一个节点的度越大就意味着这个节点越重要。

这一指标背后的假设是:重要的节点就是拥有许多连接的节点。你的社会关系越多,你的影响力就越强。

度一个包含N个节点的网络中,节点最大可能的度值为N–1

度越多的节点越重要

 

1.2 介数中心性

从每块中的任一节点到其他某块中的任一节点的最短路径必然要经过节点H。

这种以经过某个节点的最短路径的数目来刻画节点重要性的指标就称为介数中心性(Betweeness centrality),简称介数(BC)。

也就是说,计算网络中任意两个节点的所有最短路径,如果这些最短路径中很多条都经过了某个节点,那么就认为这个节点的介中心性高。

1.3 接近中心性

度中心性仅仅利用了网络的局部特征,即节点的连接数有多少,但一个人连接数多,并不代表他/她处于网络的核心位置。

紧密中心性和中介中心性一样,都利用了整个网络的特征,即一个节点在整个结构中所处的位置。

紧密度中心性与非中心结点相比,一个中心结点应该能更快地到达网络内的其他结点。

即:如果节点到图中其他节点的最短距离都很小,那么它的接近中心性就很高。相比中介中心性,接近中心性更接近几何上的中心位置。

 

1.4 k-壳与k-核

一种粗粒化的节点重要性分类方法,即k-壳分解方法(K-shelldecomposition method )。

不妨假设网络中不存在度值为0的孤立节点。这样从度中心性的角度看,度为1的节点就是网络中最不重要的节点。

如果我们把所有度值为Ⅰ的节点以及与这些节点相连的边都去掉会怎么样?

这时网络中可能又会出现一些新的度值为1的节点,我们就再把这些节点及其相连的边去掉,重复这种操作,直至网络中不再有度值为1的节点为止。

这种操作形象上相当于剥去了网络的最外面一层壳,

我们就把所有这些被去除的节点以及它们之间的连边称为网络的1-壳(1-shell)。

有时,网络中度为 0 的孤立节点也称为 0-壳(0-shell)。

在剥去了 1-壳 后的新网络中的每个节点的度值至少为2。

接下来我们可以继续剥壳操作,即重复把网络中度值为2的节点及其相连的边去掉直至不再有度值为2的节点为止。

我们把这一轮所有被去除的节点及它们之间的连边称为网络的2-壳(2-shell)。

依次类推,可以进一步得到指标更高的壳,直至网络中的每一个节点最后都被划分到相应的k-壳中,就得到了网络的k-壳分解。

网络中的每一个节点对应于唯一的 k-壳 指标Ks,并且 Ks-壳 中所包含的节点的度值必然满足 k≥Ks。

实际网络也会出现类似的情形:

度大的节点既可能具有较大的Ks值从而位于 k-壳分解的核心内层,也有可能具有较小的Ks值而位于k-壳分解的外层,从而使得对于某些问题而言,度大的节点未必是重要的节点。

在得到一个网络的 k-壳 分解之后,我们

把所有Ks≥K 的 K-壳 的并集称为网络的k-核(K-core)

把指标Ks≤K 的 K-壳 的并集称为网络的k-皮(K-crust)

k-核的一个等价定义是:

它是一个网络中所有度值不小于 K 的节点组成的连通片。

基于这一定义,我们可以按照如下方法得到k-核:

首先去除网络中度值小于K的所有节点及其连边;如果在剩下的节点中仍然有度值小于K的节点,那么就继续去除这些节点,直至网络中剩下的节点的度值都不小于K。依次取K = 1,2,3,...,对原始网络重复这种去除操作,就得到了该网络的 k-核分解(k-core decomposition)。

•对于一个连通网络,1-核实际上就是整个网络,(k + 1)-核一定是K-核的子集。

1.5 特征向量中心性

特征向量中心性(Eigenvector centrality)的基本想法是:

一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。

换句话说,在一个网络中,如果一个人拥有很多重要的朋友,那么他也将是非常重要的。

特征向量中心性和度中心性不同,一个度中心性高即拥有很多连接的节点,特征向量中心性不一定高,因为所有的连接者有可能特征向量中心性很低。同理,特征向量中心性高并不意味着它的点度中心性高,它拥有很少但很重要的连接者也可以拥有高特征向量中心性。

我们继续用矩阵A乘以结果向量。如何理解呢?

实际上,我们允许这一中心性数值再次沿着图的边界“扩散”。我们会观察到两个方向上的扩散(点既给予也收获相邻节点)。我们猜测,这一过程最后会达到一个平衡,特定点收获的数量会和它给予相邻节点的数量取得平衡。既然我们仅仅是累加,数值会越来越大,但我们最终会到达一个点,各个节点在整体中的比例会保持稳定。

邻接矩阵A是对称矩阵

实对称矩阵的主要性质:

1、实对称矩阵A的不同特征值对应的特征向量是正交的。

2、实对称矩阵A的特征值都是实数,特征向量都是实向量。

3、n阶实对称矩阵A必可相似对角化,且相似对角阵上的元素即为矩阵本身特征值。

4、若λ0具有k重特征值 必有k个线性无关的特征向量,或者说必有秩r(λ0E-A)=n-k,其中E为单位矩阵

2 权威值和枢纽值:HITS算法

2.1 HITS算法描述

HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hub页面和authority页面。hub,中心的意思,所以hub页面指那些包含了很多指向authority页面的链接的网页,比如国内的一些门户网站;authority页面则指那些包含有实质性内容的网页。HITS算法的目的是:当用户查询时,返回给用户高质量的authority页面。

很多算法都是建立在一些假设之上的,HITS算法也不例外。HITS算法基于下面两个假设:

一个高质量的authority页面会被很多高质量的hub页面所指向。

一个高质量的hub页面会指向很多高质量的authority页面。

什么叫“高质量”,这由每个页面的hub值和authority值确定。其确定方法为:

页面hub值等于所有它指向的页面的authority值之和。

页面authority值等于所有指向它的页面的hub值之和。

3 PR值:PageRank算法

 

 

 

4 节点相似性和链路预测

【复杂网络】网络科学导论学习笔记-第五章节点重要性与相似性相关推荐

  1. 【复杂网络】网络科学导论学习笔记

    第一章 引论 1.复杂网络相关应用 随着信息技术的飞速发展,当今社会越来越多的现象会涉及到复杂网络相关应用. 举例:社交网络.搜索引擎 2.Internet的拓扑结构 原因:为预测和提高Interne ...

  2. 数据挖掘导论学习笔记 第五章 分类算法

    5.1基于规则的分类器 基于规则的分类器的规则用析取范式R=(r1∨r2∨⋯∨rk)R=(r_1\lor r_2 \lor \cdots \lor r_k)R=(r1​∨r2​∨⋯∨rk​)表示.R称 ...

  3. Java NIO 学习笔记(五)----路径、文件和管道 Path/Files/Pipe

    目录: Java NIO 学习笔记(一)----概述,Channel/Buffer Java NIO 学习笔记(二)----聚集和分散,通道到通道 Java NIO 学习笔记(三)----Select ...

  4. Swift网络开发之NSURLSession学习笔记

    为什么80%的码农都做不了架构师?>>>    Swift网络开发之NSURLSession学习笔记 先上效果图:        功能: -单个任务下载 -暂停下载任务 -取消下载任 ...

  5. Android学习笔记第五篇--网络连接与云服务(一)

    Android学习笔记第五篇–网络连接与云服务 第一章.无线连接设备 ​ 除了能够在云端通讯,Android的无线API也允许在同一局域网内的设备通讯,**甚至没有连接网络,而是物理具体相近,也可以相 ...

  6. CIM系统导论学习笔记

    CIM系统导论学习笔记 企业管理的基本概念与企业运作 信息与信息技术 大数据 信息技术支持下的企业创新 企业管理信息系统 工程设计分系统 制造自动化系统 CIMS的组成和集成 CIM是组织现代化生产的 ...

  7. 数据科学导论学习小结——其三

    数据科学导论学习小结--其三 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第三部分,包含第六.第七两个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘& ...

  8. 数据科学导论学习小结——其一

    数据科学导论学习小结--其一 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第一部分,包含前三个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘>的 ...

  9. 《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)

    点击蓝字 关注我! 写在前面 本系列为<R数据科学>(R for Data Science)的学习笔记.相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据 ...

  10. 7月16日数据科学库学习笔记——matplotlib 绘制散点图、条形图、直方图

    文章目录 前言 一.绘制散点图 二.绘制条形图 1.纵向条形图 2.横向条形图 三.绘制分组条形图 四.绘制直方图 1.plt.hist 方法 2.plt.bar 方法绘制直方图 前言 本文为7月16 ...

最新文章

  1. ProgressDialog的使用-------------范例(学习笔记)
  2. MyBatis中使用#{}和${}的区别
  3. struts2的文件上传机制
  4. n阶自相关matlab代码,随机信号及其自相关函数和功率谱密度的MATLAB实现.doc
  5. 45个极具冲击力的WordPress摄影网站模板
  6. CentOS 6.4下操作kdump执行过程
  7. PhotoShop的神奇(重新发表)
  8. 如何通过改造休闲旅行车赚到1000万元?
  9. typescript探索(一)
  10. 40页PPT勾画“互联网颠覆性思维”----诠释互联网思维
  11. 层次分析法模型(数学建模学习)
  12. 视频教程-R语言数据分析挖掘实战-大数据
  13. Python 房贷计算器小工具
  14. latex 箭头上带_latex 上下箭头
  15. 数理统计SPSS软件实验报告三--参数估计2
  16. win10笔记本电脑找不到WLAN
  17. Java算法大全_java贪心算法几个经典例子
  18. “四位一体 扬升计划”横空出世 用友全面释放ISV伙伴创新原力
  19. (调色软件)DaVinci Resolve 17 达芬奇新版调色系统软件
  20. 雅思英语作文计算机和历史,雅思大作文范文:电脑VS老师

热门文章

  1. Python/Matplotlib实现雨点图动画
  2. AR涂涂乐⭐六、 UGUI精灵格式、自动延迟截图、优化“4”、移出扫描框终止截图进程
  3. 李开复给大学生的第6封信:选择的智慧
  4. 【Excel】Excel读取数据时,提示“服务器连接异常”
  5. 云计算:几种aaS(as a Server)
  6. 翼支付个人账单查询接口
  7. Xcode No account for team . Add a new account in the Accounts preference pane or verify that your
  8. 读书札记:瑞士法郎的因素
  9. QLabel文字过长显示不全处理方法
  10. 从零开始变成一个脚本小子002-初窥密码2