FIP: A fast overlapping community-based influence maximization algorithm using probability coefficient of global diffusion in social networks FIP:一种基于社区的快速重叠影响力最大化算法，使用社交网络中全局扩散的概率系数。

前言
文章内容
- 摘要
- 简介
- 方法
- - 社区检测和减少
  - 识别有影响力的候选节点
  - - 社区扩散的概率系数
    - 生成候选节点
  - 选取最终的种子节点
- 时间复杂度分析
- 实验
- - Dataset
  - Baseline
  - 实验设置
  - 实验结果
- 结论

FIP:一种基于社区的快速重叠影响力最大化算法，使用社交网络中全局扩散的概率系数。

)

前言

比较复杂的模型设计，利用重叠社区来减少种子节点的搜索空间，最后还是用蒙特卡洛模拟确定种子节点。

https://www.sciencedirect.com/science/article/pii/S0957417422018875#section-cited-by

文章内容

摘要

Influence maximization is the process of identifying a small set of influential nodes from a complex network to maximize the number of activation nodes. Due to the critical issues such as accuracy, stability, and time complexity in selecting the seed set, many studies and algorithms has been proposed in recent decade. However, most of the influence maximization algorithms run into major challenges such as the lack of optimal seed nodes selection, unsuitable influence spread, and high time complexity. In this paper intends to solve the mentioned challenges, by decreasing the search space to reduce the time complexity. Furthermore, It selects the seed nodes with more optimal influence spread concerning the characteristics of a community structure, diffusion capability of overlapped and hub nodes within and between communities, and the probability coefficient of global diffu sion. The proposed algorithm, called the FIP algorithm, primarily detects the overlapping communities, weighs the communities, and analyzes the emotional relationships of the community ’s nodes. Moreover, the search space for choosing the seed nodes is limited by removing insignificant communities. Then, the candidate nodes are generated using the effect of the probability of global diffusion. Finally, the role of important nodes and the diffusion impact of overlapping nodes in the communities are measured to select the final seed nodes. Experimental results in real-world and synthetic networks indicate that the proposed FIP algorithm has significantly outperformed other algorithms in terms of efficiency and runtime.

影响力最大化是从复杂网络中识别一小部分具有影响力的节点使得被激活节点最大化的过程。由于节点集合选取的准确性、稳定性和时间复杂度等问题，近些年提出了许多研究与算法。然而，大部分研究遇到了重大挑战，例如缺乏最优的种子选取，不合适的影响力传播、还有很高的时间复杂性。本文打算解决上述问题，通过减少搜索空间来降低时间复杂度。此外，它用更优的影响力传播来选择种子节点，考虑了社区结构特性，社区之间重叠和枢纽节点的传播能力，全局扩散的传播系数。提出的算法成为FIP算法，主要检测重叠的群落，给社区赋权重，并分析社区节点的情感关系。然后，种子节点的搜索空间被限制在删除不重要社区的剩余节点中。接着，候选节点使用全局扩散概率的影响生成。最后，测量重要节点的作用和重叠节点在社区中的扩散影响来选择种子节点。实验结果显示，在现实世界网络和合成网络中FIP算法在效率和运行时间显著优于其他算法。

简介

局部社区检测算法被用于影响力最大化的一部分，目前这类应用存在的缺点：

这些算法没有检查与社区结构相关的全局扩散概率，全局扩散概率应该作为一个重要指标。
算法不涉及减少种子的搜索空间，在大规模的网络中没有优势。
没有利用社区的拓扑结构来检测适合影响扩散的社区
只考虑了核心节点作为种子，而没有考虑桥连节点。

FIP算法基于社区检测的影响力最大化算法，有两个步骤：

利用LPANNI算法检测重叠社区，用社区的拓扑结构和用户的情感关系决定社区的权重，给定标准 θ c \theta_c θc，删除低于标准的社区，减小搜索空间。
通过社区内部的传播概率和社区外的传播概率系数来选择候选节点，从最佳重叠节点和候选集合中选取种子节点。

总结一下贡献：

提出基于重叠社区的FIP算法来解决影响力最大化问题，通过过滤社区来减少搜索空间提高效率。
使用节点情感关系分析来检索适合影响传播的社区，提高种子选择有效性。
考虑节点邻居的结构和节点在社区中的作用。
在多个数据集上验证。

方法

FIP的步骤：

生成并优化社区。
生成候选集并选择最终种子集合。

a. 用LPANNI生成重叠社区
b. 计算社区权重
c. 删去不重要社区减小搜索空间
d. 根据社区传播概率系数选择候选种子集合
f. 从最佳非重叠的重要节点和重要的重叠节点作为种子

社区检测和减少

LPANNI(Label Propagation Algorithm with Neighbor Node Influence)基于节点重要性、标签更新策略和历史标签优先策略检测社区。
图 G = ( V , E ) , C = { c 1 , c 2 , c 3 , ⋯ , c l } G=(V,E),C=\{c_1, c_2, c_3, \cdots, c_l\} G=(V,E),C={c1,c2,c3,⋯,cl}是检测出的社区，其中 c i = ( v c , e c ) , v c ∈ V , e c ∈ E c_i=(v_c,e_c), v_c \in V, e_c\in E ci=(vc,ec),vc∈V,ec∈E， w c = { w c 1 , w c 2 , w c 3 , ⋯ , w c l } w_c=\{w_{c1}, w_{c2}, w_{c3}, \cdots, w_{cl}\} wc={wc1,wc2,wc3,⋯,wcl}是计算得到的社区权重。

社区权重的计算如下，利用社区的拓扑结构和社区内节点的情感依赖性：

e c i e_{ci} eci是社区 c i c_i ci中的边数， e o i e_{oi} eoi是社区 c i c_i ci与其他社区的边数， e e e是网络中的总边数， n c i n_{ci} nci是社区 c i c_i ci中的节点个数， n n n网络总节点数。 v c i v_{ci} vci是社区 c i c_i ci中的一个节点， d e g v c i deg_{v_{ci}} degvci是其节点度。 d i s v c i dis_{v_{ci}} disvci是节点离散度（dispersion）。
a s as as是匹配系数（assortativity coefficient）：

d e g v c i ‾ \overline{deg_{v_{ci}}} degvci和 d e g v c j ‾ \overline{deg_{v_{cj}}} degvcj分别表示 v c i v_{ci} vci作为源和 v c j v_{cj} vcj作为目标的平均度。（应该是这个社区节点出度/入度的平均， d e g v c i deg_{v_{ci}} degvci是一个节点在整个网络中的度，这样才能保证分母根号内不为负）
*这个公式是类皮尔森相关系数的形式，皮尔森相关系数度量 X X X和 Y Y Y的相关性。

公式二用度计算网络的同配性， a s as as越大，说明网络中的高度值节点，倾向于与高度值节点相连；低度值节点，倾向于与低度值节点相连。

d i s v c i dis_{v_{ci}} disvci是dispersion criterion，节点离散度，检测社区 c i c_i ci的情感关系。节点 v c i v_{ci} vci和其邻居节点构成子图 G v c i G_{v_{c_i}} Gvci。对于子图中的每一个节点 u u u，将 u u u和 v c i v_{ci} vci的所有共同邻居构建节点集 C u v c i C_{uv_{ci}} Cuvci。对于 C u v c i C_{uv_{ci}} Cuvci的每一对节点对 s , t s,t s,t，计算距离。 d v d_v dv是距离函数，当 s s s和 t t t不直接连接并且在子图 G v c i G_{v_{ci}} Gvci中没有公共邻居时，距离函数 d v d_v dv为1，否则等于0。

群体中节点的亲密程度越高，则在该群体中传播信息可能是最佳的。

公式（1）中的第一部分检查了社区的拓扑标准，与社区中的节点与边的密度；第二部分是社区节点的情感关系和依赖程度。这个公式说明，节点和边的数量不是选择社区的最佳特征，拥有最佳情感关系和相似性的节点才能成为最佳社区。

之后对社区进行筛选减少种子节点的搜索空间，设置阈值 θ c \theta_c θc

其中 d e n c , m a x den_{c,max} denc,max表示最大社区密度，其值越大表示有大量社区参与到寻找有影响力的传播的计算中，其值越小表示参与下一步寻找有影响力节点的社区越少。
没有介绍是这么计算，猜测是按照社区中边的数量和全连接网络的比例计算。
对于存在的社区， C = { c 1 , c 2 , c 3 , ⋯ , c l } C=\{c_1, c_2, c_3, \cdots, c_l\} C={c1,c2,c3,⋯,cl}， n c , m a x n_{c,max} nc,max和 n c , m i n n_{c,min} nc,min表示最大和最小社区的节点数。 k k k表示种子节点数， A A A表示检测到的社区的数量。

如果 w c i ≥ θ c w_{ci}\geq\theta_c wci≥θc那么说明社区 i i i能用于寻找种子节点，但不一定能找到最佳的种子。

节点 A , B , C A, B, C A,B,C分别表示三个初始节点，在高 w c w_c wc社区中的种子激活的节点多，而且不仅能激活同一社区的节点还能激活别的社区的节点。

对于重叠节点的选择选择，只选择一些特定的和重要的重叠节点作为候选节点。

图2中有四个社区，权重分别是0.25，0.21，0.151，0.165， θ c = 0.175 \theta_c=0.175 θc=0.175。只有社区 c 1 , c 2 c1, c2 c1,c2被纳入搜索空间，对于重叠节点的选择也是考虑入选社区的重叠节点。那么在该图中节点5和节点15入选。对于重叠节点，评估其节点度、节点的聚类系数和其邻居节点等特征的影响。

其中 c c v j cc_{v_j} ccvj是重叠节点和不同社区的连接数， n b v j nb_{v_j} nbvj是节点度小于 v j v_j vj的 c c v j cc_{v_j} ccvj的数量。

识别有影响力的候选节点

社区扩散的概率系数

对于每一个 c i b ∈ C b c_{ib}\in C_b cib∈Cb，社区内的节点被分为两类， v I = { v I 1 , v I 2 , v I 3 , ⋯ , v I h } v_I=\{v_{I1}, v_{I2}, v_{I3}, \cdots, v_{Ih}\} vI={vI1,vI2,vI3,⋯,vIh}表示社区内，且没有与其他社区相连边的节点。 v O = { v O 1 , v O 2 , v O 3 , ⋯ , v O h } v_O=\{v_{O1}, v_{O2}, v_{O3}, \cdots, v_{Oh}\} vO={vO1,vO2,vO3,⋯,vOh}表示在社区内且和其他社区有边相连的节点。对于每个节点 v I v_I vI的社区扩散系数计算如下：

其中 n 1 i n_{1i} n1i和 n 2 i n_{2i} n2i是节点 v I v_I vI与集合 v O v_O vO距离为1和2的邻居数。在现实世界中，扩散和到达集合 v O v_O vO的概率是[0,1]的随机参数，用 p a r p_{ar} par表示。当 p d = 1 p_d=1 pd=1时，该节点传播到其他节点的概率最大，当 p d = 0 p_d=0 pd=0时，节点传播到其他社区的概率很小。

对于 v O v_O vO，计算其社区扩散系数，对于社区 c i b c_{ib} cib内的节点 v o v_o vo， Γ v c o = { v c o 1 , v c o 2 , v c o 3 , ⋯ , v c o j } \Gamma v_{co}=\{v_{co1}, v_{co2}, v_{co3}, \cdots, v_{coj}\} Γvco={vco1,vco2,vco3,⋯,vcoj}是社区 c j c_j cj中节点 v o v_o vo的直接邻居。集合 v H c = { v 1 H D , v 2 H D , v 3 H D , ⋯ , v n H D } v_{Hc} =\{v_{1_{HD}}, v_{2_{HD}}, v_{3_{HD}}, \cdots, v_{n_{HD}}\} vHc={v1HD,v2HD,v3HD,⋯,vnHD}是每个社区 c j c_j cj中节点度最大的节点。不同社区中可能有最大节点度（ d e g c j , m a x deg_{cj,max} degcj,max）相同的节点。

其中 ∣ v H c ∣ |v_{Hc}| ∣vHc∣是集合 v H c v_{Hc} vHc的个数，表示最大节点度的节点数。 w w w是节点 v o v_o vo的邻居数， x s p i x_{sp_i} xspi是 Γ v c o \Gamma v_{co} Γvco的每个节点 v c o i v_{co_i} vcoi到 v H c v_{Hc} vHc中最近节点的最短路径距离， n c n_c nc是 C b C_b Cb的个数， d e g c i , m a x deg_{ci,max} degci,max是社区 C b i C_{b_i} Cbi的最大节点度， d e g c , m a x deg_{c,max} degc,max是所有社区中的最大节点度， p a r i p_{ar_i} pari是节点 v c o i v_{co_i} vcoi到达其他节点的概率。

如果 Γ v c o ∈ v H c \Gamma v_{co}\in v_{Hc} Γvco∈vHc，意味着节点 v o v_o vo的邻居都是高节点度的，那么 p d p_d pd有最大值。
如果 Γ v c o ∩ v H c = ∅ \Gamma v_{co}\cap v_{Hc}=\varnothing Γvco∩vHc=∅，意味着节点 v o v_o vo的邻居都不在高节点度集合中，那么 p d p_d pd值偏小。

按照算法图，归一化是对所有节点的 p d p_d pd值归一化。

生成候选节点

候选节点分为两类：

包含k个重叠节点
最佳非重叠节点

选取k个最重要的重叠节点

先根据公式 w c i ≥ θ c w_{ci}\geq\theta_c wci≥θc选取权重大于阈值的社区集合 C b C_b Cb，然后根据公式6计算 C b C_b Cb社区的重叠节点的社区传播概率系数 p d p_d pd，最佳重叠节点加入集合 F F F。
文章这里的描述很不清楚，到底是

其中 c c v j cc_{v_j} ccvj是重叠节点和不同社区的连接数， n b v j nb_{v_j} nbvj是节点度小于 v j v_j vj的 c c v j cc_{v_j} ccvj的数量。
在为重叠节点 v j v_j vj计算 n v j n_{v_j} nvj之后，将 n v j n_{v_j} nvj值大的节点加入集合 F F F，加入的个数是 C b C_b Cb的个数。

选择最佳的非重叠节点

n n nn nn和 n e ne ne是节点 v c v_c vc的一阶和二阶邻居数， v i v_i vi是 v c v_c vc的一阶或二阶邻居，节点度为 d e g v i deg_{v_i} degvi， g g g是与 v c v_c vc有连接的社区数量。
高 b i n f , v c b_{inf,v_c} binf,vc的节点是社区间信息传播的有力桥梁，可能具有高影响力。因此将每个社区中高 b i n f , v c b_{inf,v_c} binf,vc的节点加入集合 T c i T_{c_i} Tci

N T c i NT_{c_i} NTci表示 T c i T_{c_i} Tci的长度， n c i n_{c_i} nci是社区 c i c_i ci的节点数， w c i w_{c_i} wci是其权重， k k k是种子集合的数量。

根据两种选择方式，得到候选集合 F F F和 T T T，

选取最终的种子节点

利用蒙特卡洛模拟在候选集合中寻找种子节点。

S S S是种子节点， σ ( S ∪ { v H } ) \sigma (S\cup \{v_H\}) σ(S∪{vH})实现添加了节点 v v v的影响扩散， v H v_H vH是 F C FC FC中的节点，将实现扩散最大化的 v H v_H vH添加进集合 S S S。

时间复杂度分析

社区检测和减少的时间复杂度
O ( n l o g n + n + c ) ≈ n l o g n O(nlogn+n+c)\approx nlogn O(nlogn+n+c)≈nlogn
生成候选集合和最终种子集合的选取
O ( k n ′ c ′ + k ′ n ′ R ) ≈ k ′ n ′ R O(kn'c'+k'n'R)\approx k'n'R O(kn′c′+k′n′R)≈k′n′R
其中 c ′ c' c′是搜索空间的社区 C b C_b Cb数量，
n ′ n' n′是搜索空间的节点数量， n ′ ≪ n n'\ll n n′≪n，
k k k是种子节点数， k ′ k' k′是候选节点数，
R R R是蒙特卡洛模拟数。
因此总的时间复杂度为
O ( n l o g n + k ′ n ′ R ) O(nlogn+k'n'R) O(nlogn+k′n′R)

表1中的m表示？

LIR和K-core的时间复杂度最小，CI和PHG的时间复杂度最大

实验

Dataset

真实世界网络

合成网络

Baseline

PHG：基于社区的贪婪算法
TI-SC：基于社区的算法，加入了对核心节点的局部评分
MCGM：以不同的特征识别种子节点的重力模型
ProbDeg：使用多跳邻居和节点的传播概率来选择种子节点
LIR：根据邻居节点度计算LI值的启发式算法
SRFM：基于核心节点的SRFM算法
Collective Influence（CI）：居于局部扩散的算法
VoteRank：基于投票的算法
K-core：指定核心节点与外围节点，将核心节点视为种子节点
CTIM：有影响力的节点与高领导力直接存在正相关
RNR：通过反向秩，权重和影响力来选择有影响力的新算法

实验设置

IC模型，扩散概率是0.01

实验结果

影响力扩散

以上是在现实世界网络上的实验结果，除了在Email网络达到最好的基线效果，在其他网络上都有一定的提升。

以上是合成网络中的实验结果。

比较了有重叠节点和没有重叠节点的实验结果

放一个例子，实验结果基本相似，加入了重叠节点提高了信息传播的范围。

运行时间

LIR，K-score，VoteRank的运行时间短，但是在选取种子节点的效果上较差。与PHG和CI算法的时间相比，FIP的效率更高了，且种子节点的选取质量也没有下降。

结论

提出的FIP算法，基于社区利用重叠节点的影响和社区扩散理论的概率系数来解决影响力最大化问题。解决影响力最大化问题中种子的有效性和时间复杂性。FIP算法通过- 1.初始社区的生成和优化，- 2.生成候选集合并选择最终种子集，两步来提高种子节点的有效性。删除不具有传播影响的社区以减少种子节点的搜索空间。在FIP算法中，分析了社会关系和社区结构，以提高种子节点选择性能。

在7个真实世界数据集和2个人工网络上验证了FIP的效果和运行时间。实验结果证明了FIP算法的有效性和运行效率。未来考虑FIP算法在线性阈值模型的扩展，并考虑候选节点之间距离的影响。（印度佬的文章里好像有计算距离）

FIP: A fast overlapping community-based influence maximization algorithm using probability coefficie相关推荐

Grain: Improving Data Efficiency of Graph Neural Networks via Diversified Influence Maximization分析
Grain论文详解 Link: Grain: Improving Data Efficiency of Graph Neural Networks via Diversified Influence ...
Fast Fuzzy Clustering Based on Anchor Graph
Fast Fuzzy Clustering Based on Anchor Graph 基于锚图的快速模糊聚类 FFCAG 模糊聚类十分流行: 大规模问题复杂度高,限制发挥对噪声敏感 FFCAG算法 ...
Influence maximization in social networks using transfer learning via graph-based LSTM
基于图LSTM的社交网络影响力最大化问题迁移学习前言文章内容摘要特征提取标签生成用基于图的LSTM训练模型选LSTM的原因: 基于图的LSTM: 迁移学习提出的模型架构提出的算法训 ...
EM算法（Expectation Maximization Algorithm）详解
EM算法(Expectation Maximization Algorithm)详解主要内容 EM算法简介预备知识极大似然估计 Jensen不等式 EM算法详解问题描述 EM算法推导 EM ...
文献记录(part13)--Hypergraph based geometric biclustering algorithm
学习笔记,仅供参考,有错必纠关键词:双聚类:霍夫变换:超图划分:基因芯片数据分析文章目录 Hypergraph based geometric biclustering algorithm 摘要 ...
文献学习(part16)--Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering
学习笔记,仅供参考,有错必纠文章目录 Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering A ...
（FLANN论文）fast approximate nearest neighbors with automatic algorithm configuration——中英对照翻译
Fast Approximate Nearest Neighbors With Automatic Algorithm Configuration Abstract 在许多计算机视觉问题中,最耗时的部 ...
论文阅读笔记（5）：Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering
论文阅读笔记(5):Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering,基于Oracle的可伸 ...
论文笔记《Influence Maximization in Near-Linear Time: A Martingale Approach》
原文链接文章目录摘要 1.简介 2.前言 2.1 问题的定义 2.2 扩散模型 2.3 回顾TIM,TIM+ 3.提出方法 3.1 RR集的鞅视图 3.2 节点选择阶段 3.3 采样阶段 3.4 ...

FIP: A fast overlapping community-based influence maximization algorithm using probability coefficie