论文笔记《Influence Maximization in Near-Linear Time: A Martingale Approach》

原文链接

文章目录

摘要
1、简介
2、前言
- 2.1 问题的定义
- 2.2 扩散模型
- 2.3 回顾TIM,TIM+
3、提出方法
- 3.1 RR集的鞅视图
- 3.2 节点选择阶段
- 3.3 采样阶段
- 3.4 组合到一起
4、扩展
- 4.1 IMM的泛化
- 4.2 应用到连续时间模型
5、相关工作
6、实验

原TIM,TIM+在计算OPT下界时过于保守，导致 θ \theta θ 很大，仍然有很大计算量。

摘要

给定一个社交网络 G G G 和一个正整数 k k k，影响最大化问题会要求 k k k 个节点(在 G G G 中)，采用某个想法或产品可能会触发其余节点最大预期的后续采用次数。该问题已在文献中进行了广泛研究，并且最先进的技术以 O ( ( k + l ) ( n + m ) log ⁡ n / ϵ 2 ) O((k +l)(n + m)\log n /\epsilon^{2}) O((k+l)(n+m)logn/ϵ2) 的预期时间运行，并返回 ( 1 − 1 / e − ϵ ) (1-1 / e -\epsilon) (1−1/e−ϵ) -近似解，具有至少 1 − 1 / n l 1-1/n^{l} 1−1/nl 的概率。
本文提出了一种影响力最大化算法，该算法可提供与现有技术相同的最坏情况保证，但可显着提高经验效率。我们算法的核心是一套基于鞅的估计技术，鞅是经典的统计工具。这些技术不仅以较小的计算开销提供了准确的结果，而且使我们的算法能够比现有方法支持更大类别的信息扩散模型。我们使用多达14亿条边的真实社交网络，在几种流行的扩散模型下针对最新技术实验性地评估了我们的算法。我们的实验结果表明，所提出的算法在计算效率方面始终优于现有技术，并且通常快几个数量级。

1、简介

给定一个社交网络 G G G 和一个正整数 k k k，影响最大化问题会要求 k k k 个节点(在 G G G 中)，采用某个想法或产品可能会触发其余节点最大预期的后续采用次数。这个问题源于病毒式营销，公司在社交网络中向一组有影响力的个人提供产品的免费样品，旨在通过口碑效应创造一系列产品采用。 Kempe等[25]将影响最大化描述为组合优化问题，并证明它是NP难的。作为解决方案，他们提出了一种贪心方法，该方法在几种形式的信息扩散模型下产生 1 − 1 / e − ϵ ) 1-1 / e-\epsilon) 1−1/e−ϵ) 近似值。从那时起，许多技术被提出用于在大型社交网络中实现有效的影响最大化。

然而，大多数现有技术要么为了实际效率而牺牲近似保证，反之亦然。特别是，提供 1 − 1 / e − ε 1-1 /e-ε 1−1/e−ε 近似解的方法通常需要几天的时间来处理具有数千个节点和边的小型社交网络。另一方面，提供经验效率的技术依赖于启发式方法，因此它们无法提供任何最坏情况下的性能保证。唯一的例外是最近有两种称为 T I M TIM TIM 和 T I M + TIM+ TIM+ 的技术：两种技术均以 O ( ( k + ℓ ) ( n + m ) log ⁡ n / ϵ 2 ) O((k +ℓ)(n + m)\log n /\epsilon^{2}) O((k+ℓ)(n+m)logn/ϵ2) 的预期时间运行，并至少以 1 − 1 / n ℓ 1-1 /n^{ℓ} 1−1/nℓ 的概率返回 ( 1 − 1 − / e − ε ) (1-1-/e-ε) (1−1−/e−ε) 的近似值，其中 n n n 和 m m m 分别是社交网络中节点和边的数量；此外，他们的经验表现与最先进的启发式解决方案相当。

尽管 T I M TIM TIM 和 T I M + TIM+ TIM+ 提供了有力的理论保证和良好的实践效率，但它们在计算成本方面仍留有很大的改进空间。具体而言， T I M TIM TIM 由两个阶段组成，即参数估计和节点选择。节点选择阶段从社交网络 G G G 采样了 θ \theta θ 个节点集，然后利用它们来推导具有较大预期影响的具有 k k k 个节点的集合。 θ \theta θ 的值至关重要：为了确保 1 − 1 / e − ε 1-1 / e-ε 1−1/e−ε近似解，表明 θ 至少应为 λ / O P T \lambda/ OPT λ/OPT ，其中OPT是任意大小为 k k k 的节点集的最大期望影响， λ \lambda λ 是关于 k , l , n , ϵ k,l,n,\epsilon k,l,n,ϵ 的函数。为了得出合适的 θ \theta θ， T I M TIM TIM 的参数估计阶段首先计算OPT的下限，然后 θ \theta θ 在此下界上设置为跟 λ \lambda λ 相关。这种方法虽然直观，但有两个缺陷。首先， T I M TIM TIM 得出的下限相当保守，在最坏的情况下可能比 OPT小 n / k n / k n/k 倍。结果， θ \theta θ 可能过大，导致节点选择阶段的不必要的开销。其次，下界本身的计算成本很高，如第6节所述，得出下界所需的时间可能比节点选择所需的时间长3倍以上。

T I M + TIM+ TIM+ 通过添加一个中间步骤（在参数估计和节点选择之间）对 T I M TIM TIM 进行了改进，该中间步骤可启发性地将 θ \theta θ 细化为更严格的OPT下限，从而提高了效率。但是，在最坏的情况下，即使改进的下限可能仍然小到 k n \frac{k}{n} nkOPT。此外，添加中间步骤不能解决由节点选择阶段引起的大量开销。

贡献本文提出了一种 I M M IMM IMM 算法，它是一种影响最大化算法，可以克服 T I M TIM TIM 和 T I M + TIM+ TIM+ 的不足，同时保留其优越的逼近保证和预期的时间复杂度。 I M M IMM IMM 的核心是一套基于鞅的估计技术，鞅是一种经典的统计工具。通过这些技术， I M M IMM IMM 采用了 T I M TIM TIM 的两阶段范例，但是合并了完全不同的参数估计阶段，该阶段能够得出渐近严格的OPT的下限。具体地，通过 I M M IMM IMM 将以大概率获得不小于 O P T ⋅ ( 1 − 1 / e ) / ( 1 + ϵ ′ ) 2 OPT\cdot(1-1 / e)/(1 +\epsilon')^{2} OPT⋅(1−1/e)/(1+ϵ′)2 的下界，其中 ϵ ′ \epsilon' ϵ′ 是可调参数。另外，下限的计算得到了优化，因此与 T I M TIM TIM 和 T I M + TIM+ TIM+ 相比，其开销要小得多。此外，使用鞅方法可以显着改善 I M M IMM IMM 的节点选择阶段，这有助于消除大量原本无法避免的不必要的计算。通过上述优化， I M M IMM IMM 在实际性能方面明显优于 T I M TIM TIM 和 T I M + TIM+ TIM+ 。特别是，我们在多达14亿条边的各种社交网络上针对 T I M TIM TIM 和 T I M + TIM+ TIM+ 对IMM进行了实验评估，结果表明， I M M IMM IMM 的运行时间比 T I M TIM TIM 和 T I M + TIM+ TIM+ 的运行时间缩短了两个数量级。此外，当我们将 ϵ \epsilon ϵ= 0.5和 l l l = 1设置时， I M M IMM IMM 甚至比最新的启发式解决方案产生更高的效率，同时仍然提供经验准确的结果。
此外，我们证明了 I M M IMM IMM 可以扩展为支持任何定义了特定采样过程的扩散模型。作为应用，我们提出了一种用于连续时间独立级联（CTIC）模型[6、16、30]的 I M M IMM IMM 变体，该模型在机器学习文献[15、17、18]中得到了广泛采用，但不受 T I M TIM TIM 支持。我们将我们的方法与CTIC模型下最先进的方法进行了比较，并证明了 I M M IMM IMM 在渐近性能和实际性能上都非常优越。
总结一下：

我们提出了 I M M IMM IMM，影响最大化算法在 O ( ( k + ℓ ) ( n + m ) log ⁡ n / ϵ 2 ) O((k +ℓ)(n + m)\log n /\epsilon^{2}) O((k+ℓ)(n+m)logn/ϵ2) 预期时间中运行，并在触发模型(大多数现有工作采用的通用扩散模型)下至少以 1 − 1 / e − ϵ 1-1/e-\epsilon 1−1/e−ϵ 的概率返回 ( 1 − 1 / e − ϵ ) (1-1/e-\epsilon) (1−1/e−ϵ) 的近似解(第3节)
我们研究了可以将IMM扩展到更大类别的扩散模型，同时仍保持 1 − 1 / e − ϵ 1-1/e-\epsilon 1−1/e−ϵ 近似比的条件。作为一个应用程序，我们提出了支持CTIC模型的 IMM 的扩展版本[16] (第4节)
我们用文献中测试过的最大的社交网络对 IMM 进行了实验评估，结果表明，它比几种流行的扩散模型的最新方法要快几个数量级(第6节)

2、前言

2.1 问题的定义

令 G = ( V , E ) G=(V,E) G=(V,E) 是一个社交网络，包含 n n n 个节点(节点集 V V V)和 m m m 条有向边 (边集 E E E)，对任意的两个节点 u , v ∈ V u,v\in V u,v∈V， < u , v > <u,v> <u,v> 是 E E E 中的边，我们说 v v v 是 u u u 的输出节点， u u u 是 v v v 的输入节点。我们考虑对 G G G 进行时间标记的扩散过程，如下所示：

在初始时刻，我们激活集合 S S S 中的节点，并且保持激活状态
当某个节点 u u u 在某时刻被首次激活时，根据某个特定的概率分布，从它的出邻居节点中采样一个节点集，然后在下一个时刻激活他们
一旦某个节点成为激活态，那么在接下来的所有时刻始终保持激活状态。

令 I ( S ) I(S) I(S) 是 G G G 根据上述过程最终收敛(直到没有新的点被激活)的激活点集合。我们令 S S S 为种子集， I ( S ) I(S) I(S) 为该种子集的影响力结果。注意， I ( S ) I(S) I(S) 是一个随机变量，它取决于每个节点从其邻居采样以激活的概率分布。我们将这些概率分布的集合称为扩散过程下的扩散模型。

问题陈述 给定 G G G，扩散模型 M M M 和正整数 k k k，影响最大化问题就是要求具有最大预期影响 E [ I ( S k ) ] E[I(S_k)] E[I(Sk)] 的大小为 k k k 的节点集 S k S_k Sk。

2.2 扩散模型

除非另有说明，否则我们将关注触发模型[25]，这是大多数影响力最大化的现有工作采用的经典且通用的扩散模型。为了解释触发模型，为便于说明，我们首先介绍一种特殊情况，称为独立级联（IC）[25]模型。 IC模型源自市场营销，并假设每个边 e ∈ E e\in E e∈E 与概率 p ( e ) ∈ [ 0 , 1 ] p(e)\in [0, 1] p(e)∈[0,1] 相关。对于任何节点 u u u 及其任何输出邻居 v v v，如果 u u u 首先在时刻 i i i 处被激活，则它有 p ( ⟨ u , v ⟩ ) p(⟨u,v⟩) p(⟨u,v⟩) 的概率在 i + 1 i +1 i+1 时刻激活 v v v 。 u u u 是否可以激活 v v v 与 u u u 激活之前的扩散历史无关，因此，节点激活的顺序不影响扩散结果。对于这种模型，种子集S的扩散过程具有如下等效公式[25]：

我们为 G G G 中的每个边 e e e 掷一次硬币，并以 1 − p ( e ) 1-p(e) 1−p(e) 的概率将其删除。令 g g g 为最终的社交网络。
我们激活集合 S S S 中的节点，同时激活 g g g 中所有可以被 S S S 中节点触达的点

为方便起见，我们使用 G G G 表示由随机性引起的 g g g 的分布，该随机性来自每个节点的触发分布的采样。

2.3 回顾TIM,TIM+

如前面提到的，TIM和TIM+有参数估计阶段和节点选择阶段，后者从 G G G 中采样了大量的节点集来计算最大化影响力，由TIM,TIM+采样得到的集合我们称为随机 RR 集，定义如下：

定义 1 (Reverse Reachable Set) 令 v v v 是 V V V 中的一个节点，然后在 G G G 中采样一个子图 g g g，在 g g g 中找到所有可以触达到 v v v 的节点，构成RR集，随机RR集是从V中随机选择的节点的RR集。

直观地，如果一个节点 u u u 出现在另一个节点 v v v 的RR集中，则来自包含 u u u 的种子集的扩散过程应具有一定的激活 v v v 的可能性。RR集与节点激活之间的这种联系在以下引理中形式化。

引理 1 对于任意种子集合 S S S 和任意节点 v v v，在传播过程中， v v v 可以被种子集 S S S 激活的概率等于种子集 S S S 覆盖 v v v 的一个RR集的概率
根据引理1，TIM的节点选择阶段用如下方法做到影响力最大化，

生成独立的随机RR集的可观集 R \mathcal{R} R。
考虑选择 k k k 个节点以覆盖 R \mathcal{R} R 中最大的RR集数量的最大覆盖问题。应用标准贪心算法来获得对该问题的 1 − 1 / e 1-1 / e 1−1/e 近似解 S k ∗ S_k^{*} Sk∗。
返回 S k ∗ S_k^{*} Sk∗ 作为影响最大化的答案

3、提出方法

这部分将展示 IMM，一个灵感来自于 TIM和TIM+的影响力最大化技巧，但是采样了一种新的算法来降低计算复杂度，整体来讲，IMM 分为两个阶段，

采样这个阶段迭代生成随机 RR 集，添加到 R \mathcal{R} R，直到满足停止条件
节点选择这个阶段应用标准贪心算法来获得最大覆盖率，以得出一个大小为 k k k 的节点集 S k ∗ S_k^{∗} Sk∗，它覆盖了 R \mathcal{R} R 中的大量RR集。然后返回 S k ∗ S_k∗ Sk∗ 作为最终结果。

节点选择部分，IMM和TIM,TIM+类似，但是TIM和TIM+要求 R \mathcal{R} R 中所有的随机 RR集是独立的，IMM中不做此要求，特别地，由IMM生成的随机RR集是互相依赖的，因为在IMM的采样阶段，是否生成第 (i + 1) RR集取决于前 i i i 个RR集是否满足停止条件。允许RR集之间存在这种依赖性使IMM的理论保证更加难以分析，但对IMM的效率至关重要，因为它使IMM能够消除TIM和TIM +中不可避免的大量冗余计算（请参见第3.4节）。同时，IMM的采样阶段与TIM和TIM +的参数估计阶段有很大不同，因为它采用了更高级的统计方法来确定所需的RR集的数量 θ \theta θ。相比于TIM和TIM+，这个方法不仅可以提供更准确的 θ \theta θ 选择，还可以降低参数估计中的计算代价。

接下来，我们引入鞅的概念，它在分析 R \mathcal{R} R 中 RR 集的依赖性非常重要。

3.1 RR集的鞅视图

令 R 1 , R 2 , . . . , R θ R_1,R_2,...,R_{\theta} R1,R2,...,Rθ 是在IMM采样阶段生成的随机 RR 集序列，令 S S S 为 G G G 中任意的节点集合， x i , i ∈ [ 1 , θ ] x_i,i\in [1,\theta] xi,i∈[1,θ] 是一个随机变量，满足当 S ∩ R i = ∅ S\cap R_i=\empty S∩Ri=∅ 时为0，否则为1。由引理1 E [ I ( S ) ] = n θ ⋅ E [ ∑ i = 1 θ x i ] (1) \mathbb{E}[I(S)]=\frac{n}{\theta}\cdot E\Big[\sum_{i=1}^{\theta}x_i\Big]\tag{1} E[I(S)]=θn⋅E[i=1∑θxi](1) 在IMM的节点选择阶段，用 n θ ⋅ ∑ i = 1 θ x i \frac{n}{\theta}\cdot\sum_{i=1}^{\theta}x_i θn⋅∑i=1θxi 来估计 E [ I ( S ) ] E[I(S)] E[I(S)]，为了确保估计是准确的， ∑ i = 1 θ x i \sum_{i=1}^{\theta}x_i ∑i=1θxi 不应该明显偏离其期望值。证明这种集中结果的经典工具是chernoff bounds，但它要求所有 x i x_i xi 都是独立的，这与 IMM 采样阶段的停止条件所引起的 x i x_i xi 之间的依赖性相矛盾。我们通过基于鞅的分析来规避此问题，定义如下：

定义 2 (鞅) 一个随机变量序列 Y 1 , Y 2 , . . . Y_1,Y_2,... Y1,Y2,... 称为鞅，当且仅当对于任意的 i > 0 i\gt 0 i>0，有 E [ Y i ] < + ∞ E[Y_i]\lt +\infty E[Yi]<+∞ 且 E [ Y i ∣ Y 1 , Y 2 , . . . , Y i − 1 ] = Y i − 1 E[Y_i|Y_1,Y_2,...,Y_{i-1}]=Y_{i-1} E[Yi∣Y1,Y2,...,Yi−1]=Yi−1 为了说明 x i ( i ∈ [ 1 , θ ] ) x_i(i\in [1,\theta]) xi(i∈[1,θ]) 和鞅的联系，我们先介绍 IMM 采样过程中的两个性质，首先，每个 R i ( i ∈ [ 1 , θ ] ) R_i(i\in [1, θ]) Ri(i∈[1,θ]) 是为随机均匀选择的节点 v v v 生成的，它包含可以从 G G G 采样的图 g g g 上到达 v v v 的节点。其次 v , g v, g v,g 的选择跟 R 1 , R 2 , . . . R i − 1 R_1,R_2,...R_{i-1} R1,R2,...Ri−1 是独立的。由于这些性质，对 ∀ i ∈ [ 1 , θ ] \forall i\in[1,\theta] ∀i∈[1,θ] , E [ x i ∣ x 1 , x 2 , . . . , x i − 1 ] = E [ x i ] = E [ I ( S ) ] / n E[x_i|x_1,x_2,...,x_{i-1}]=E[x_i]=E[I(S)]/n E[xi∣x1,x2,...,xi−1]=E[xi]=E[I(S)]/n 令 p = E [ I ( S ) ] / n , M i = ∑ j = 1 i ( x j − p ) p=E[I(S)]/n,M_i=\sum_{j=1}^{i}(x_j-p) p=E[I(S)]/n,Mi=∑j=1i(xj−p)，于是我们有 E [ M i ] = 0 E[M_i]=0 E[Mi]=0，且 E [ M i ∣ M 1 , M 2 , . . . , M i − 1 ] = M i − 1 E[M_i|M_1,M_2,...,M_{i-1}]=M_{i-1} E[Mi∣M1,M2,...,Mi−1]=Mi−1 由定义2， M 1 , M 2 , . . , M θ M_1,M_2,..,M_{\theta} M1,M2,..,Mθ 是一个鞅
以下的引理表明鞅的两个浓缩结果具有与chernoff bounds相似的感觉。
引理 2 令 Y 1 , Y 2 , Y 3 , . . . Y_1,Y_2,Y_3,... Y1,Y2,Y3,... 是一个鞅，使得 ∣ Y 1 ∣ < a |Y_1|\lt a ∣Y1∣<a，对 ∀ j ∈ [ 1 , i ] \forall j\in [1,i] ∀j∈[1,i]， ∣ Y j − Y j − 1 ∣ < a |Y_j-Y_{j-1}|\lt a ∣Yj−Yj−1∣<a，且 V a r [ Y 1 ] + ∑ j = 2 i V a r [ Y j ∣ Y 1 , Y 2 , . . . , Y j − 1 ] ≤ b Var[Y_1]+\sum_{j=2}^{i}Var[Y_j|Y_1,Y_2,...,Y_{j-1}]\le b Var[Y1]+j=2∑iVar[Yj∣Y1,Y2,...,Yj−1]≤b 则对任意 λ > 0 \lambda\gt 0 λ>0 P r [ Y i − E [ Y i ] ≥ γ ] ≤ exp ⁡ ( − γ 2 2 3 a γ + 2 b ) \mathrm{Pr}\Big[Y_i-E[Y_i]\ge\gamma\Big]\le \exp\Big(-\frac{\gamma^{2}}{\frac{2}{3}a\gamma+2b}\Big) Pr[Yi−E[Yi]≥γ]≤exp(−32aγ+2bγ2)

考虑鞅 M 1 , M 2 , . . , M θ M_1,M_2,.., M_{\theta} M1,M2,..,Mθ。我们有 ∣ M 1 ∣ ≤ 1 |M_1|\le 1 ∣M1∣≤1，且对任意 j ∈ [ 2 , θ ] ， ∣ M j − M j − 1 ∣ ≤ 1 j\in[2,\theta]，|M_j-M_{j-1}|\le1 j∈[2,θ]，∣Mj−Mj−1∣≤1，由 R i ( ∀ i ∈ [ 1 , θ ] ) R_i(\forall i\in[1,\theta]) Ri(∀i∈[1,θ]) 的性质，我们有 V a r [ M 1 ] + ∑ j = 2 θ V a r [ M j ∣ M 1 , M 2 , . . . , M j − 1 ] = ∑ j = 1 θ M j = θ p ⋅ ( 1 − p ) Var[M_1]+\sum_{j=2}^{\theta}Var[M_j|M_1,M_2,...,M_{j-1}]=\sum_{j=1}^{\theta}M_j=\theta p\cdot(1-p) Var[M1]+j=2∑θVar[Mj∣M1,M2,...,Mj−1]=j=1∑θMj=θp⋅(1−p) 由引理2和 M θ = ∑ i = 1 θ ( x i − p ) M_{\theta}=\sum_{i=1}^{\theta}(x_i-p) Mθ=∑i=1θ(xi−p)，有以下推论：

推论 1 对任意 ϵ > 0 \epsilon\gt0 ϵ>0，有 P r [ ∑ i = 1 θ x i − θ p ≥ ϵ ⋅ θ p ] ≤ exp ⁡ ( − ϵ 2 2 + 2 3 ϵ ⋅ θ p ) \mathrm{Pr}\Big[\sum_{i=1}^{\theta}x_i-\theta p\ge\epsilon\cdot\theta p\Big]\le\exp\Big(-\frac{\epsilon^{2}}{2+\frac{2}{3}\epsilon}\cdot \theta p\Big) Pr[i=1∑θxi−θp≥ϵ⋅θp]≤exp(−2+32ϵϵ2⋅θp)
同样，用引理2到鞅 − M 1 , − M 2 , . . , − M θ -M_1,-M_2,..,-M_{\theta} −M1,−M2,..,−Mθ

推论 2 对任意 ϵ > 0 \epsilon\gt0 ϵ>0，有 P r [ ∑ i = 1 θ x i − θ p ≤ − ϵ ⋅ θ p ] ≤ exp ⁡ ( − ϵ 2 2 ⋅ θ p ) \mathrm{Pr}\Big[\sum_{i=1}^{\theta}x_i-\theta p\le-\epsilon\cdot\theta p\Big]\le\exp\Big(-\frac{\epsilon^{2}}{2}\cdot \theta p\Big) Pr[i=1∑θxi−θp≤−ϵ⋅θp]≤exp(−2ϵ2⋅θp)

3.2 节点选择阶段

令 R = { R 1 , R 2 , . . . , R θ } \mathcal{R}=\{R_1,R_2,...,R_{\theta}\} R={R1,R2,...,Rθ} 是 IMM 在采样阶段生成的随机 RR 集， F R ( S ) F_{\mathcal{R}}(S) FR(S) 是 R \mathcal{R} R 中 RR集被 S S S 覆盖的占比，算法1显示了 IMM 节点选择部分的伪代码，输入 R , k \mathcal{R},k R,k，输出 S k ∗ S_{k}^{*} Sk∗，这个算法对应了影响力最大化问题的标准贪心方法，可以保证 F R ( S ∗ ) F_{\mathcal{R}}(S^{*}) FR(S∗) 是任意大小为 k k k 的节点集对随机 RR 集 R \mathcal{R} R 覆盖率的 1 − 1 / e 1-1/e 1−1/e 倍，可以看到，当集合 R \mathcal{R} R 中 RR 集的数量 θ \theta θ 足够大的时候， S k ∗ S_{k}^{*} Sk∗ 将以很大的概率得到一个 1 − 1 / e − ϵ 1-1/e-\epsilon 1−1/e−ϵ 的近似解。

这里在节点选择阶段，和TIM也不一样，TIM中贪心算法是以最大化覆盖RR集数量，而IMM中是以种子集对 R \mathcal{R} R 的覆盖率为准。

假设 S k o S_{k}^{o} Sko 是期望影响力最大的 k k k 个种子节点的集合，即 O P T = E [ I ( S k o ) ] OPT=E[I(S_{k}^{o})] OPT=E[I(Sko)]，由等式 (1) 知， n ⋅ F R ( S k o ) n\cdot F_{\mathcal{R}}(S_{k}^{o}) n⋅FR(Sko) 是 O P T OPT OPT 的无偏估计，由推论 2 知，当 θ \theta θ 取适当大小时， n ⋅ F R ( S k o ) n\cdot F_{\mathcal{R}}(S_{k}^{o}) n⋅FR(Sko) 应该近似 O P T OPT OPT，正如下面的引理所示

引理 3 令 δ 1 ∈ ( 0 , 1 ) , ϵ 1 > 0 \delta_1\in(0,1),\epsilon_{1}\gt 0 δ1∈(0,1),ϵ1>0 且 θ 1 = 2 n ⋅ log ⁡ ( 1 / δ 1 ) O P T ⋅ ϵ 1 2 (2) \theta_1=\frac{2n\cdot\log(1/\delta_1)}{OPT\cdot\epsilon_{1}^{2}}\tag{2} θ1=OPT⋅ϵ122n⋅log(1/δ1)(2)如果 θ ≥ θ 1 \theta\ge\theta_1 θ≥θ1，则 n ⋅ F R ( S k o ) ≥ ( 1 − ϵ 1 ) ⋅ O P T n\cdot F_{\mathcal{R}}(S_{k}^{o})\ge(1-\epsilon_1) \cdot OPT n⋅FR(Sko)≥(1−ϵ1)⋅OPT 至少以 1 − δ 1 1-\delta_{1} 1−δ1 的概率成立。
假设 n ⋅ F R ( S k o ) ≥ ( 1 − ϵ 1 ) ⋅ O P T n\cdot F_{\mathcal{R}}(S_{k}^{o})\ge(1-\epsilon_1) \cdot OPT n⋅FR(Sko)≥(1−ϵ1)⋅OPT成立，由贪心算法的性质， n ⋅ F R ( S k ∗ ) ≥ ( 1 − 1 / e ) ⋅ n ⋅ F R ( S k o ) ≥ ( 1 − 1 / e ) ⋅ ( 1 − ϵ 1 ) ⋅ O P T (3) n\cdot F_{\mathcal{R}}(S_{k}^{*})\ge(1-1/e)\cdot n\cdot F_{\mathcal{R}}(S_{k}^{o})\ge (1-1/e)\cdot(1-\epsilon_1)\cdot OPT\tag{3} n⋅FR(Sk∗)≥(1−1/e)⋅n⋅FR(Sko)≥(1−1/e)⋅(1−ϵ1)⋅OPT(3) 直观地，等式 (3) 表明， S k ∗ S_{k}^{*} Sk∗ 的期望影响力应该比较大，因为 n ⋅ F R ( S k ∗ ) n\cdot F_{\mathcal{R}}(S_{k}^{*}) n⋅FR(Sk∗) 是 E [ I ( S k ∗ ) ] E[I(S_{k}^{*})] E[I(Sk∗)] 的示性函数，我们将这个直观的感受归纳为下面的引理

引理 4 令 δ 2 ∈ ( 0 , 1 ) , ϵ 1 < ϵ \delta_2\in(0,1),\epsilon_1\lt\epsilon δ2∈(0,1),ϵ1<ϵ 且 θ 2 = ( 2 − 2 / e ) ⋅ n ⋅ log ⁡ ( ( n k ) / δ 2 ) O P T ⋅ ( ϵ − ( 1 − 1 / e ) ⋅ ϵ 1 ) 2 \theta_2=\frac{(2-2/e)\cdot n\cdot \log(\binom{n}{k}/\delta_2)}{OPT\cdot(\epsilon-(1-1/e)\cdot\epsilon_{1})^{2}} θ2=OPT⋅(ϵ−(1−1/e)⋅ϵ1)2(2−2/e)⋅n⋅log((kn)/δ2) 如果等式 (3) 成立，且 θ ≥ θ 2 \theta\ge\theta_2 θ≥θ2，则至少有 1 − δ 2 1-\delta_2 1−δ2 的概率有 E [ I ( S k ∗ ) ] ≥ ( 1 − 1 / e − ϵ ) ⋅ O P T E[I(S_{k}^{*})]\ge (1-1/e-\epsilon)\cdot OPT E[I(Sk∗)]≥(1−1/e−ϵ)⋅OPT

引理 3 和引理 4 得到如下定义

定理 1 给定任意 ϵ 1 ≤ ϵ , ∀ δ 1 , δ 2 ∈ ( 0 , 1 ) \epsilon_1\le\epsilon, \forall \delta_1,\delta_2\in (0,1) ϵ1≤ϵ,∀δ1,δ2∈(0,1) 满足 δ 1 + δ 2 ≤ 1 / n l \delta_1+\delta_2\le 1/n^{l} δ1+δ2≤1/nl，令 θ ≥ max ⁡ { θ 1 , θ 2 } \theta\ge\max\{\theta_1,\theta_2\} θ≥max{θ1,θ2} 确保在IMM的节点选择阶段，至少以 1 − 1 / n l 1-1/n^{l} 1−1/nl 的概率返回一个 ( 1 − 1 / e − ϵ ) (1-1/e-\epsilon) (1−1/e−ϵ) 近似解。

参数化 假设 O P T OPT OPT 是已知的，那么根据定理1，我们可以以 1 − 1 / n l 1-1/n^{l} 1−1/nl 的概率得到一个 ( 1 − 1 / e − ϵ ) (1-1/e-\epsilon) (1−1/e−ϵ) 近似解。首先，我们根据定理1的条件选择 ϵ 1 , δ 1 , δ 2 \epsilon_1,\delta_1,\delta_2 ϵ1,δ1,δ2，然后基于等式 (2), (4)计算 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2，然后计算 θ = max ⁡ { θ 1 , θ 2 } \theta=\max\{\theta_1,\theta_2\} θ=max{θ1,θ2}，最终，我们确保 R \mathcal{R} R 中至少有 θ \theta θ 个RR集。

引理 5 给定 ϵ , l \epsilon,l ϵ,l，令 θ o \theta^{o} θo 是定理 1中条件下 θ \theta θ 的最小值，我们有 θ o ≤ θ ∗ ≤ θ o ⋅ l log ⁡ n + log ⁡ 2 l log ⁡ n \theta^{o}\le\theta^{*}\le\theta^{o}\cdot\frac{l\log n+\log 2}{l\log n} θo≤θ∗≤θo⋅llognllogn+log2

推论 3 算法1运行时间复杂度为 O ( ∑ R ∈ R ∣ R ∣ ) O(\sum_{R\in\mathcal{R}}|R|) O(∑R∈R∣R∣)

3.3 采样阶段

引理 6 令 x ∈ [ 1 , n ] x\in [1, n] x∈[1,n]， ϵ ′ , δ 3 ∈ ( 0 , 1 ) \epsilon',\delta_3\in(0,1) ϵ′,δ3∈(0,1)，假设我们在包含 θ \theta θ 个RR集的集合 R \mathcal{R} R 上使用算法1，其中 θ ≥ ( 2 + 2 3 ϵ ′ ) ⋅ ( log ⁡ ( n k ) + log ⁡ ( 1 / δ 3 ) ) ϵ ′ 2 ⋅ n x (8) \theta\ge\frac{(2+\frac{2}{3}\epsilon')\cdot(\log\binom{n}{k}+\log(1/\delta_{3}))}{\epsilon'^{2}}\cdot\frac{n}{x}\tag{8} θ≥ϵ′2(2+32ϵ′)⋅(log(kn)+log(1/δ3))⋅xn(8) 令 S k ∗ S_{k}^{*} Sk∗ 是算法1的输出结果，则如果 O P T < x OPT\lt x OPT<x， n ⋅ F R ( S k ∗ ) < ( 1 + ϵ ′ ) ⋅ x n\cdot F_{\mathcal{R}}(S_{k}^{*})\lt(1+\epsilon')\cdot x n⋅FR(Sk∗)<(1+ϵ′)⋅x 至少以 1 − δ 3 1-\delta_3 1−δ3 的概率成立。

3.4 组合到一起

4、扩展

4.1 IMM的泛化

4.2 应用到连续时间模型

5、相关工作

6、实验