Weisfeiler-Lehman 算法

Weisfeiler-Lehman(WL)算法
- The Weisfeiler-Lehman Test of Isomorphism
- The General Weisfeiler-Lehman Kernels
- - 1.The Weisfeiler-Lehman Kernel Framework
  - 2.The Weisfeiler-Lehman Subtree Kernel
  - - 多图上计算The Weisfeiler-Lehman Subtree Kernel
    - THE RAMON-GARTNER SUBTREE KERNEL
  - 3.The Weisfeiler-Lehman Edge Kernel
  - 4.The Weisfeiler-Lehman Shortest Path Kernel

Weisfeiler-Lehman(WL)算法

The Weisfeiler-Lehman Test of Isomorphism

图核使用来自Weisfeiler−LehmanWeisfeiler-LehmanWeisfeiler−Lehman同构检验的概念，更具体地讲是其一维变体，也称为“朴素顶点修饰”
该算法的关键思想是通过对相邻节点的节点标签排序后的集合来扩展节点标签，并将这些扩展后的标签压缩为新的短标签
alphabetalphabetalphabet ΣΣΣ必须足够大才能使fff具内射性。对于两个图，∣Σ∣=2n|Σ| = 2n∣Σ∣=2n个满足条件。

（a）（a）（a）网络中每个节点有一个labellabellabel，如图中的彩色的1，2，3，4，51，2，3，4，51，2，3，4，5
（b）（b）（b）标签扩展：做一阶广度优先搜索，即只遍历自己的邻居。比如在图（a）（a）（a）网络GGG中原(5)(5)(5)号节点，变成(5,234)(5,234)(5,234)，这是因为原（5）（5）（5）节点的一阶邻居有2，3和42，3和42，3和4
（c）（c）（c）标签压缩：仅仅只是把扩展标签映射成一个新标签，如 5,234=>135,234 => 135,234=>13
（d）（d）（d）压缩标签替换扩展标签
（e）（e）（e）数标签：比如在GGG网络中，含有111号标签222个，那么第一个数字就是222。这些标签的个数作为整个网络的新特征

算法：
假设要测试同构的两张图为GGG和G’G’G’，那么在结点vvv的第iii次迭代里，算法都分别做了四步处理：标签复合集定义、复合集排序、标签压缩和重标签

WLtestWL\ testWL test的复杂度是O(hm)O(hm)O(hm)，其中h为iterationiterationiteration次数，mmm是一次iterationiterationiteration里multisetmultisetmultiset的个数

一维的Weisfeiler−LehmanWeisfeiler-LehmanWeisfeiler−Lehman如下所示：

稳定后，统计两张图的labellabellabel的分布，如果分布相同，则一般认为两张图时同构的。

注意：我们可以发现，WLtestWL\ testWL test方法的步骤和GNNsGNNsGNNs具有异曲同工之妙，都是通过不断聚合邻居信息，得到节点的新表示，这也是为什么KipfKipfKipf在201720172017年GCNGCNGCN的论文中单独讨论和GCNGCNGCN和WLtestWL testWLtest关系的原因。而正是这种统一性，才使得本文能以 WLtestWL\ testWL test 为基础来分析GNNsGNNsGNNs框架。

The General Weisfeiler-Lehman Kernels

1.The Weisfeiler-Lehman Kernel Framework

Weisfeiler−LehmanalgorithmWeisfeiler-Lehman\ algorithmWeisfeiler−Lehman algorithm 对图GGG和G′G'G′的结点进行重标签时，只有当两个结点vvv和v′v'v′有相同的标签复合集，它们生成的新标签才一样。
因此，我们可以认为对所有图进行标签压缩和重标签时，标签映射函数fff都是一样的，定义为r((V,E,li))=(V,E,l(i+1))r((V, E, l_i)) = (V, E, l_{(i+1)})r((V,E,li))=(V,E,l(i+1))，其中，VVV是图GGG的结点集，EEE是图GGG的边集，lil_ili和l(i+1)l_{(i+1)}l(i+1)分别是Weisfeiler−LehmanalgorithmWeisfeiler-Lehman\ algorithmWeisfeiler−Lehman algorithm 在第iii次和第i+1i+1i+1次迭代时生成的标签集。

G0G_0G0是原始图，G1=r(G0)G_1 = r(G_0)G1=r(G0)是第一次重新贴标产生的图，依此类推.

性质
1.半正定矩阵的行列式是非负的。
2.两个半正定矩阵的和是半正定的。
3.Gi=r∗G(i−1)=(r2)∗G(i−2)=....=(ri)∗G0=(ri)∗GG_i = r * G_{(i-1)} = (r^2) * G_{(i-2)} = .... = (r^i) * G_0 = (r^i) * GGi=r∗G(i−1)=(r2)∗G(i−2)=....=(ri)∗G0=(ri)∗G
证明

**请注意，**可以将非负实权重αiα_iαi放在k(Gi，Gi′)，i=0,1,...,hk(G_i，G_i')，i = {0,1,...,h}k(Gi，Gi′)，i=0,1,...,h上，以获得更一般的Weisfeiler−LehmanWeisfeiler-LehmanWeisfeiler−Lehman核定义：

2.The Weisfeiler-Lehman Subtree Kernel

ci(G，σij)c_i(G，σ_{ij})ci(G，σij)是图形GGG中字母σijσ_{ij}σij的出现次数。

也就是说，Weisfeiler-Lehman子树内核在两个图中计数共同的原始标签和压缩标签

假设基本内核kkk是一个函数，用于计算两个图中的匹配节点标签对：

多图上计算The Weisfeiler-Lehman Subtree Kernel

算法：

在NNN个图和hhh次迭代的情况下，ΣΣΣ大小为Nn(h+1)Nn(h + 1)Nn(h+1)。

举例：

THE RAMON-GARTNER SUBTREE KERNEL

具有子树高度hhh的Ramon−GartnerRamon-GartnerRamon−Gartner子树内核通过迭代比较它们的邻域来比较图G=(V,E,l)G =(V,E,l)G=(V,E,l)和G0=(V0,E0,l)G_0 =(V_0,E_0,l)G0=(V0,E0,l)中的所有节点对：

M(v，v′)M(v，v')M(v，v′)是vvv和v′v'v′邻域的子集的精确匹配集合。M(v，v′)M(v，v')M(v，v′)的每个元素RRR是来自v∈Vv∈Vv∈V和v0∈V0v_0∈V_0v0∈V0的邻域的一组节点对，因此每对中的节点具有相同的标记，并且不包含多于一对的节点。因此，从直观上讲，kRGk_{RG}kRG迭代地考虑来自GGG的节点vvv和来自G0G_0G0的v0v_0v0的邻居之间两个相同标记节点的所有匹配M(v，v′)M(v，v')M(v，v′)。使参数λvλ_vλv和λv′λ_{v'}λv′等于单个参数λ会导致每个模式加权λλλ，并提高到模式中节点数的幂。

LINK TO THE WEISFEILER-LEHMAN SUBTREE KERNEL

3.The Weisfeiler-Lehman Edge Kernel

TheWeisfeiler−LehmanedgekernelThe\ Weisfeiler-Lehman\ edge\ kernelThe Weisfeiler−Lehman edge kernel 是theWeisfeiler−Lehmankernelframeworkthe\ Weisfeiler-Lehman\ kernel\ frameworkthe Weisfeiler−Lehman kernel framework的另一个实例。对于具有未加权边的图，我们考虑对两个图中具有相同标记的端点（事件节点）的匹配边对进行计数的基本内核。换句话说，基本内核定义为

其中φE(G)φ_E(G)φE(G)是对(a，b)(a，b)(a，b)，a,b∈Σa,b∈Σa,b∈Σ的出现次数的向量，它们表示GGG中边的端点的有序标签. (a，b)(a，b)(a，b)和(a0，b0)(a_0，b_0)(a0，b0)分别表示边eee和e0e_0e0的端点的有序标签，以及DirackernelDirac\ kernelDirac kernel的δ，kEδ，k_Eδ，kE可以等效地表示为∑e∈E∑e0∈E′δ(a，a0)δ(b，b0)∑_{e∈E} ∑_{e_0∈E'}δ(a，a_0) δ(b，b_0)∑e∈E∑e0∈E′δ(a，a0)δ(b，b0)。如果边缘通过分配权重的函数www加权，则基本核kEk_EkE可以定义为∑e∈E∑e0∈E′δ(a，a0)δ(b，b0)kw(w(e)，w((e0))∑_{e∈E} ∑_{e_0∈E'}δ(a，a_0) δ(b，b_0)k_w(w(e)，w((e_0))∑e∈E∑e0∈E′δ(a，a0)δ(b，b0)kw(w(e)，w((e0)) ,其中kwk_wkw是比较边缘权重的内核。

4.The Weisfeiler-Lehman Shortest Path Kernel

在这里，我们使用节点标记的最短路径内核作为基础内核。

Weisfeiler-Lehman Graph Kernels

https://github.com/BorgwardtLab/GraphKernels

https://static.aminer.cn/misc/pdf/20190419.pdf
https://github.com/ysig/GraKeL