讲座标题：Introduction to Network Data Analysis

中文标题：网络数据分析导论

讲授者： Dr. Zongming Ma \text{Dr. Zongming Ma} Dr. Zongming Ma

讲授者邮箱（课程内容问题可联系）： zongming.ma@gmail.com \text{zongming.ma@gmail.com} zongming.ma@gmail.com

腾讯会议 I D \rm ID ID：

第一节课（讲座时间： 2021/07/28 08:00-11:30(UTC+8) \text{2021/07/28 08:00-11:30(UTC+8)} 2021/07/28 08:00-11:30(UTC+8)） 353417977 353417977 353417977（密码： 123456 123456 123456）https://meeting.tencent.com/s/MuR1hV5tczeW

第二节课（讲座时间： 2021/07/29 08:00-11:30(UTC+8) \text{2021/07/29 08:00-11:30(UTC+8)} 2021/07/29 08:00-11:30(UTC+8)） 482857838 482857838 482857838（密码： 123456 123456 123456）https://meeting.tencent.com/s/iyUdNiXsohiy

第三节课（讲座时间： 2021/07/30 08:00-11:30(UTC+8) \text{2021/07/30 08:00-11:30(UTC+8)} 2021/07/30 08:00-11:30(UTC+8)） 107999260 107999260 107999260（密码： 123456 123456 123456）https://meeting.tencent.com/s/9UwpnnmlCKbc

序言

这门课是叉院开设在今年 7 7 7月 28 28 28日至 7 7 7月 30 30 30日的短期课程，主要讲授在网络图中的模型与应用，重心偏于统计理论以及数学规划，难度较高。讲授者以板书形式授课，笔者对板书内容进行的翻译，预计更新至 7 7 7月 30 30 30日，不过那天可能会有事无法详细记录最后一节课的内容。

讲授者介绍及课程大纲见本文 Lecture 1 \text{Lecture 1} Lecture 1中的内容，笔者认为该课程的质量是非常高的，有兴趣的朋友可以抽空来听听，虽然目前图神经网络已经有长足的应用与发展，但是笔者一向认为缺乏理论支撑的工作往往是难以长久的。

另上述邮箱可用于联系讲授者进行课程内容答疑，此后两天课程时间改为从 08 : 30 08:30 08:30开始，中途下课一次。

文章目录

序言
Lecture 1 \text{Lecture 1} Lecture 1 概论
Lecture 2 \text{Lecture 2} Lecture 2 统计决策理论导论
Lecture 3 \text{Lecture 3} Lecture 3 随机块模型（一）
Lecture 4 \text{Lecture 4} Lecture 4 随机块模型（二）
Lecture 5 \text{Lecture 5} Lecture 5 隐空间模型

Lecture 1 \text{Lecture 1} Lecture 1 概论

讲授者介绍：

Dr. Zongming Ma is an Associate Professor of Statistics of the Wharton School at the University of Pennsylvania. He received his PhD in Statistics from Stanford University in 2010 and has since then been on the faculty of the Wharton Statistics Department. Dr. Ma’s research interests include high-dimensional statistical inference, nonparametric statistics, network data analysis, and their applications in biomedical data analysis. He is a recipient of a Sloan Research Fellowship and an NSF CAREER Award.
课程大纲：
1. Introduction to network data
  (a) Examples of typical network data
  (b) Important characteristics
  (c) Main challenges: modeling, algorithm, theory
  (d) This course: exchangeable network models, SBM / DCBM / latent space models
2. A short introduction to statistical decision theory
  (a) Model, parameter, action space, loss, risk
  (b) Statistical optimality: Cramer–Rao, Bayes, minimax, rate minimax
  (c) Why the rate minimax viewpoint makes sense for complex decision problems
  (d) Neyman-Pearson lemma
  (e) Statistical optimality vs. computational efficiency
3. Stochastic block models (1)
  (a) Data, model and parametrization
  (b) Likelihood and mean structure
  (c) To start with: planted partition model (balanced 2-block model)
  i. Spectral clustering
  ii. SDP relaxation of MLE
  iii. Approximate message passing
4. Stochastic block models (2): Performance guarantee of spectral clustering
  (a) Prelude: three different regimes for community detection
  (b) l2 loss function
  (c) l∞ loss function
  (d) From spectral clustering to rate minimaxity
5. Stochastic block models (3): Performance guarantee of SDP relaxations
6. From SBMs to DCBMs
  (a) Reminder: why DCBMs
  (b) Generalization of spectral clustering
  (c) Generalization of SDP
  (d) Rate optimality in DCBMs
7. Latent space models
  (a) Intro to latent space models
  (b) Connection to 1-bit matrix completion
  (c) Parameter estimation
  (d) Community detection
8. Other models and connections to other statistical problems

Lecture 2 \text{Lecture 2} Lecture 2 统计决策理论导论

本节内容为数理统计回顾。

模型，参数，参数空间

( 1 ) (1) (1) 模型：给定数据 X X X，模型即生成 X X X的概率分布 F F F，记为 X ∼ F X\sim F X∼F。

( 2 ) (2) (2) 参数：我们并不 100 % 100\% 100%确定模型是正确，因此通常考虑一组模型，由参数 θ \theta θ来索引（index）。

( 3 ) (3) (3) 参数空间：即参数 θ \theta θ的定义域 Θ \Theta Θ。
行为空间，损失函数与风险函数

( 1 ) (1) (1) 理论框架：给定数据 X X X，模型 F θ F_\theta Fθ，需要制定决策，如估计、检验以及预测。

( 2 ) (2) (2) 行为空间：决策可以采取的所有值构成行为空间，记为 A \mathcal{A} A，我们需要得出某个映射 X → A X\rightarrow\mathcal{A} X→A。
- 在检验中， A = { 0 , 1 } \mathcal{A}=\{0,1\} A={0,1}或 A = [ 0 , 1 ] A=[0,1] A=[0,1]表示是否拒绝零假设或表示随机检验中拒绝零假设的概率。
( 3 ) (3) (3) 损失函数：给定一个行动 a ∈ A a\in A a∈A，损失函数 l ( a , θ ) l(a,\theta) l(a,θ)用于衡量该行为有多坏。
- 确定检验中，一种合理的损失函数： l ( a , θ ) = 1 a = 1 ⋅ 1 θ ∈ H 0 + 1 a = 0 ⋅ 1 θ ∈ H 1 l(a,\theta)=\textbf{1}_{a=1}\cdot\textbf{1}_{\theta\in H_0}+\textbf{1}_{a=0}\cdot\textbf{1}_{\theta\in H_1} l(a,θ)=1a=1⋅1θ∈H0+1a=0⋅1θ∈H1
- 随机检验中，一种合理的损失函数： l ( a , θ ) = a ⋅ 1 θ ∈ H 0 + ( 1 − a ) ⋅ 1 θ ∈ H 1 l(a,\theta)=a\cdot\textbf{1}_{\theta\in H_0}+(1-a)\cdot\textbf{1}_{\theta\in H_1} l(a,θ)=a⋅1θ∈H0+(1−a)⋅1θ∈H1
( 4 ) (4) (4) 风险函数：即损失函数的期望值， R ( θ ) = E θ [ l ( a ( X ) , θ ) ] R(\theta)=\mathbb{E}_\theta\left[l(a(X),\theta)\right] R(θ)=Eθ[l(a(X),θ)]，这是一个只与 θ \theta θ相关的函数。
R ( θ ) = E θ ∥ g ^ ( θ ) − g ( θ ) ∥ 2 2 (2.1) R(\theta)=\mathbb{E}_\theta\left\|\hat g(\theta)-g(\theta)\right\|_2^2\tag{2.1} R(θ)=Eθ∥g^(θ)−g(θ)∥22(2.1)
统计最优性

( 1 ) (1) (1) Cramer-Rao \text{Cramer-Rao} Cramer-Rao定理（无偏估计量的最小方差）： X 1 , . . . , X n ∼ i i d f θ ( x ) X_1,...,X_n\overset{iid}{\sim}f_\theta(x) X1,...,Xn∼iidfθ(x)，设 W ( x ) = W ( X 1 , . . . , X n ) W(x)=W(X_1,...,X_n) W(x)=W(X1,...,Xn)是任意一个估计函数，其中 x ∈ X x\in\mathcal{X} x∈X，使得 d d θ E θ [ W ( x ) ] = ∫ X ∂ ∂ θ [ W ( x ) f θ ( x ) ] \frac{\text{d}}{\text{d}\theta}\mathbb{E}_\theta[W(x)]=\int_\mathcal{X}\frac\partial{\partial\theta}\left[W(x)f_\theta(x)\right] dθdEθ[W(x)]=∫X∂θ∂[W(x)fθ(x)]，且 E θ W 2 ( x ) \mathbb{E}_\theta W^2(x) EθW2(x)有穷，则有：
var θ ( W ( x ) ) ≥ [ d d θ E θ [ W ( x ) ] ] 2 E θ [ ( ∂ ∂ θ log ⁡ f θ ( x ) ) 2 ] (2.2) \text{var}_\theta(W(x))\ge\frac{\left[\frac{\text{d}}{\text{d}\theta}\mathbb{E}_\theta[W(x)]\right]^2}{\mathbb{E}_{\theta}\left[\left(\frac{\partial}{\partial \theta}\log f_\theta(x)\right)^2\right]}\tag{2.2} varθ(W(x))≥Eθ[(∂θ∂logfθ(x))2][dθdEθ[W(x)]]2(2.2)
- 注意很多时候 var θ ( W ( x ) ) \text{var}_\theta(W(x)) varθ(W(x))是可以作为风险函数使用的，因此可以得到风险函数的下界，且这个下界与 g ( θ ) g(\theta) g(θ)估计值 g ^ ( θ ) \hat g(\theta) g^(θ)是无关的。
- 若某个无偏估计量达到 Cramer-Rao \text{Cramer-Rao} Cramer-Rao下界，则该无偏估计量是有效的。
- 这对参数空间中每一个 θ \theta θ都是最优的，因此是点点最优，一个推论是在指数族分布的 f θ ( x ) = exp ⁡ { a ( θ ) + b ( θ ) W ( x ) } f θ 0 ( x ) f_\theta(x)=\exp\left\{a(\theta)+b(\theta)W(x)\right\}f_{\theta_0}(x) fθ(x)=exp{a(θ)+b(θ)W(x)}fθ0(x)上是成立点点最优的性质的。
( 2 ) (2) (2) 贝叶斯法则：
- 平均最优：假设参数 θ \theta θ的密度函数为 π ( θ ) \pi(\theta) π(θ)，其中 θ ∈ Θ \theta\in\Theta θ∈Θ，则平均风险可以定义为：
  r π = ∫ Θ R ( θ , δ ) π ( θ ) d θ (2.3) r_\pi=\int_\Theta R(\theta,\delta)\pi(\theta)\text{d}\theta\tag{2.3} rπ=∫ΘR(θ,δ)π(θ)dθ(2.3)
  其中 R ( θ , δ ) = E θ [ l ( x ) , θ ] R(\theta,\delta)=\mathbb{E}_\theta\left[l(x),\theta\right] R(θ,δ)=Eθ[l(x),θ]，上式就是贝叶斯风险函数，表示的是一种平均风险，如果某个估计量使得平均风险按最小，则称其为平均最优。
  
  由于这里涉及到参数 θ \theta θ的分布，就有先验与后验的区别，与贝叶斯相关的总是后验的：
  π ( θ ∣ x ) = f ( x ∣ θ ) ⋅ π ( θ ) m ( x ) ∫ Θ R ( θ , δ ) π ( θ ) d θ = ∫ Θ [ ∫ X l ( θ , δ ( x ) ) f ( x ∣ θ ) d x ] π ( θ ) d θ = ∫ X [ ∫ Θ l ( θ , a ) π ( θ ∣ x ) d θ ] m ( x ) d x (2.4) \pi(\theta|x)=\frac{f(x|\theta)\cdot\pi(\theta)}{m(x)}\\ \int_\Theta R(\theta,\delta)\pi(\theta)\text{d}\theta=\int_\Theta\left[\int_\mathcal{X}l(\theta,\delta(x))f(x|\theta)\text{d}x\right]\pi(\theta)\text{d}\theta=\int_{\mathcal{X}}\left[\int_\Theta l(\theta,a)\pi(\theta|x)\text{d}\theta\right]m(x)\text{d}x\tag{2.4} π(θ∣x)=m(x)f(x∣θ)⋅π(θ)∫ΘR(θ,δ)π(θ)dθ=∫Θ[∫Xl(θ,δ(x))f(x∣θ)dx]π(θ)dθ=∫X[∫Θl(θ,a)π(θ∣x)dθ]m(x)dx(2.4)
  交换积分次序后可以发现，贝叶斯估计量（平均最小）等价于最小化：
  argmin a ∫ Θ l ( θ , a ) π ( θ ∣ x ) d θ = δ π ( x ) (2.5) \text{argmin}_a\int_\Theta l(\theta,a)\pi(\theta|x)\text{d}\theta=\delta^\pi(x)\tag{2.5} argmina∫Θl(θ,a)π(θ∣x)dθ=δπ(x)(2.5)
  称为贝叶斯法则，即最优估计量是使得后验均值最小的点。一般 l ( θ , a ) = ( θ − a ) 2 l(\theta,a)=(\theta-a)^2 l(θ,a)=(θ−a)2或是 l ( θ ) = ∣ θ − a ∣ l(\theta)=|\theta-a| l(θ)=∣θ−a∣，后者的贝叶斯法则取后验中位数（ M A E \rm MAE MAE的最小值取在中位数）。
( 3 ) (3) (3) 最小最大最优性：
- 定义：称对于 θ \theta θ的一个估计量 δ M ( x ) \delta^{M}(x) δM(x)是最小最大估计量，若 sup ⁡ θ ∈ Θ R ( θ , δ M ) = inf ⁡ δ sup ⁡ θ ∈ Θ R ( θ , δ ) \sup_{\theta\in\Theta}R(\theta,\delta^M)=\inf_{\delta}\sup_{\theta\in\Theta}R(\theta,\delta) supθ∈ΘR(θ,δM)=infδsupθ∈ΘR(θ,δ)，这就是最小最大最优性，这是一个很悲观的最优性。

与贝叶斯估计量的联系：设 { π m ( θ ) } \{\pi_m(\theta)\} {πm(θ)}是一系列 least favorable \text{least favorable} least favorable的先验分布，若每个先验分布 π \pi π，有 r π ≤ r = lim ⁡ m → ∞ r π m r_\pi\le r=\lim_{m\rightarrow\infty}r_{\pi_m} rπ≤r=limm→∞rπm，其中 r π m = ∫ R ( θ , δ π m ) π m ( θ ) d θ r_{\pi_m}=\int R(\theta,\delta^{\pi_m})\pi_m(\theta)\text{d}\theta rπm=∫R(θ,δπm)πm(θ)dθ，这是在 π m \pi_m πm下贝叶斯风险。
- 定理：假设 { π m ( θ ) } \{\pi_m(\theta)\} {πm(θ)}满足 r π ≤ r = lim ⁡ m → ∞ r π m r_\pi\le r=\lim_{m\rightarrow\infty}r_{\pi_m} rπ≤r=limm→∞rπm，且 δ \delta δ是一个满足 sup ⁡ θ R ( θ , δ ) = r \sup_\theta R(\theta,\delta)=r supθR(θ,δ)=r的估计量，则 δ \delta δ是最小最大的（minimax）。
- 渐近最小最大速率最优性：最小最大速率 η \eta η，最小最大风险 sup ⁡ θ R ( θ , δ n M ) ≈ η n \sup_\theta R(\theta,\delta_n^M)\approx \eta_n supθR(θ,δnM)≈ηn
  inf ⁡ δ sup ⁡ θ ∈ Θ E θ l ( δ ( x ) , θ ) ≈ η n \inf_\delta \sup_{\theta\in\Theta}\mathbb{E}_\theta l(\delta(x),\theta)\approx \eta_n δinfθ∈ΘsupEθl(δ(x),θ)≈ηn
  这里第二天做了一些补充，不是很能搞得明白。
( 4 ) (4) (4) 黎曼皮尔森引理：检验最优性
- 定义假设检验 H 0 : θ = θ 0 v.s. H 1 : θ = θ 1 H_0:\theta=\theta_0\text{ v.s. }H_1:\theta=\theta_1 H0:θ=θ0 v.s. H1:θ=θ1，给定检验水平 α \alpha α，最优检验指似然比检验，即拒绝域为 f θ 1 ( x ) f θ 2 ( x ) > k \frac{f_{\theta_1}(x)}{f_{\theta_2}(x)}>k fθ2(x)fθ1(x)>k。

Lecture 3 \text{Lecture 3} Lecture 3 随机块模型（一）

想象一个学院内学生的社交关系网络，同年级学生之间的社交关系通常比跨年级的多得多，此时各个年级的学生就可以视为不同的块，可以使用随机块模型来刻画这种社交网络。

初始化：

( 1 ) (1) (1) 数据： n n n个节点 { 1 , 2 , . . . , n } \{1,2,...,n\} {1,2,...,n}构成一个无向图，可以使用一个对称的零一邻接矩阵 A = { a i j } A=\{a_{ij}\} A={aij}来表示，其中 a i i = 0 a_{ii}=0 aii=0，即不存在指向自身的边。

( 2 ) (2) (2) 模型（生成模型）：
- Erdos-Renyi \text{Erdos-Renyi} Erdos-Renyi模型： ∀ i < j , a i j = a j i ∼ i i d Bernoulli ( p ) \forall i<j,a_{ij}=a_{ji}\overset{iid}{\sim}\text{Bernoulli}(p) ∀i<j,aij=aji∼iidBernoulli(p)
- 随机块模型（stochastic block model，下简称为 SBM \text{SBM} SBM），也称为 planted partition model \text{planted partition model} planted partition model
  
  存在 k k k个块（区），以及离散概率分布 α = ( α 1 , . . . , α k ) \alpha=(\alpha_1,...,\alpha_k) α=(α1,...,αk)，其中 α i ∈ ( 0 , 1 ) \alpha_i\in(0,1) αi∈(0,1)满足 ∑ i = 1 k α i = 1 \sum_{i=1}^k\alpha_i=1 ∑i=1kαi=1。则
  
  任意节点 i i i，根据概率 α \alpha α将它分配到某个块（区）中，我们得到标签向量 z ∈ { 1 , . . . , k } n z\in\{1,...,k\}^n z∈{1,...,k}n，
  
  设 B ∈ [ 0 , 1 ] k × k B\in[0,1]^{k\times k} B∈[0,1]k×k为一个对称矩阵， ∀ i < j \forall i<j ∀i<j， a i j = a j i ∼ i n d Bernoulli ( B z i z j ) a_{ij}=a_{ji}\overset{\rm ind}{\sim}\text{Bernoulli}(B_{z_iz_j}) aij=aji∼indBernoulli(Bzizj)，则可以生成邻接矩阵 A A A。
- 第二种版本：前两个模型的杂交版，直接给定固定的标签向量 z ∈ { 1 , . . . , k } n z\in\{1,...,k\}^n z∈{1,...,k}n，则其余部分和 SBM \text{SBM} SBM相同。
- 最简单的版本： k = 2 k=2 k=2， α = ( 0.5 , 0.5 ) \alpha=(0.5,0.5) α=(0.5,0.5)， B = [ p , q ; q , p ] B=[p,q;q,p] B=[p,q;q,p]，且 p > q p>q p>q（即同一个块中节点连接的概率比不同块间点连接的概率要大）。
  
  我们主要研究这种最简单的模型（事实上其中很多结论并不浅然）。
信号加噪声的角度：

A = E [ A ] + ( A − E [ A ] ) A=\mathbb{E}[A]+(A-\mathbb{E}[A]) A=E[A]+(A−E[A])，即邻接矩阵由信号 E [ A ] \mathbb{E}[A] E[A]与噪声 A − E [ A ] A-\mathbb{E}[A] A−E[A]构成。

假设 z = ( 1 , 1 , . . . , 1 , 2 , 2 , . . . , 2 ) z=(1,1,...,1,2,2,...,2) z=(1,1,...,1,2,2,...,2)，即前 n 2 \frac n2 2n都是 1 1 1（前一半属于一个块），后 n 2 \frac{n}{2} 2n都是（后一半属于一个块） 2 2 2，则可以得到：
E [ A ] = [ 1 n 2 0 0 1 n 2 ] n × 2 [ p q q p ] 2 × 2 [ 1 n 2 ⊤ 0 ⊤ 0 ⊤ 1 n 2 ⊤ ] 2 × n (3.1) \mathbb{E}[A]=\left[\begin{matrix}\textbf{1}_{\frac n2}&0\\0&\textbf{1}_{\frac n2}\end{matrix}\right]_{n\times 2}\left[\begin{matrix}p&q\\q&p\end{matrix}\right]_{2\times2}\left[\begin{matrix}\textbf{1}_{\frac n2}^\top&0^\top\\0^\top&\textbf{1}_{\frac n2}^\top\end{matrix}\right]_{2\times n}\tag{3.1} E[A]=[12n0012n]n×2[pqqp]2×2[12n⊤0⊤0⊤12n⊤]2×n(3.1)
注意到 E [ A ] \mathbb{E}[A] E[A]有两个特征值 n ( p + q ) 2 > 0 \frac{n(p+q)}2>0 2n(p+q)>0与 n ( p − q ) 2 > 0 \frac{n(p-q)}2>0 2n(p−q)>0，所有其他的特征值都是 0 0 0，非零特征值对应的特征向量分别为 [ 1 n , . . . , 1 n ] [\frac1{\sqrt{n}},...,\frac1{\sqrt{n}}] [n 1,...,n 1]与 [ 1 n , . . . , − 1 n ] [\frac1{\sqrt{n}},...,-\frac1{\sqrt{n}}] [n 1,...,−n 1]（前一半符号为正，后一半符号为负）。

则 A = E [ A ] + ( A − E [ A ] ) A=E[A]+(A-E[A]) A=E[A]+(A−E[A])， X = θ + z X=\theta+z X=θ+z，即信号 θ \theta θ加噪声 z z z， A A A的特征向量表征了节点分布在哪些块。
图二分的角度：

定义 G = ( V , E ) G=(V,E) G=(V,E)是无向图，我们想要找到一个不相交的顶点划分 V = S 1 ∪ S 2 V=S_1\cup S_2 V=S1∪S2，满足连接两个块的边权重和是最小的。

即删掉尽可能少的边，使得图上的顶点分为两块互不连通的块。

假设 n n n是偶数， m 1 = m 2 = n 2 m_1=m_2=\frac n2 m1=m2=2n，且边权重都是 1 1 1，则给定任意一个图划分，定义矩阵 W = { w i u } ∈ { 0 , 1 } n × 2 W=\{w_{iu}\}\in\{0,1\}^{n\times 2} W={wiu}∈{0,1}n×2，其中 w i u w_{iu} wiu表示节点 i i i是否属于 S u S_u Su，则所有删除掉的边的权重和为：
1 2 tr ( A ( J − W W ⊤ ) ) (3.2) \frac12\text{tr}(A(J-WW^\top))\tag{3.2} 21tr(A(J−WW⊤))(3.2)
这是一个简约的数学表示，容易证明其正确性，其中 J J J为 n n n维全一方阵。

于是图二分问题可以定义为：
minimize 1 2 tr ( A ( J − W W ⊤ ) ) subject to w i u ∈ { 0 , 1 } W ⋅ [ 1 1 ] = 1 n = [ 1 1 . . . 1 ] W ⊤ 1 n = [ n 2 n 2 ] (3.3) \begin{aligned} &\text{minimize}&&\frac12\text{tr}(A(J-WW^\top))\\ &\text{subject to}&&w_{iu}\in\{0,1\}\\ &&&W\cdot\left[\begin{matrix}1\\1\end{matrix}\right]=\textbf{1}_n=\left[\begin{matrix}1\\1\\...\\1\end{matrix}\right]\\ &&&W^\top \textbf{1}_n=\left[\begin{matrix}\frac n2\\\frac n2\end{matrix}\right] \end{aligned}\tag{3.3} minimizesubject to21tr(A(J−WW⊤))wiu∈{0,1}W⋅[11]=1n=⎣⎢⎢⎡11...1⎦⎥⎥⎤W⊤1n=[2n2n](3.3)
上述规划问题等价于：
maximize tr ( W ⊤ A W ) subject to w i u ∈ { 0 , 1 } W 1 2 = 1 n W ⊤ 1 n = [ n 2 n 2 ] (3.4) \begin{aligned} &\text{maximize}&&\text{tr}(W^\top AW)\\ &\text{subject to}&&w_{iu}\in\{0,1\}\\ &&& W\textbf{1}_2=\textbf{1}_n\\ &&&W^\top \textbf{1}_n=\left[\begin{matrix}\frac n2\\\frac n2\end{matrix}\right] \end{aligned}\tag{3.4} maximizesubject totr(W⊤AW)wiu∈{0,1}W12=1nW⊤1n=[2n2n](3.4)
这是一个整数规划，非常难于求解，因此需要做凸规划的 relax \text{relax} relax。

定义 X = W W ⊤ ∈ R n × n X=WW^\top\in\R^{n\times n} X=WW⊤∈Rn×n，则问题 relax \text{relax} relax为：
maximize tr ( A X ) subject to X ⪰ 0 J ≥ X ≥ 0 x i i = 1 i = 1 , 2 , . . . , n X 1 n = [ n 2 n 2 ] (3.5) \begin{aligned} &\text{maximize}&&\text{tr}(AX)\\ &\text{subject to}&&X\succeq 0\\ &&& J\ge X\ge 0\\ &&&x_{ii}=1\quad i=1,2,...,n\\ &&&X\textbf{1}_n=\left[\begin{matrix}\frac n2\\\frac n2\end{matrix}\right] \end{aligned}\tag{3.5} maximizesubject totr(AX)X⪰0J≥X≥0xii=1i=1,2,...,nX1n=[2n2n](3.5)
这个问题的理想解是 X ∗ = [ J 0 0 J ] X^*=\left[\begin{matrix}J&\textbf{0}\\\textbf{0}&J\end{matrix}\right] X∗=[J00J]，其中 J J J为 n 2 \frac n2 2n维全一方阵。
似然的角度：

z ∈ { 1 , 2 } n z\in\{1,2\}^n z∈{1,2}n，则有：
log ⁡ p ( a i j ∣ z , p , q ) = { log ⁡ p if a i j = 1 and z i = z j log ⁡ ( 1 − p ) if a i j = 0 and z i = z j log ⁡ q if a i j = 1 and z i ≠ z j log ⁡ ( 1 − q ) if a i j = 0 and z i ≠ z j = [ a i j log ⁡ p + ( 1 − a i j log ⁡ ( 1 − p ) ) ] 1 z i = z j + [ a i j log ⁡ q + ( 1 − a i j log ⁡ ( 1 − q ) ) ] 1 z i ≠ z j (3.6) \begin{aligned} \log p(a_{ij}|z,p,q)&=\left\{\begin{aligned} &\log p&&\text{if } a_{ij}=1\text{ and }z_i=z_j\\ &\log (1-p)&&\text{if } a_{ij}=0\text{ and }z_i=z_j\\ &\log q&&\text{if } a_{ij}=1\text{ and }z_i\neq z_j\\ &\log (1-q)&&\text{if } a_{ij}=0\text{ and }z_i\neq z_j\\ \end{aligned}\right.\\ &=\left[a_{ij}\log p+(1-a_{ij}\log(1-p))\right]\textbf{1}_{z_i=z_j}+\left[a_{ij}\log q+(1-a_{ij}\log(1-q))\right]\textbf{1}_{z_i\neq z_j} \end{aligned}\tag{3.6} logp(aij∣z,p,q)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧logplog(1−p)logqlog(1−q)if aij=1 and zi=zjif aij=0 and zi=zjif aij=1 and zi=zjif aij=0 and zi=zj=[aijlogp+(1−aijlog(1−p))]1zi=zj+[aijlogq+(1−aijlog(1−q))]1zi=zj(3.6)
对应地完整的对数似然函数：
l ( A ∣ z , p , q ) = ∑ 1 ≤ i < j ≤ n log ⁡ p ( a i j ∣ z i , z j , p , q ) (3.7) l(A|z,p,q)=\sum_{1\le i<j\le n}\log p(a_{ij}|z_i,z_j,p,q)\tag{3.7} l(A∣z,p,q)=1≤i<j≤n∑logp(aij∣zi,zj,p,q)(3.7)
于是我们需要最大化对数似然函数：
argmax z l ( A ∣ z , p , q ) = argmax z ∑ 1 ≤ i < j ≤ n [ ( log ⁡ p 1 − p − log ⁡ q 1 − q ) a i j + log ⁡ 1 − p 1 − q ] 1 z i = z j = argmax z ∑ 1 ≤ i < j ≤ n ( a i j − λ ) 1 z i = z j = argmax z ∑ 1 ≤ i < j ≤ n a i j 1 z i = z j (3.8) \begin{aligned} \text{argmax}_z l(A|z,p,q)&=\text{argmax}_{z}\sum_{1\le i<j\le n}\left[\left(\log\frac{p}{1-p}-\log\frac{q}{1-q}\right)a_{ij}+\log\frac{1-p}{1-q}\right]\textbf1_{z_i=z_j}\\ &=\text{argmax}_z\sum_{1\le i<j\le n}\left(a_{ij}-\lambda\right)\textbf1_{z_i=z_j}\\ &=\text{argmax}_z\sum_{1\le i<j\le n}a_{ij}\textbf1_{z_i=z_j} \end{aligned}\tag{3.8} argmaxzl(A∣z,p,q)=argmaxz1≤i<j≤n∑[(log1−pp−log1−qq)aij+log1−q1−p]1zi=zj=argmaxz1≤i<j≤n∑(aij−λ)1zi=zj=argmaxz1≤i<j≤n∑aij1zi=zj(3.8)
其中 λ = log ⁡ 1 − q 1 − p log ⁡ p 1 − p − log ⁡ q 1 − q \lambda = \frac{\log\frac{1-q}{1-p}}{\log\frac{p}{1-p}-\log\frac{q}{1-q}} λ=log1−pp−log1−qqlog1−p1−q，于是 z z z的最大似然估计就是如下的规划：
maximize ∑ 1 ≤ i < j ≤ n a i j 1 z i = z j subject to ∑ i 1 z i = 1 = ∑ i 1 z i = 2 = n 2 (3.9) \begin{aligned} &\text{maximize}&&\sum_{1\le i<j\le n}a_{ij}\textbf1_{z_i=z_j}\\ &\text{subject to}&&\sum_i\textbf{1}_{z_i=1}=\sum_i\textbf{1}_{z_i=2}=\frac{n}2 \end{aligned}\tag{3.9} maximizesubject to1≤i<j≤n∑aij1zi=zji∑1zi=1=i∑1zi=2=2n(3.9)
其中 a i i = 0 a_{ii}=0 aii=0，定义 X = { 1 z i = z j } ∈ { 0 , 1 } n × n X=\{\textbf{1}_{z_i=z_j}\}\in\{0,1\}^{n\times n} X={1zi=zj}∈{0,1}n×n是一个对称矩阵，上述规划等价于：
maximize tr ( A X ) subject to X = X ⊤ x i j ∈ { 0 , 1 } i = 1 , 2 , . . . , n , j = 1 , 2 , . . . , n X 1 n = n 2 1 n x i i = 1 i = 1 , 2 , . . . , n (3.10) \begin{aligned} &\text{maximize}&&\text{tr}(AX)\\ &\text{subject to}&&X=X^\top\\ &&& x_ij\in\{0,1\}\quad i=1,2,...,n,j=1,2,...,n\\ &&&X\textbf{1}_n=\frac n2\textbf{1}_n\\ &&&x_{ii}=1\quad i=1,2,...,n \end{aligned}\tag{3.10} maximizesubject totr(AX)X=X⊤xij∈{0,1}i=1,2,...,n,j=1,2,...,nX1n=2n1nxii=1i=1,2,...,n(3.10)
注意这里还是一个整数规划，继续 relax \text{relax} relax为凸规划：
maximize tr ( A X ) subject to X ⪰ 0 J ≥ X ≥ 0 x i i = 1 i = 1 , 2 , . . . , n X 1 n = [ n 2 n 2 ] (3.11) \begin{aligned} &\text{maximize}&&\text{tr}(AX)\\ &\text{subject to}&&X\succeq 0\\ &&& J\ge X\ge 0\\ &&&x_{ii}=1\quad i=1,2,...,n\\ &&&X\textbf{1}_n=\left[\begin{matrix}\frac n2\\\frac n2\end{matrix}\right] \end{aligned}\tag{3.11} maximizesubject totr(AX)X⪰0J≥X≥0xii=1i=1,2,...,nX1n=[2n2n](3.11)
这与式 ( 3.5 ) (3.5) (3.5)中的规划完全一致，这意味着从似然的角度得出的结果与从图二分的角度得出的结果具有某种一致性。
决策理论模型（decision-theoretic）的构建：

( 1 ) (1) (1) 损失函数： l ( z , z ^ ) l(z,\hat z) l(z,z^)，其中 z ^ = [ z ^ 1 , z ^ 2 , . . . , z ^ n ] ∈ { 1 , 2 , . . . , k } n \hat z=[\hat z_1,\hat z_2,...,\hat z_n]\in\{1,2,...,k\}^n z^=[z^1,z^2,...,z^n]∈{1,2,...,k}n
- l ( z , z ^ ) = 1 n ∑ i = 1 n 1 z i ≠ z ^ i l(z,\hat z)=\frac1n\sum_{i=1}^n\textbf{1}_{z_i\neq \hat z_i} l(z,z^)=n1∑i=1n1zi=z^i，即为汉明距离，衡量不匹配的比率。
  
  事实上这是一个不合理的损失函数，比如 z = ( 1 , 1 , . . . , 1 , 2 , 2 , . . . , 2 ) z=(1,1,...,1,2,2,...,2) z=(1,1,...,1,2,2,...,2)，即前 n 2 \frac n2 2n都是 1 1 1（前一半属于一个块），后 n 2 \frac{n}{2} 2n都是（后一半属于一个块） 2 2 2， z ^ = ( 2 , 2 , . . . , 2 , 1 , 1 , . . . , 1 ) \hat z=(2,2,...,2,1,1,...,1) z^=(2,2,...,2,1,1,...,1)，即前 n 2 \frac n2 2n都是 2 2 2（前一半属于一个块），后 n 2 \frac{n}{2} 2n都是（后一半属于一个块） 1 1 1，事实上我们并不关心块的编号，而是关心前后一半分别属于不同块，所以两者等价，但损失函数却是 1 1 1，因此不合理。
- 另一个更合理的损失函数：设 Π k \Pi_k Πk为所有 { 1 , 2 , . . . , k } \{1,2,...,k\} {1,2,...,k}全排列构成的集合。
  
  l ( z , z ^ ) l(z,\hat z) l(z,z^)定义为这些全排列上所有汉明距离里最小的那个。
( 2 ) (2) (2) 参数空间：
- P ( k , β , p , q ) = { SBM ( n , k , B , z ) : B i i ≥ p ∀ i , B i j ≤ q ∀ i ≠ j } \mathcal{P}(k,\beta,p,q)=\{\text{SBM}(n,k,B,z):B_{ii}\ge p\space \forall i,B_{ij}\le q\space \forall i\neq j\} P(k,β,p,q)={SBM(n,k,B,z):Bii≥p ∀i,Bij≤q ∀i=j}
- β ≥ 1 \beta\ge1 β≥1为常数， p > q p>q p>q决定于 n n n
- ∣ { i : z i = u } ∣ ∈ [ n β k , β n k ] |\{i:z_i=u\}|\in[\frac{n}{\beta k},\frac{\beta n}k] ∣{i:zi=u}∣∈[βkn,kβn]，即每个块中的元素数量不会太少也不会太多。
谱方法：

回顾 A = E [ A ] + ( A − E [ A ] ) A=\mathbb{E}[A]+(A-\mathbb{E}[A]) A=E[A]+(A−E[A])是信号加噪声， k = 2 , z = [ 1 , 1 , . . . , 1 , 2 , 2 , . . . , 2 ] k=2,z=[1,1,...,1,2,2,...,2] k=2,z=[1,1,...,1,2,2,...,2]，它第二大的特征值对应的特征值 n ( p − q ) 2 \frac{n(p-q)}2 2n(p−q)对应的特征向量是 [ 1 n , . . . , − 1 n ] [\frac1{\sqrt{n}},...,-\frac1{\sqrt{n}}] [n 1,...,−n 1]（前一半符号为正，后一半符号为负），它给出了所有与分块有关的信息。

我们的想法就是利用 A A A的第二大特征向量来近似 E [ A ] \mathbb{E}[A] E[A]第二大特征向量，从而估计 z z z。

( 1 ) (1) (1) 矩阵变异（matrix pertubation）理论：
- 定理（ Davis-Kahan Sin-Theta Theorem \text{Davis-Kahan Sin-Theta Theorem} Davis-Kahan Sin-Theta Theorem）：
  
  A A A与 A + E A+E A+E是对称矩阵，其中两者的正交对角化形式如下：（ G 0 ⊤ G 1 = 0 , [ F 0 , F 1 ] G_0^\top G_1=0,[F_0,F_1] G0⊤G1=0,[F0,F1]正交）
  - A = [ G 0 , G 1 ] [ A 0 , 0 ; 0 , A 1 ] [ G 0 ⊤ ; G 1 ⊤ ] A=[G_0,G_1][A_0,0;0,A_1][G_0^\top;G_1^\top] A=[G0,G1][A0,0;0,A1][G0⊤;G1⊤]
  - A + E = [ F 0 , F 1 ] [ Λ 0 , 0 ; 0 , Λ 1 ] [ F 0 ⊤ ; F 1 ⊤ ] A+E=[F_0,F_1][\Lambda_0,0;0,\Lambda_1][F_0^\top;F_1^\top] A+E=[F0,F1][Λ0,0;0,Λ1][F0⊤;F1⊤]
  且所有 A 0 G 0 ⊤ G 0 A_0G_0^\top G_0 A0G0⊤G0的特征值在 ( a , b ) (a,b) (a,b)上，所有 Λ 1 \Lambda_1 Λ1的特征值在 ( a − δ , b + δ ) (a-\delta,b+\delta) (a−δ,b+δ)之外， δ \delta δ称为谱沟（eigengap）
  
  结论是：
  ∥ P G 0 − P F 0 s ∥ o p 2 ≤ ∥ F 1 ⊤ E G 0 ∥ o p δ 2 σ min ⁡ 2 ( G 0 ) (3.12) \|P_{G_0}-P_{F_0s}\|_{\rm op}^2\le\frac{\|F_1^\top EG_0\|_{\rm op}}{\delta^2\sigma_{\min}^2(G_0)}\tag{3.12} ∥PG0−PF0s∥op2≤δ2σmin2(G0)∥F1⊤EG0∥op(3.12)
  目前我们只考虑 operator norm \text{operator norm} operator norm，即矩阵的最大奇异值，当然你可以尝试别的范数，结论可能有区别。
  
  若 G 0 G_0 G0是 orthonormal \text{orthonormal} orthonormal，则 LHS = ∥ G 0 G 0 ⊤ − F 0 F 0 ⊤ ∥ o p 2 \text{LHS}=\|G_0G_0^\top-F_0F_0^\top\|_{\rm op}^2 LHS=∥G0G0⊤−F0F0⊤∥op2， σ min ⁡ ( G 0 ) = 1 \sigma_{\min}(G_0)=1 σmin(G0)=1
- 关于如何投影到长条矩阵的列空间的方法：
  
  T n × m = s v d U D V ⊤ , n ≫ m T_{n\times m}\overset{\rm svd}{=}UDV^\top,n\gg m Tn×m=svdUDV⊤,n≫m，则投影矩阵为 P T = U U ⊤ P_T=UU^\top PT=UU⊤
- 定义： U , U ∗ ∈ R d × r U,U^*\in\R^{d\times r} U,U∗∈Rd×r，定义 Δ = U − U ∗ R \Delta=U-U^*R Δ=U−U∗R，其中 R = argmin z ∈ O ( r ) ∥ U − U ∗ Z ∥ F 2 R=\text{argmin}_{z\in O(r)}\|U-U^*Z\|_F^2 R=argminz∈O(r)∥U−U∗Z∥F2
- 命题： M = U U ⊤ , M ∗ = U ∗ ( U ∗ ) ⊤ M=UU^\top,M^*=U^*(U^*)^\top M=UU⊤,M∗=U∗(U∗)⊤，则有如下两个结论：
  
  ① ∥ Δ Δ 2 ∥ F 2 ≤ 2 ∥ M − M ∗ ∥ F 2 \|\Delta\Delta^2\|_F^2\le 2\|M-M^*\|_F^2 ∥ΔΔ2∥F2≤2∥M−M∗∥F2
  
  ② σ r ( M ∗ ) ∥ Δ ∥ F 2 ≤ 1 2 ( 2 − 1 ) ∥ M − M ∗ ∥ F 2 \sigma_r(M^*)\|\Delta\|_F^2\le\frac1{2(\sqrt{2}-1)}\|M-M^*\|_F^2 σr(M∗)∥Δ∥F2≤2(2 −1)1∥M−M∗∥F2
  
  这两个结论之后可能会用到，这里写下来作为记录。
( 2 ) (2) (2) 从几何到聚类：
- 引理：令 z ∈ { 1 , 2 , . . , k } n z\in\{1,2,..,k\}^n z∈{1,2,..,k}n是 SBM \text{SBM} SBM在 P ( k , β , p , q ) \mathcal{P}(k,\beta,p,q) P(k,β,p,q)参数空间下的真实标签， z ~ ∈ { 1 , 2 , . . , k } n \tilde z\in\{1,2,..,k\}^n z~∈{1,2,..,k}n， { V ~ u : u = 1 , 2 , . . . , k } , { V i : i = 1 , 2 , . . . , k } ⊆ R n \{\tilde V_u:u=1,2,...,k\},\{V_i:i=1,2,...,k\}\subseteq \R^n {V~u:u=1,2,...,k},{Vi:i=1,2,...,k}⊆Rn，其中 { V i : i = 1 , 2 , . . . , k } \{V_i:i=1,2,...,k\} {Vi:i=1,2,...,k}就是需要聚类的原始数据；定义 V ~ i = V ~ z ~ i , ∀ i , s.t. z ~ i ≠ 0 \tilde V_i=\tilde V_{\tilde z_i},\forall i,\text{s.t.} \tilde z_i\neq 0 V~i=V~z~i,∀i,s.t.z~i=0，定义 S 0 = { i ∈ { 1 , . . . , n } : z ~ i = 0 } S_0=\{i\in\{1,...,n\}:\tilde z_i=0\} S0={i∈{1,...,n}:z~i=0}，假设对于某个范数 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥，有 min ⁡ z i ≠ z j ∥ V i − V j ∥ ≥ 2 b \min_{z_i\neq z_j}\|V_i-V_j\|\ge 2b minzi=zj∥Vi−Vj∥≥2b，则有：
  min ⁡ π ∈ Π k ∣ { i : z ~ i ≠ π ( z i ) } ∣ ≤ ∣ S 0 ∣ + ( z β 2 + 1 ) ∣ S ∣ (3.13) \min_{\pi\in\Pi_k}|\{i:\tilde z_i\neq \pi(z_i)\}|\le |S_0|+(z\beta^2+1)|S|\tag{3.13} π∈Πkmin∣{i:z~i=π(zi)}∣≤∣S0∣+(zβ2+1)∣S∣(3.13)
  其中 S = { i ∈ S 0 c : ∥ v ~ i − v i ∥ ≥ b } S=\{i\in S_0^c:\|\tilde v_i-v_i\|\ge b\} S={i∈S0c:∥v~i−vi∥≥b}
- 引理说明：
  
  k = 2 k=2 k=2，时，有两个块，它们之间最小的距离是 2 b 2b 2b，但是由于存在噪声，聚类会显得很分散，于是其中一些点距离原先的位置就超过 b b b，于是就从左边的块跳到右边的块里了。引理衡量的是这种跳跃的上界，揭示了如果距离中心足够近，就不会发生跳跃。
( 3 ) (3) (3) 将以上两点拼起来：
- 算法： Spectral clustering algorithm \text{Spectral clustering algorithm} Spectral clustering algorithm，聚类簇数 k k k给定。
  
  ① 计算 A A A的前 k k k大的特征值对应的特征向量，记为 V ^ ∈ O ( n , k ) \hat V\in O(n,k) V^∈O(n,k)
  
  ② 计算 V ^ \hat V V^上的 ( 1 + ϵ ) -approx (1+\epsilon)\text{-approx} (1+ϵ)-approx的 k -means k\text{-means} k-means近似解（将 V ^ \hat V V^的列向量看作空间 R k \R^k Rk中的点）
  
  ③ 找到 z ^ \hat z z^使得 { V ^ u : u = 1 , 2 , . . . , k } \{\hat V_u:u=1,2,...,k\} {V^u:u=1,2,...,k}，满足：
  ∑ u = 1 k ∑ i : z ^ i = u ∥ V ^ i − V ^ u ∥ ≤ ( 1 + ϵ ) min ⁡ z ∈ { 1 , . . , k } n ∑ u = 1 k min ⁡ V i ∈ R k ∑ i : z i = u ∥ V ^ i − V u ∥ 2 2 (3.14) \sum_{u=1}^k\sum_{i:\hat z_i=u}\|\hat V_i-\hat V_u\|\le (1+\epsilon)\min_{z\in\{1,..,k\}^n}\sum_{u=1}^k\min_{V_i\in\R^k}\sum_{i:z_i=u}\|\hat V_i-V_u\|_2^2\tag{3.14} u=1∑ki:z^i=u∑∥V^i−V^u∥≤(1+ϵ)z∈{1,..,k}nminu=1∑kVi∈Rkmini:zi=u∑∥V^i−Vu∥22(3.14)
- 算法分析：考虑 k = 2 , z k=2,z k=2,z对半分的情况（前一半 1 1 1后一半 2 2 2，上面提到多次）
  
  设 S 0 = ∅ , V ~ u = V ^ u , V ~ i = V ^ z ^ i S_0=\emptyset,\tilde V_u=\hat V_u,\tilde V_i=\hat V_{\hat z_i} S0=∅,V~u=V^u,V~i=V^z^i，上面提到过非零特征值对应的特征向量分别为 [ 1 n , . . . , 1 n ] [\frac1{\sqrt{n}},...,\frac1{\sqrt{n}}] [n 1,...,n 1]与 [ 1 n , . . . , − 1 n ] [\frac1{\sqrt{n}},...,-\frac1{\sqrt{n}}] [n 1,...,−n 1]（前一半符号为正，后一半符号为负），则此时 ∥ V ~ i − V i ∥ 2 = 2 n \|\tilde V_i-V_i\|_2=\frac2{\sqrt{n}} ∥V~i−Vi∥2=n 2符合上述描述。
  
  接下来：
  ( 1 n ) 2 ∣ S ∣ ≤ ∑ i ∈ S ∥ V ~ i − V i ∥ 2 2 ⇒ ∣ S ∣ ≤ n ∑ i ∈ S ∥ V ~ i − V i ∥ 2 2 ≤ 2 n ∑ i ∈ S ( ∥ V ~ i − V ^ i ∥ 2 2 + ∥ V i − V ^ i ∥ 2 2 ) ≤ 2 n ∑ i = 1 n ( ∥ V ~ i − V ^ i ∥ 2 2 + ∥ V i − V ^ i ∥ 2 2 ) ≤ 2 n ( 2 + ϵ ) ∑ i = 1 n ∥ V i − V ^ i ∥ 2 2 ( V ~ i ∼ ( 1 + ϵ ) optimal solution 2-means clustering ) = 2 n ( 2 + ϵ ) ∥ V ^ − V ∥ F 2 ≤ C n ∥ V ^ V ^ ⊤ − V V ⊤ ∥ F 2 ≤ C ′ n ∥ A − E A ∥ o p 2 ( n 2 ( p − q ) ) 2 ( by sin ⁡ θ theorem ) (3.15) \begin{aligned} (\frac1{\sqrt{n}})^2|S|\le \sum_{i\in S}\|\tilde V_i-V_i\|_2^2 \Rightarrow |S|&\le n\sum_{i\in S}\|\tilde V_i-V_i\|_2^2\\ &\le 2n\sum_{i\in S}\left(\|\tilde V_i-\hat V_i\|_2^2+\|V_i-\hat V_i\|_2^2\right)\\ &\le 2n\sum_{i=1}^n\left(\|\tilde V_i-\hat V_i\|_2^2+\|V_i-\hat V_i\|_2^2\right)\\ &\le 2n(2+\epsilon)\sum_{i=1}^n\|V_i-\hat V_i\|_2^2\quad(\tilde V_i\sim (1+\epsilon)\text{optimal solution 2-means clustering})\\ &=2n(2+\epsilon)\|\hat V-V\|_F^2\\ &\le Cn\|\hat V\hat V^\top - VV^\top\|_F^2\\ &\le C'n\frac{\|A-\mathbb{E}A\|_{\rm op}^2}{\left(\frac n2(p-q)\right)^2}\quad (\text{by }\sin\theta\text{ theorem}) \end{aligned}\tag{3.15} (n 1)2∣S∣≤i∈S∑∥V~i−Vi∥22⇒∣S∣≤ni∈S∑∥V~i−Vi∥22≤2ni∈S∑(∥V~i−V^i∥22+∥Vi−V^i∥22)≤2ni=1∑n(∥V~i−V^i∥22+∥Vi−V^i∥22)≤2n(2+ϵ)i=1∑n∥Vi−V^i∥22(V~i∼(1+ϵ)optimal solution 2-means clustering)=2n(2+ϵ)∥V^−V∥F2≤Cn∥V^V^⊤−VV⊤∥F2≤C′n(2n(p−q))2∥A−EA∥op2(by sinθ theorem)(3.15)
- 引理：噪声大小控制
  
  设 A = A ⊤ ∈ { 0 , 1 } n × n , ∃ P ∈ [ 0 , 1 ] n × n , s.t. A i j ∼ Bernoulli ( P i j ) A=A^\top\in\{0,1\}^{n\times n},\exist P\in[0,1]^{n\times n},\text{s.t.}A_{ij}\sim\text{Bernoulli}(P_{ij}) A=A⊤∈{0,1}n×n,∃P∈[0,1]n×n,s.t.Aij∼Bernoulli(Pij)，则 ∀ c ′ > 0 , ∃ c > 0 \forall c'>0,\exist c>0 ∀c′>0,∃c>0，使得下式成立：
  
  Pr ⁡ ( ∥ A − P ∥ o p ≤ c n P m a x + log ⁡ n ) ≥ 1 − n − c ′ (3.16) \Pr\left(\|A-P\|_{\rm op}\le c\sqrt{nP_{max}+\log n}\right)\ge 1-n^{-c'}\tag{3.16} Pr(∥A−P∥op≤cnPmax+logn )≥1−n−c′(3.16)
  
  即具有高概率能够成立上述事件，则定义损失函数：
  
  l ( z , z ^ ) = ∣ S ∣ n ≤ 1 n ⋅ n ⋅ n p + log ⁡ n n 2 ( p − q ) 2 = O ( p + log ⁡ n n n ( p − q ) 2 ) (3.17) l(z,\hat z)=\frac{|S|}{n}\le\frac1n\cdot n \cdot \frac{np+\log n}{n^2(p-q)^2}=O\left(\frac{p+\frac{\log n}{n}}{n(p-q)^2}\right)\tag{3.17} l(z,z^)=n∣S∣≤n1⋅n⋅n2(p−q)2np+logn=O(n(p−q)2p+nlogn)(3.17)
  
  这里可以考虑一些特殊的情况，结论会清晰一些。
- 习题：将上述引理推广到 SBM ∈ P ( k , β , p , q ) \text{SBM}\in\mathcal{P}(k,\beta,p,q) SBM∈P(k,β,p,q)中， β = 1 , k = 2 \beta=1,k=2 β=1,k=2

Lecture 4 \text{Lecture 4} Lecture 4 随机块模型（二）

从一致性到最优最小最大速率 From consistency to optimal minimax rates \text{From consistency to optimal minimax rates} From consistency to optimal minimax rates

( 1 ) (1) (1) 损失函数的加和形式：
- l ( z , z ^ ) = min ⁡ π ∈ Π k 1 n ∑ i = 1 n 1 π ( z i ) = z ^ i l(z,\hat z)=\min_{\pi\in\Pi_k}\frac1n\sum_{i=1}^n\textbf{1}_{\pi(z_i)=\hat z_i} l(z,z^)=minπ∈Πkn1∑i=1n1π(zi)=z^i
- 风险函数也是加和形式，每一项表示每个节点的误差
( 2 ) (2) (2) 检验问题：
- 假设 2 m + 1 2m+1 2m+1个节点，其中前 m m m个节点 z i = 1 z_i=1 zi=1，接下来 m m m个节点 z i = 2 z_i=2 zi=2，我们需要确定最后一个节点属于 1 1 1还是 2 2 2，于是可以定义检验问题：
  
  H 0 : z 2 m + 1 = 1 v.s. H 1 : z 2 m + 1 = 2 (4.1) H_0: z_{2m+1}=1\quad \text{v.s.}\quad H_1:z_{2m+1}=2\tag{4.1} H0:z2m+1=1v.s.H1:z2m+1=2(4.1)
  
  数据 X = ( A 1 , 2 m + 1 , A 2 , 2 m + 1 , . . . , A 2 m , 2 m + 1 X=(A_{1,2m+1},A_{2,2m+1},...,A_{2m,2m+1} X=(A1,2m+1,A2,2m+1,...,A2m,2m+1，即为与最后一个节点相连的 2 m 2m 2m条边是否存在，于是零假设与备择假设转换为 H 0 : X ∼ ∏ i = 1 m Bernoulli ( p ) × ∏ i = m + 1 2 m Bernoulli ( q ) H_0:X\sim\prod_{i=1}^m\text{Bernoulli}(p)\times\prod_{i=m+1}^{2m}\text{Bernoulli}(q) H0:X∼∏i=1mBernoulli(p)×∏i=m+12mBernoulli(q)与 H 0 : X ∼ ∏ i = 1 m Bernoulli ( q ) × ∏ i = m + 1 2 m Bernoulli ( p ) H_0:X\sim\prod_{i=1}^m\text{Bernoulli}(q)\times\prod_{i=m+1}^{2m}\text{Bernoulli}(p) H0:X∼∏i=1mBernoulli(q)×∏i=m+12mBernoulli(p)
  
  这是两个都是简单假设（即假设中包含一个与数据相关的概率分布），因此根据黎曼皮尔森定理，一定存在最优检验（optimal test）。
  
  最终似然比检验的结果是（即上述两个概率累积的结果相除），拒绝 H 0 H_0 H0，若 ∑ i = 1 m X i < ∑ i = m + 1 2 m X i \sum_{i=1}^m X_i<\sum_{i=m+1}^{2m} X_i ∑i=1mXi<∑i=m+12mXi，这是非常显然的事实，即 1 1 1更多就倾向于预测为 1 1 1，反之亦然。
  - 引理：假设 m m m递增趋于无穷， 1 < p q = O ( 1 ) , p = O ( 1 ) 1<\frac pq=O(1),p=O(1) 1<qp=O(1),p=O(1)，定义 I = − 2 log ⁡ ( p q + ( 1 − p ) ( 1 − q ) ) I=-2\log\left(\sqrt{pq}+\sqrt{(1-p)(1-q)}\right) I=−2log(pq +(1−p)(1−q) )，则 inf ⁡ ϕ ( E H 0 ϕ + E H 1 ( 1 − ϕ ) ) = e − ( 1 + O ( 1 ) ) m I \inf_{\phi}\left(\mathbb{E}_{H_0}\phi+\mathbb{E}_{H_1}(1-\phi)\right)=e^{-(1+O(1))mI} infϕ(EH0ϕ+EH1(1−ϕ))=e−(1+O(1))mI
    
    这里的 I I I称为 Renyi divergence between Bernoulli ( p ) and Bernoulli ( q ) \text{Renyi divergence between Bernoulli}(p)\text{ and Bernoulli}(q) Renyi divergence between Bernoulli(p) and Bernoulli(q)
  - 证明：
    
    等式左侧为：
    E H 0 ϕ = Pr ⁡ H 0 ( ∑ i = 1 m X i < ∑ i = 1 m Y i ) ( X i ∼ Bernoulli ( p ) , Y i ∼ Bernoulli ( q ) ) = Pr ⁡ H 0 ( e t ( ∑ i X i ⋅ ∑ i Y i ) > 1 ) ( ∀ t > 0 ) = E [ e t ( ∑ i Y i − ∑ i X i ) ] ( Markov inequality ) = [ q e t + ( 1 − q ) ] m ⋅ [ p e − t + ( 1 − p ) ] m (4.2) \begin{aligned} \mathbb{E}_{H_0}\phi&=\Pr_{H_0}\left(\sum_{i=1}^mX_i<\sum_{i=1}^m Y_i\right)\quad (X_i\sim \text{Bernoulli}(p),Y_i\sim \text{Bernoulli}(q))\\ &=\Pr_{H_0}\left(e^{t(\sum_i X_i\cdot \sum_i Y_i)}>1\right)\quad(\forall t>0)\\ &=\mathbb{E}[e^{t(\sum_i Y_i-\sum_i X_i)}]\quad(\text{Markov inequality})\\ &=[qe^t+(1-q)]^m\cdot[pe^{-t}+(1-p)]^m \end{aligned}\tag{4.2} EH0ϕ=H0Pr(i=1∑mXi<i=1∑mYi)(Xi∼Bernoulli(p),Yi∼Bernoulli(q))=H0Pr(et(∑iXi⋅∑iYi)>1)(∀t>0)=E[et(∑iYi−∑iXi)](Markov inequality)=[qet+(1−q)]m⋅[pe−t+(1−p)]m(4.2)
    
    等式右侧在 t = t ∗ t=t^* t=t∗时取得最小值，其中 e t ∗ = p ( 1 − q ) q ( 1 − p ) e^{t^*}=\sqrt{\frac{p(1-q)}{q(1-p)}} et∗=q(1−p)p(1−q) ，则有：
    
    E H 0 ϕ [ p q ( 1 − q ) 1 − p + ( 1 − q ) ] m ⋅ [ p q ( 1 − p ) 1 − q + ( 1 − p ) ] m = e − m I (4.3) \mathbb{E}_{H_0}\phi\left[\sqrt{\frac{pq(1-q)}{1-p}}+(1-q)\right]^m\cdot \left[\sqrt{\frac{pq(1-p)}{1-q}}+(1-p)\right]^m=e^{-mI}\tag{4.3} EH0ϕ[1−ppq(1−q) +(1−q)]m⋅[1−qpq(1−p) +(1−p)]m=e−mI(4.3)
( 3 ) (3) (3) Implication on minimax rate \text{Implication on minimax rate} Implication on minimax rate导出速率的下界： β = 1 + o ( 1 ) , k = 2 \beta=1+o(1),k=2 β=1+o(1),k=2
- 选择序列 δ n \delta_n δn使得满足 δ n = o ( 1 ) \delta_n=o(1) δn=o(1)， log ⁡ 1 δ n = o ( n I ) \log\frac1\delta_n=o(nI) logδ1n=o(nI)
  
  选择 z ∗ ∈ { 1 , 2 } n z^*\in\{1,2\}^n z∗∈{1,2}n使得满足 n 1 ( z ∗ ) = n 2 ( z ∗ ) = n 2 n_1(z^*)=n_2(z^*)=\frac n2 n1(z∗)=n2(z∗)=2n
  
  选择 c ~ 1 ∈ { i : z i ∗ = 1 } \tilde c_1\in\{i:z_i^*=1\} c~1∈{i:zi∗=1}与 c ~ 2 ∈ { i : z i ∗ = 2 } \tilde c_2\in\{i:z_i^*=2\} c~2∈{i:zi∗=2}使得 ∣ c ~ 1 ∣ = ∣ c ~ 2 ∣ = n 2 − ⌈ δ n 2 ⌉ |\tilde c_1|=|\tilde c_2|=\frac n2-\lceil\frac{\delta n}{2}\rceil ∣c~1∣=∣c~2∣=2n−⌈2δn⌉
  
  定义 T = c ~ 1 ∪ c ~ 2 , Z T = { z ∈ { 1 , 2 } n : z i = z i ∗ , ∀ i ∈ T } T=\tilde c_1\cup\tilde c_2,Z_T=\{z\in\{1,2\}^n:z_i=z_i^*,\forall i\in T\} T=c~1∪c~2,ZT={z∈{1,2}n:zi=zi∗,∀i∈T}
  
  P n 0 ( 2 , β , p , q ) = { SBM ( m , 2 , B , z ) : z ∈ Z T , B n n = p , B u v = q , ∀ u ≠ v } \mathcal{P}_n^0(2,\beta,p,q)=\{\text{SBM}(m,2,B,z):z\in Z_T,B_{nn}=p,B_{uv}=q,\forall u\neq v\} Pn0(2,β,p,q)={SBM(m,2,B,z):z∈ZT,Bnn=p,Buv=q,∀u=v}
  
  显然 P n 0 ( 2 , β , p , q ) ⊆ P n ( 2 , β , p , q ) \mathcal{P}_n^0(2,\beta,p,q)\subseteq P_n(2,\beta,p,q) Pn0(2,β,p,q)⊆Pn(2,β,p,q)，则有：
  
  inf ⁡ z ^ sup ⁡ P n ( 2 , β , p , q ) E l ( z , z ^ ) ≥ inf ⁡ z ^ sup ⁡ P ( 2 , β , p , q ) E l ( z , z ^ ) = inf ⁡ z ^ sup ⁡ z ∈ Z T 1 n ∑ i = 1 n Pr ⁡ ( z ^ i ≠ z i ) = ∣ T c ∣ n ⋅ inf ⁡ z ^ sup ⁡ z ∈ Z T 1 ∣ T c ∣ ⋅ ∑ i ∈ T c Pr ⁡ ( z ^ i ≠ z i ) ≥ ∣ T c ∣ n ⋅ 1 ∣ T c ∣ ∑ i ∈ T c inf ⁡ z ^ i ave z ∈ Z T Pr ⁡ ( z ^ i ≠ z i ) (4.4) \begin{aligned} \inf_{\hat z}\sup_{P_n(2,\beta,p,q)}\mathbb{E}l(z,\hat z)&\ge \inf_{\hat z}\sup_{\mathcal{P}(2,\beta,p,q)}\mathbb{E}l(z,\hat z)\\ &=\inf_{\hat z}\sup_{z\in Z_T}\frac1n\sum_{i=1}^n\Pr(\hat z_i\neq z_i)\\ &=\frac{|T^c|}{n}\cdot \inf_{\hat z}\sup_{z\in Z_T}\frac1{|T^c|}\cdot \sum_{i\in T^c}\Pr(\hat z_i\neq z_i)\\ &\ge \frac{|T^c|}{n}\cdot \frac1{|T^c|}\sum_{i\in T^c}\inf_{\hat z_i}\text{ave}_{z\in Z_T}\Pr(\hat z_i\neq z_i) \end{aligned}\tag{4.4} z^infPn(2,β,p,q)supEl(z,z^)≥z^infP(2,β,p,q)supEl(z,z^)=z^infz∈ZTsupn1i=1∑nPr(z^i=zi)=n∣Tc∣⋅z^infz∈ZTsup∣Tc∣1⋅i∈Tc∑Pr(z^i=zi)≥n∣Tc∣⋅∣Tc∣1i∈Tc∑z^iinfavez∈ZTPr(z^i=zi)(4.4)
  
  注意到 ∀ i ∈ T c \forall i \in T^c ∀i∈Tc，有：
  
  inf ⁡ z ^ i ave z ∈ Z T Pr ⁡ ( z ^ i ≠ z i ≥ ave z − i inf ⁡ z ^ i { 1 2 Pr ⁡ z − i , z i = 1 ( z ^ i ≠ 1 ) + 1 2 Pr ⁡ z − i , z i = 2 ( z ^ i ≠ 2 ) } (4.5) \inf_{\hat z_i}\text{ave}_{z\in Z_T}\Pr(\hat z_i\neq z_i\ge\text{ave}_{z_{-i}}\inf_{\hat z_i}\left\{\frac12\Pr_{z_{-i},z_i=1}(\hat z_i\neq 1)+\frac12\Pr_{z_{-i},z_i=2}(\hat z_i\neq 2)\right\}\tag{4.5} z^iinfavez∈ZTPr(z^i=zi≥avez−iz^iinf{21z−i,zi=1Pr(z^i=1)+21z−i,zi=2Pr(z^i=2)}(4.5)
  
  z − i z_{-i} z−i表示除了 i i i以外的其他 entry \text{entry} entry， ave \text{ave} ave是平均数的意思。
  
  代入式 ( 4.4 ) (4.4) (4.4)的最终结果是：
  inf ⁡ z ^ sup ⁡ P n ( 2 , β , p , q ) E l ( z , z ^ ) ≥ inf ⁡ z ^ sup ⁡ P n ( 2 , β , p , q ) E l ( z , z ^ ) = inf ⁡ z ^ sup ⁡ z ∈ Z T 1 n ∑ i = 1 n Pr ⁡ ( z ^ i ≠ z i ) = ∣ T c ∣ n ⋅ inf ⁡ z ^ sup ⁡ z ∈ Z T 1 ∣ T c ∣ ⋅ ∑ i ∈ T c Pr ⁡ ( z ^ i ≠ z i ) ≥ ∣ T c ∣ n ⋅ 1 ∣ T c ∣ ∑ i ∈ T c inf ⁡ z ^ i ave z ∈ Z T Pr ⁡ ( z ^ i ≠ z i ) ≥ δ e − ( 1 + o ( 1 ) ) n 2 I = e − ( 1 + o ( 1 ) ) n 2 I − log ⁡ 1 δ = e − ( 1 + o ( 1 ) ) n 2 I (4.6) \begin{aligned} \inf_{\hat z}\sup_{P_n(2,\beta,p,q)}\mathbb{E}l(z,\hat z)&\ge \inf_{\hat z}\sup_{\mathcal{P}_n(2,\beta,p,q)}\mathbb{E}l(z,\hat z)\\ &=\inf_{\hat z}\sup_{z\in Z_T}\frac1n\sum_{i=1}^n\Pr(\hat z_i\neq z_i)\\ &=\frac{|T^c|}{n}\cdot \inf_{\hat z}\sup_{z\in Z_T}\frac1{|T^c|}\cdot \sum_{i\in T^c}\Pr(\hat z_i\neq z_i)\\ &\ge \frac{|T^c|}{n}\cdot \frac1{|T^c|}\sum_{i\in T^c}\inf_{\hat z_i}\text{ave}_{z\in Z_T}\Pr(\hat z_i\neq z_i)\\ &\ge \delta e^{-(1+o(1))\frac n2I}\\ &=e^{-(1+o(1))\frac n2I-\log\frac1\delta}\\ &=e^{-(1+o(1))\frac n2I} \end{aligned}\tag{4.6} z^infPn(2,β,p,q)supEl(z,z^)≥z^infPn(2,β,p,q)supEl(z,z^)=z^infz∈ZTsupn1i=1∑nPr(z^i=zi)=n∣Tc∣⋅z^infz∈ZTsup∣Tc∣1⋅i∈Tc∑Pr(z^i=zi)≥n∣Tc∣⋅∣Tc∣1i∈Tc∑z^iinfavez∈ZTPr(z^i=zi)≥δe−(1+o(1))2nI=e−(1+o(1))2nI−logδ1=e−(1+o(1))2nI(4.6)
- 一般情况下：
  
  inf ⁡ z ^ sup ⁡ P n ( k , β , p , q ) E l ( z , z ^ ) ≥ e − ( 1 + o ( 1 ) ) n β k I k ≥ 3 (4.7) \inf_{\hat z}\sup_{\mathcal{P}_n(k,\beta,p,q)}\mathbb{E}l(z,\hat z)\ge e^{-(1+o(1))\frac{n}{\beta k}I}\quad k\ge 3\tag{4.7} z^infPn(k,β,p,q)supEl(z,z^)≥e−(1+o(1))βknIk≥3(4.7)
  
  k = 2 k=2 k=2的 minimax lower bound \text{minimax lower bound} minimax lower bound的情况如式 ( 4.5 ) (4.5) (4.5)所示，即：
  inf ⁡ z ^ sup ⁡ P n ( 2 , β , p , q ) E l ( z , z ^ ) ≥ e − ( 1 + o ( 1 ) ) n 2 I (4.8) \inf_{\hat z}\sup_{P_n(2,\beta,p,q)}\mathbb{E}l(z,\hat z)\ge e^{-(1+o(1))\frac n2I}\tag{4.8} z^infPn(2,β,p,q)supEl(z,z^)≥e−(1+o(1))2nI(4.8)
( 4 ) (4) (4) 接下来我们讨论如何取得上面证明得到的下界？
- 两步走：
  
  ① 使用之前的 Spectral clustering \text{Spectral clustering} Spectral clustering算法来获取初始的 z ^ 0 ∈ { 1 , 2 } n \hat z_0\in\{1,2\}^n z^0∈{1,2}n
  
  ② 循环 i i i从 1 1 1到 n n n，计算 z ^ i = argmax u ∈ { 1 , . . . , k } ∑ z ^ j 0 = u A i j ∣ { j : z ~ j 0 = u , j ≠ i } ∣ \hat z_i=\text{argmax}_{u\in\{1,...,k\}}\frac{\sum_{\hat z_j^0=u}A_{ij}}{|\{j:\tilde z_j^0=u,j\neq i\}|} z^i=argmaxu∈{1,...,k}∣{j:z~j0=u,j=i}∣∑z^j0=uAij
- 这个两步走算法的证明参考讲授者作为 co-workers \text{co-workers} co-workers的论文（ Gao-Ma-Zhang-Zhon \text{Gao-Ma-Zhang-Zhon} Gao-Ma-Zhang-Zhon）。
最大似然估计量：

z ^ M L E = argmax z ∈ { 1 , 2 , . . . , k } n { log ⁡ ( p ( 1 − q ) q ( 1 − p ) ) ∑ i < j A i j 1 z i = z j − log ⁡ ( 1 − q 1 − p ∑ i < j 1 z i = z j ) } (4.9) \hat z^{\rm MLE}=\text{argmax}_{z\in\{1,2,...,k\}^n}\left\{\log\left(\frac{p(1-q)}{q(1-p)}\right)\sum_{i<j}A_{ij}\textbf{1}_{z_i=z_j}-\log\left(\frac{1-q}{1-p}\sum_{i<j}\textbf{1}_{z_i=z_j}\right)\right\}\tag{4.9} z^MLE=argmaxz∈{1,2,...,k}n{log(q(1−p)p(1−q))i<j∑Aij1zi=zj−log(1−p1−qi<j∑1zi=zj)}(4.9)

定理：当 n I k log ⁡ k → ∞ , k ≥ 2 \frac{nI}{k\log k}\rightarrow\infty,k\ge 2 klogknI→∞,k≥2，有式 ( 4.7 ) (4.7) (4.7)与式 ( 4.8 ) (4.8) (4.8)的结论，事实上最大似然估计的优势是可以取得最优的 minimax \text{minimax} minimax速率，但是存在一些计算上的缺陷：
- 需要 p p p和 q q q的先验知识。
- 需要求解整数规划。
最大似然估计的 SDP Relaxation \text{SDP Relaxation} SDP Relaxation：这里依然考察上面经常提到的 Balanced 2-block \text{Balanced 2-block} Balanced 2-block的情形

设 X ∈ [ 0 , 1 ] n × n X\in[0,1]^{n\times n} X∈[0,1]n×n是 comembership matrix \text{comembership matrix} comembership matrix，它的估计量 X ^ = argmax X < X , A − p + q 2 J > \hat X=\text{argmax}_X<X,A-\frac{p+q}{2}J> X^=argmaxX<X,A−2p+qJ>，其中 < A , B > = tr ( A ⊤ B ) <A,B>=\text{tr}(A^\top B) <A,B>=tr(A⊤B)， J J J为全一矩阵。

这个优化问题的约束为 X ⪰ 0 , X i i = 1 , ∀ i X\succeq 0,X_{ii}=1,\forall i X⪰0,Xii=1,∀i
- Grothendieck’s \text{Grothendieck's} Grothendieck’s不等式：
  
  设 B ∈ R n × n B\in\R^{n\times n} B∈Rn×n，满足：
  ∣ ∑ i , j = 1 n b i j s i t i ∣ ≤ 1 ∀ s i , t j ∈ { − 1 , 1 } \left|\sum_{i,j=1}^{n}b_{ij}s_it_i\right|\le 1\quad \forall s_i,t_j\in\{-1,1\} ∣∣∣∣∣i,j=1∑nbijsiti∣∣∣∣∣≤1∀si,tj∈{−1,1}
  则有如下结论：
  ∣ ∑ i , j = 1 n b i j < X i , Y j > ∣ ≤ k G ∀ X i , Y i ∈ R n , ∥ X i ∥ 2 = ∥ Y i ∥ 2 = 1 \left|\sum_{i,j=1}^nb_{ij}<X_i,Y_j>\right|\le k_G\quad \forall X_i,Y_i\in\R^n,\|X_i\|_2=\|Y_i\|_2=1 ∣∣∣∣∣i,j=1∑nbij<Xi,Yj>∣∣∣∣∣≤kG∀Xi,Yi∈Rn,∥Xi∥2=∥Yi∥2=1
  且可以证明常数 k G < 1.783 k_G<1.783 kG<1.783
- 上面这个不等式是非常抽象的，我们看如下的情形：
  
  定义 M 1 = { s t ⊤ : s , t ∈ { − 1 , 1 } n } , M G = { X Y ⊤ : X n × n , Y n × n 的列向量为单位向量 } M_1=\{st^\top: s,t\in\{-1,1\}^n\},M_G=\{XY^\top:X_{n\times n},Y_{n\times n}\text{的列向量为单位向量}\} M1={st⊤:s,t∈{−1,1}n},MG={XY⊤:Xn×n,Yn×n的列向量为单位向量}
  
  显然 M 1 ⊂ M G M_1\subset M_G M1⊂MG，则 Grothendieck’s \text{Grothendieck's} Grothendieck’s不等式等价于：
  ∀ B ∈ R n × n , max ⁡ z ∈ M G ∣ < B , Z > ∣ ≤ k G ⋅ max ⁡ z ∈ M 1 < B , Z > \forall B\in\R^{n\times n},\max_{z\in M_G}|<B,Z>|\le k_G\cdot\max_{z\in M_1}<B,Z> ∀B∈Rn×n,z∈MGmax∣<B,Z>∣≤kG⋅z∈M1max<B,Z>
  然后可以观察到：
  ∥ B ∥ l ∞ → l 1 = max ⁡ ∥ x ∥ ∞ ≤ 1 ∥ B s ∥ 1 = max ⁡ ∥ s ∥ ∞ ≤ 1 max ⁡ t ∈ { − 1 , 1 } n < t , B s > = max ⁡ t ∈ { − 1 , 1 } n max ⁡ ∥ s ∥ ∞ ≤ 1 < t , B s > = max ⁡ t ∈ { − 1 , 1 } n , s ∈ { − 1 , 1 } n < t , B s > = max ⁡ z ∈ M 1 ∣ < B , Z > ∣ \begin{aligned} \|B\|_{l_{\infty}\rightarrow l_1}&=\max_{\|x\|_\infty\le 1}\|Bs\|_1\\ &=\max_{\|s\|_\infty\le1}\max_{t\in\{-1,1\}^n}<t,Bs>\\ &=\max_{t\in\{-1,1\}^n}\max_{\|s\|_\infty\le1}<t,Bs>\\ &=\max_{t\in\{-1,1\}^n,s\in\{-1,1\}^n}<t,Bs>\\ &=\max_{z\in M_1}|<B,Z>| \end{aligned} ∥B∥l∞→l1=∥x∥∞≤1max∥Bs∥1=∥s∥∞≤1maxt∈{−1,1}nmax<t,Bs>=t∈{−1,1}nmax∥s∥∞≤1max<t,Bs>=t∈{−1,1}n,s∈{−1,1}nmax<t,Bs>=z∈M1max∣<B,Z>∣
  Grothendieck’s \text{Grothendieck's} Grothendieck’s不等式得证。 ■ \blacksquare ■
- 另外定义 M G + = { Z : Z ⪰ 0 , diag ( Z ) ≤ I n } ⊂ M G ⊂ [ − 1 , 1 ] n × n M_G^+=\{Z:Z\succeq 0,\text{diag}(Z)\le I_n\}\subset M_G\subset [-1,1]^{n\times n} MG+={Z:Z⪰0,diag(Z)≤In}⊂MG⊂[−1,1]n×n，证明可用特征值分解。
考察一个可行解是 X ∗ = [ J n 2 , 0 ; 0 ; J n 2 ] X^*=[J_{\frac n2},0;0;J_{\frac n2}] X∗=[J2n,0;0;J2n]，但这个其实不是最优解。

X ∗ X^* X∗可行的证明是非常容易的：
0 ≤ < X ^ , A − p + q 2 J > − < X ∗ , A − p + q 2 J > = < X ^ − X ∗ , A − p + q 2 J > = < X ^ − X ∗ , E A − p + q 2 J > + < X ^ − X ∗ , A − E A > \begin{aligned} 0&\le <\hat X,A-\frac{p+q}{2}J>-<X^*,A-\frac{p+q}{2}J>\\ &=<\hat X-X^*,A-\frac{p+q}{2}J>\\ &=<\hat X-X^*,\mathbb{E}A-\frac{p+q}{2}J>+<\hat X-X^*,A-\mathbb{E}A>\\ \end{aligned} 0≤<X^,A−2p+qJ>−<X∗,A−2p+qJ>=<X^−X∗,A−2p+qJ>=<X^−X∗,EA−2p+qJ>+<X^−X∗,A−EA>
注意到 ∀ i ≠ j \forall i\neq j ∀i=j，若 X i j ∗ = 1 X_{ij}^*=1 Xij∗=1，有 E A i j = p \mathbb{E}A_{ij}=p EAij=p；若 X i j ∗ = 0 X^*_{ij}=0 Xij∗=0，有 E A i j = q \mathbb{E}A_{ij}=q EAij=q；于是：
( X i j ∗ − X ^ i j ) ( E A i j − p + q 2 ) = p + q 2 ∣ X i j ∗ − X ^ i j ∣ (X_{ij}^*-\hat X_{ij})(\mathbb{E}A_{ij}-\frac{p+q}{2})=\frac{p+q}{2}|X_{ij}^*-\hat X_{ij}| (Xij∗−X^ij)(EAij−2p+q)=2p+q∣Xij∗−X^ij∣
所以有：
⇒ < X ^ − X ∗ , E A − p + q 2 J > = p − q 2 ∥ X ^ − X ∗ ∥ 1 ⇒ < X ^ − X ∗ , A − E A > ≥ p − q 2 ∥ X ^ − X ∗ ∥ 1 \begin{aligned} &\Rightarrow <\hat X-X^*,\mathbb{E}A-\frac{p+q}{2}J>=\frac{p-q}2\|\hat X-X^*\|_1\\ &\Rightarrow <\hat X-X^*,A-\mathbb{E}A>\ge\frac{p-q}2\|\hat X-X^*\|_1\\ \end{aligned} ⇒<X^−X∗,EA−2p+qJ>=2p−q∥X^−X∗∥1⇒<X^−X∗,A−EA>≥2p−q∥X^−X∗∥1
于是：
< X ^ − X ∗ , A − E A > ≤ ∣ < X ^ , A − E A > ∣ + ∣ < X ∗ , A − E A > ∣ ≤ 2 sup ⁡ Y ∈ M G ∣ < Y , A − E A > ∣ ≤ Grothendieck’s 2 ⋅ k G sup ⁡ Y ∈ M 1 ∣ < Y , A − E A > ∣ \begin{aligned} <\hat X-X^*,A-\mathbb{E}A>&\le |<\hat X,A-\mathbb{E}A>|+|<X^*,A-\mathbb{E}A>|\\ &\le 2\sup_{Y\in M_G}|<Y,A-\mathbb{E}A>|\\ &\overset{\text{Grothendieck's}}{\le} 2\cdot k_G\sup_{Y\in M_1}|<Y,A-\mathbb{E}A>| \end{aligned} <X^−X∗,A−EA>≤∣<X^,A−EA>∣+∣<X∗,A−EA>∣≤2Y∈MGsup∣<Y,A−EA>∣≤Grothendieck’s2⋅kGY∈M1sup∣<Y,A−EA>∣
推导到上式的一个好处就是 M 1 M_1 M1里面的元素是可以一个个数出来的（离散），一个有 4 n 4^n 4n个离散的数，于是可以利用 union bound \text{union bound} union bound来求解其最优值。

所以我们的策略是：

( 1 ) (1) (1) 对于给定的 Y ∈ M 1 Y\in M_1 Y∈M1，利用 Bernstein \text{Bernstein} Bernstein不等式来以高概率控制 ∣ < Y , A − E A > ∣ |<Y,A-\mathbb{E}A>| ∣<Y,A−EA>∣
- 定理（ Bernstein \text{Bernstein} Bernstein不等式）： Y 1 , . . . , Y N Y_1,...,Y_N Y1,...,YN是独立同分布的随机变量，设 E Y k = 0 , ∣ Y k ∣ ≤ M , σ 2 = 1 N ∑ i = 1 N var ( Y i ) \mathbb{E}Y_k=0,|Y_k|\le M,\sigma^2=\frac1N\sum_{i=1}^N\text{var}(Y_i) EYk=0,∣Yk∣≤M,σ2=N1∑i=1Nvar(Yi)，则 ∀ t > 0 \forall t>0 ∀t>0，有如下结论：
  Pr ⁡ ( 1 N ∑ i = 1 N Y k ≥ t ) ≤ exp ⁡ ( − N t 2 / 2 σ 2 + M t / 3 ) \Pr\left(\frac1N\sum_{i=1}^NY_k\ge t\right)\le \exp\left(-\frac{Nt^2/2}{\sigma^2+Mt/3}\right) Pr(N1i=1∑NYk≥t)≤exp(−σ2+Mt/3Nt2/2)
- 具体应用方法如下，给定一个 Y ∈ M 1 Y\in M_1 Y∈M1后：
  < Y , A − E A > = ∑ i , j = 1 n ( A i j − E A i j ) s i t i = ∑ i < j W i j \begin{aligned} <Y,A-\mathbb{E}A>&=\sum_{i,j=1}^n(A_{ij}-\mathbb{E}A_{ij})s_it_i\\ &=\sum_{i<j}W_{ij} \end{aligned} <Y,A−EA>=i,j=1∑n(Aij−EAij)siti=i<j∑Wij
  其中 W i j = ( A i j − E A i j ) ( s i t j + s j t i ) W_{ij}=(A_{ij}-\mathbb{E}A_{ij})(s_it_j+s_jt_i) Wij=(Aij−EAij)(sitj+sjti)，利用 Bernstein \text{Bernstein} Bernstein不等式，取 N = 1 2 n ( n − 1 ) N=\frac12n(n-1) N=21n(n−1)，则平均方差 σ 2 ≤ max ⁡ i j var ( W i j ) ≤ 4 p \sigma^2\le\max_{ij}\text{var}(W_{ij})\le 4p σ2≤maxijvar(Wij)≤4p，边界为 ∣ W i j ∣ ≤ 2 ∣ A i j − E A i j ∣ ≤ 2 |W_{ij}|\le 2|A_{ij}-\mathbb{E}A_{ij}|\le 2 ∣Wij∣≤2∣Aij−EAij∣≤2。（ M = 2 M=2 M=2）
  
  于是有：
  Pr ⁡ ( 1 N ∑ i < j W i j > t ) ≤ exp ⁡ ( − N t 2 4 p + 2 t / 3 ) \Pr\left(\frac1N\sum_{i<j}W_{ij}>t\right)\le\exp\left(-\frac{Nt^2}{4p+2t/3}\right) Pr(N1i<j∑Wij>t)≤exp(−4p+2t/3Nt2)
  我们选取 t = c p n t=c\sqrt{\frac{p}{n}} t=cnp ，其中 p ≥ c n p\ge \frac cn p≥nc，则上式右端为 exp ⁡ ( − 10 n ) \exp(-10 n) exp(−10n)，可得：
  sup ⁡ Y ∈ M 1 ∣ < Y , A − E A > ∣ = ∑ Y ∈ M 1 < Y , A − E A > ⇒ Pr ⁡ ( max ⁡ Y ∈ M 1 < Y , A − E A > > c p n ⋅ n ( n − 1 ) 2 ) ⇒ ∥ X ^ − X ∗ ∥ ≤ c p − q ⋅ n 3 p ≤ c n 3 p ( p − q ) 2 \sup_{Y\in M_1}|<Y,A-\mathbb{E}A>|=\sum_{Y\in M_1}<Y,A-\mathbb{E}A>\\ \Rightarrow \Pr\left(\max_{Y\in M_1}<Y,A-\mathbb{E}A>>c\sqrt{\frac{p}{n}}\cdot\frac{n(n-1)}{2}\right)\\ \Rightarrow\|\hat X-X^*\|\le \frac{c}{p-q}\cdot \sqrt{n^3p}\le c\sqrt{\frac{n^3p}{(p-q)^2}} Y∈M1sup∣<Y,A−EA>∣=Y∈M1∑<Y,A−EA>⇒Pr(Y∈M1max<Y,A−EA>>cnp ⋅2n(n−1))⇒∥X^−X∗∥≤p−qc⋅n3p ≤c(p−q)2n3p
( 2 ) (2) (2) 利用 union bound \text{union bound} union bound在所有 Y ∈ M 1 Y\in M_1 Y∈M1，即如下的一个不等式：
Pr ⁡ ( max ⁡ i n X i > t ) = Pr ⁡ ( ∃ X i > t ) ≤ ∑ i = 1 n Pr ⁡ ( X i > t ) \Pr(\max_{i}^nX_i\gt t)=\Pr(\exist X_i>t)\le\sum_{i=1}^n\Pr(X_i>t) Pr(imaxnXi>t)=Pr(∃Xi>t)≤i=1∑nPr(Xi>t)
给定 X ^ \hat X X^，我们将它的行向量 X ^ 1 , . . . , X ^ n \hat X_1,...,\hat X_n X^1,...,X^n视为 R n \R^n Rn中的点，则可以找到一个常数的近似算法来得到 k -means k\text{-means} k-means聚类：
∑ ∈ { 1 , 2 } ∑ i : z ^ i = u ∥ X ^ i − V ^ u ∥ 1 ≤ c ⋅ min ⁡ z ∈ { 1 , 2 } n ∑ u ∈ { 1 , 2 } ⋅ min ⁡ V n ∈ R n ∑ i : z i = u ∥ X ^ i − V u ∥ 1 \sum_{\in\{1,2\}}\sum_{i:\hat z_i=u}\|\hat X_i-\hat V_u\|_1\le c\cdot \min_{z\in\{1,2\}^n}\sum_{u\in\{1,2\}}\cdot \min_{V_n\in\R^n}\sum_{i:z_i=u}\|\hat X_i-V_u\|_1 ∈{1,2}∑i:z^i=u∑∥X^i−V^u∥1≤c⋅z∈{1,2}nminu∈{1,2}∑⋅Vn∈Rnmini:zi=u∑∥X^i−Vu∥1
定义 V ^ i = V ^ z ^ i \hat V_i=\hat V_{\hat z_i} V^i=V^z^i，这使得我们可以使用 geometry-to-clustering \text{geometry-to-clustering} geometry-to-clustering引理来得出嘴甜的结果。即 minimax \text{minimax} minimax速率为 e − ( 1 + o ( 1 ) ) n 2 I e^{-(1+o(1))\frac n2I} e−(1+o(1))2nI

课后习题：证明高概率地有：
l ( z , z ^ ) ≤ c ⋅ p n ( p − q ) 2 ≤ c 1 n I l(z,\hat z)\le c\cdot\sqrt{\frac p{n(p-q)^2}}\le c\frac{1}{\sqrt{nI}} l(z,z^)≤c⋅n(p−q)2p ≤cnI 1
Degree-corrected Blockmodels \text{Degree-corrected Blockmodels} Degree-corrected Blockmodels： SBM ( n , 2 , 1 , p , q ) \text{SBM}(n,2,1,p,q) SBM(n,2,1,p,q)

∑ j ≠ i E A i j ≈ n 2 p + n 2 q = n 2 ( p + q ) \sum_{j\neq i}\mathbb{E}A_{ij}\approx\frac n2p+\frac n2q=\frac n2(p+q) ∑j=iEAij≈2np+2nq=2n(p+q)，这是 Expected degree \text{Expected degree} Expected degree，注意到 SBM \text{SBM} SBM无法建模 degree heterogenerity \text{degree heterogenerity} degree heterogenerity，于是定义一个扩展的新模型：
z ∈ { 1 , 2 , . . . , k } n community label label θ ∈ R + n degree correction vector B ∈ [ 0 , 1 ] k × k A i j = A j i ∼ Bernoulli ( θ i θ j B z i z j ) z\in\{1,2,...,k\}^n\quad \text{community label label}\\ \theta\in\R^n_+\quad \text{degree correction vector}\\ B\in[0,1]^{k\times k}\quad A_{ij}=A_{ji}\sim\text{Bernoulli}(\theta_i\theta_jB_{z_iz_j}) z∈{1,2,...,k}ncommunity label labelθ∈R+ndegree correction vectorB∈[0,1]k×kAij=Aji∼Bernoulli(θiθjBzizj)
- 一个最优的聚类算法：
  
  难点在于 θ \theta θ是一个随机（suisance）参数，需要设计一个无需 θ \theta θ先验知识的算法：
  
  ① 找到 A A A的最好的 rank- k \text{rank-}k rank-k近似，表示为 P ^ \hat P P^
  
  ② degree normalization \text{degree normalization} degree normalization： P ^ i \hat P_i P^i是 P ^ \hat P P^的第 i i i行：
  P ~ i = P ^ i ∥ P ^ i ∥ 1 i = 1 , 2 , . . . , n \tilde P_i=\frac{\hat P_i}{\|\hat P_i\|_1}\quad i=1,2,...,n P~i=∥P^i∥1P^ii=1,2,...,n
  ③ 使用 k -median k\text{-median} k-median聚类在 { P ~ 1 , . . . , P ~ n } ⊆ R n \{\tilde P_1,...,\tilde P_n\}\subseteq\R^n {P~1,...,P~n}⊆Rn
DCBM \text{DCBM} DCBM的理论与 SBM \text{SBM} SBM有很多相似之处，具有高度联系，需要了解的话可以参考讲授者的相关论文。

Lecture 5 \text{Lecture 5} Lecture 5 隐空间模型

本节开始讲授者不再手写 Slide \text{Slide} Slide，改用 PDF \text{PDF} PDF演示。笔者使用截图辅以笔注。

这个模型有点类似隐马尔科夫链，注意这里 Bernoulii \text{Bernoulii} Bernoulii的概率用了 logit \text{logit} logit函数映射。

一种想法是使用内积形式来刻画这种模型：

内积模型可以写为矩阵形式，且具有低秩性：

除了内积外，还可以用其他函数（有点类似 SVM \text{SVM} SVM里的核函数）

问题的构建，即建模然后估计模型参数：

两种估计模型参数的方法：

参数空间是比较简单的：

第一种是最大似然估计：

虽然不是整数规划，但是也可以做 lifting \text{lifting} lifting：

最终可以得到如下的凸规划问题，可以使用现成的求解器来求解：
- 好处是能求解
- 坏处是求解速度很慢，如果 Tr ( G ) \text{Tr}(G) Tr(G)是 n 2 n^2 n2就很慢

第二种方法用投影梯度下降：

算法如下：

统计性质很好：

一些网络图的应用案例：

一些数据集的参考文献：

【学习笔记】网络图数据分析导论（solid）相关推荐

二维码学习笔记(二) | 数据分析与数据编码
唠唠闲话二维码笔记系列(原文地址): 『二维码学习笔记(一) | 二维码概述』『二维码学习笔记(二) | 数据分析与数据编码』『二维码学习笔记(三) | 纠错编码』『二维码学习笔记(四) | ...
学习笔记：数据分析和处理（ML计算模型前的预处理）——持续更新
数据分析和处理,其实就是你计算模型前的预处理步骤.一个不合理的错误数据如果不在预处理的时候剔除,可能会对最终结果造成非常大的影响. 在很多时候,如果你换了能换的所有模型和参数,最后计算得到的模型的交叉 ...
学习笔记-python数据分析-环境配置
系统win10 64位 miix5 512G 由于装双系统比较复杂,且miix在网上还没有发现成功的案例(本身就小众,即便ubuntu是通用的系统,也会存在驱动的问题) 1.安装最新版python3. ...
[学习笔记]PowerBI数据分析与可视化-B站数据大白
参考资料 B站视频-Power BI 数据分析与可视化前言原视频中可能的勘误在笔记中有修改.Ctrl+F搜索"勘误"两个字可以快速定位到勘误. 原视频中可能的差异在笔记中有提及 ...
（三）pandas开源课程学习笔记——探索性数据分析
目录开始之前,导入numpy.pandas包和数据 1.6 了解你的数据吗? 1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序 1.6.2 任务二:对泰坦尼克号数据(trian.cs ...
【学习笔记】计算机导论之计算机硬件
主板.处理器和内存主板主板主要由芯片组.扩展槽和对外接口三部分组成. 处理器中央处理器(CPU)处理通用数据. 图形处理器(GPU)处理图形数据. 处理器性能影响因素 1 时钟速度常以GHz为 ...
python绘制直方图的函数_(六)pyplot基础图表函数(学习笔记)|python数据分析与展示...
1.pyplot基础图表函数概述 2.pyplot图饼的绘制 3.pyplot直方图的绘制 4.pyplot极坐标图的绘制 5.pyplot散点图的绘制 6.单元小结 [网页链接[Python数据分析 ...
【学习笔记】人工智能导论
考试题型: 一.选择2 :20 二.填空5:10 主观题改成填空题三.趣味编程题,10分第0章绪论图灵测试 1950年图灵发表的<计算机与智能>中设计了一个测试,用以说明人工智能的 ...
人工智能学习笔记01——数据分析的介绍及环境安装
1 为什么要学习数据分析 1 有岗位需求 2 是python数据科学的基础 3 是机器学习课程的基础 2 什么是数据分析数据分析就是用适当的方法对采集来的大量数据进行分析,帮助人们做出判断,以便 ...

【学习笔记】网络图数据分析导论（solid）

序言