UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声

  • 社区发现的Spectral Clustering算法复习
  • 用矩阵Bernstein不等式推导Spectral Clustering的理论性质

社区发现的Spectral Clustering算法复习

我们在上一部分介绍随机矩阵的时候介绍了stochastic blocking model以及community detection的spectral clustering算法。

假设这个网络有nnn个节点,网络中有两个社区,它们的规模相当,各拥有n/2n/2n/2个节点,记这两个社区为C1,C2C_1,C_2C1​,C2​,我们用G(n,p,q)G(n,p,q)G(n,p,q)表示这个随机网络,其中ppp表示某条边连接的两个点属于同一个社区的概率,qqq表示某条边连接的两个点属于不同社区的概率,假设p>qp>qp>q,用AAA表示这个网络的伴随矩阵,显然它是一个随机矩阵,
P(Aij=1∣i,j∈C1ori,j∈C2)=pP(Aij=1∣i∈C1,j∈C2ori∈C2,j∈C1)=qP(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=qP(Aij​=1∣i,j∈C1​ or i,j∈C2​)=pP(Aij​=1∣i∈C1​,j∈C2​ or i∈C2​,j∈C1​)=q

我们可以将AAA分解为它的期望与残差矩阵:
A=E[A]+RA = E[A]+RA=E[A]+R

Community detection in networks的目标是给定一个某个随机矩阵的样本数据集,要还原随机矩阵的期望的特征向量,下面是Spectral clustering的算法描述:

我们在上部分第八讲用Davis-Kahan定理说明了它的理论性质:考虑随机网络G(n,p,q)G(n,p,q)G(n,p,q),如果min⁡(q,p−q)=μ>0\min(q,p-q)=\mu>0min(q,p−q)=μ>0,则∃c>0\exists c>0∃c>0,Spectral Clustering最多搞错c/μ2c/\mu^2c/μ2个节点的概率至少是1−4e−n1-4e^{-n}1−4e−n。这个结论的条件是
∥D∥∼n,P(∥R∥=O(n))≥1−4e−n\left\| D\right\| \sim n,P(\left\| R \right\| =O(\sqrt{n})) \ge 1-4e^{-n}∥D∥∼n,P(∥R∥=O(n​))≥1−4e−n


用矩阵Bernstein不等式推导Spectral Clustering的理论性质

注意到∥D∥=(p+q)n/2≥μn\left\| D\right\|=(p+q)n/2 \ge \mu n∥D∥=(p+q)n/2≥μn,所以之前得到的结果需要的条件是
μn>>O(n)\mu n >> O(\sqrt{n})μn>>O(n​)

也就是∥D∥>>n\left\| D\right\|>>n∥D∥>>n,但是用矩阵Bernstein不等式,我们可以把这个条件弱化为∥D∥>>log⁡n\left\| D\right\|>>\log n∥D∥>>logn。

记d=∥D∥d=\left\| D\right\|d=∥D∥,定义A=∑1≤i<j≤nZijA = \sum_{1 \le i< j \le n}Z_{ij}A=∑1≤i<j≤n​Zij​,其中ZijZ_{ij}Zij​是n×nn \times nn×n的矩阵,除了(i,j)(i,j)(i,j)与(j,i)(j,i)(j,i)这两个位置为Bernoulli变量外,其他位置均为0,我们可以说明
E∥R∥=E∥A−EA∥≲dlog⁡n+log⁡nE \left\| R \right\| = E \left\| A - EA \right\| \lesssim \sqrt{d \log n}+\log nE∥R∥=E∥A−EA∥≲dlogn​+logn

证明思路
R=A−EA=∑1≤i<j≤n(Zij−EZij)R = A - EA = \sum_{1 \le i< j \le n}(Z_{ij}-EZ_{ij})R=A−EA=1≤i<j≤n∑​(Zij​−EZij​)

这里的Zij−EZijZ_{ij}-EZ_{ij}Zij​−EZij​是有界(算子范数小于1)、独立、零均值、对称的随机变量,计算
σ2=∥∑E(Zij−EZij)2∥≈d\sigma^2 = \left\| \sum E(Z_{ij}-EZ_{ij})^2 \right\| \approx dσ2=∥∥∥​∑E(Zij​−EZij​)2∥∥∥​≈d

根据矩阵Bernstein不等式的推论

E∥R∥≲σlog⁡n+log⁡nE \left\| R \right\| \lesssim \sigma\sqrt{\log n}+\log nE∥R∥≲σlogn​+logn

UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声相关推荐

  1. UA MATH567 高维统计IV Lipschitz组合10 随机矩阵的Bernstein不等式

    UA MATH567 高维统计IV Lipschitz组合10 随机矩阵的Bernstein不等式 随机矩阵的Bernstein不等式 假设X1,⋯,XNX_1,\cdots,X_NX1​,⋯,XN​ ...

  2. UA MATH567 高维统计IV Lipschitz组合9 矩阵函数、半正定序与迹不等式

    UA MATH567 高维统计IV Lipschitz组合9 矩阵函数.半正定序与迹不等式 矩阵函数 半正定序(positive semi-definite order, PSD order) 迹不等 ...

  3. UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理

    UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理 John-Lindenstrauss引理 Random Projection John ...

  4. UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布

    UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布 用SnS_nSn​表示一个对称群,为简化起见,我们假设SnS_nSn​包含{1,2,⋯,n}\{1,2,\cdots, ...

  5. UA MATH567 高维统计IV Lipschitz组合3 高斯分布的Lipschitz函数

    UA MATH567 高维统计IV Lipschitz组合3 高斯分布的Lipschitz函数 首先我们在欧氏空间(Rn,B(Rn))(\mathbb{R}^n,\mathcal{B}(\mathbb ...

  6. UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数 Isoperimetric不等式

    UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数 这一讲我们先介绍最简单的高维分布,也就是球面分布的Lipschitz ...

  7. UA MATH567 高维统计IV Lipschitz组合1 Lipschitz函数

    UA MATH567 高维统计IV Lipschitz组合1 Lipschitz函数 高维统计的第二部分与第三部分分别讨论了基于亚高斯性导出的随机向量与随机矩阵的concentration inequ ...

  8. UA MATH567 高维统计I 概率不等式11 Azuma不等式

    UA MATH567 高维统计I 概率不等式11 Azuma不等式 前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式.Hoeffding不 ...

  9. UA MATH567 高维统计II 随机向量11 kernel的构造 用内积替换反三角函数

    UA MATH567 高维统计II 随机向量11 kernel的构造 用内积替换反三角函数 我们来做上一讲剩下的kernel的构造,完成Grothendieck不等式的证明中的kernel trick ...

最新文章

  1. 企业绩效管理推不动,如何用绩效创造价值?
  2. Linux内核开发工作方向
  3. github mysql 数据恢复_记一次MySQL删库的数据恢复
  4. Android学习记录1--布局的类型
  5. smartfoxserver扩展里面过滤聊天的不合法字符
  6. 为什么优秀和听话总是难两全?
  7. tensorflow MySQL_tensorflow从入门到放弃....
  8. H5 video 播放器demo
  9. 【Linux私房菜】第四期——管理
  10. Java调用webservice
  11. php随机生成昵称,PHP随机生成姓名的方法介绍
  12. 统一门户建设项目最佳实践
  13. Problem C: 复数类的流输入输出
  14. 电脑计算机无法搜索文件,电脑中的文件搜索功能出错怎么办?电脑无法搜索出实际存在的文件如何解决...
  15. linux字符驱动愚见
  16. 中国烟酰胺单核苷酸(NMN)行业研究与投资预测报告(2022版)
  17. 危机产生于缺乏危机感
  18. 打造前端 Deepin Linux 工作环境——安装配置 atom 编辑器
  19. Retrofit中如何正确的使用https?
  20. python获取当日凌晨时间戳

热门文章

  1. Java经典面试题(N人循环报M个数出列)实现
  2. Thinkpad系统重装终极版
  3. pip安装ipython_Python -- 关于pip安装Ipython
  4. VS2015占内存大吗?_手机是6GB运行内存,何为后台却显示3G内存?
  5. 适合vue的富文本框
  6. MRCTF2020]你传你码呢
  7. CTFshow 文件包含 web117
  8. 沿任意方向缩放、镜像、正交投影及切变及其推导
  9. Pytorch中的optimizer.zero_grad和loss和net.backward和optimizer.step的理解
  10. 第三章:3.7 傅里叶变换性质(一)