作者 | 董靖鑫

审稿 | 程玉

今天给大家介绍的是来自斯坦福大学的Jure Leskovec课题组发表在ICML2020上的文章” Graph Structure of Neural Networks”。在本文中,作者系统地研究了神经网络的图结构如何影响其预测性能,并提出了一种新的基于图的神经网络表示方法称为“关系图”。

1

背景

神经网络通常被表示为神经元之间的连接图。尽管已被广泛使用,但目前对神经网络的图结构与其预测性能之间的关系几乎没有系统的理解。建立这样的关系在科学上和实践上都很重要,因为它对设计更高效、更准确的结构产生直接影响。它还将为执行神经网络的新硬件结构的设计提供参考。理解构成神经网络基础的图结构也将推进深度学习的科学发展。然而建立网络结构和其准确性的关系并不容易,因为尚不清楚如何将神经网络映射到图(反之亦然)。自然的选择是使用计算图表示,但它有很多限制:(1)缺乏通用性 (2)与生物学/神经科学脱节。

基于此,作者系统地研究了神经网络的图结构与其预测性能之间的关系。提出了一种用图表示神经网络的新方法,称为关系图。然后,设计了一个名为WS-flex的图生成器,它使作者能够系统地探索神经网络的设计空间(即关系图)。作者通过其关系图的聚集系数和平均路径长度来表征神经网络(图1(c))。此外,该框架灵活且通用,因为可以将关系图转换成不同的神经结构,包括多层感知机(MLPs),卷积神经网络(CNNs),ResNets等。该成果对设计神经网络架构,推进深度学习的科学以及提高对神经网络的总体理解具有启示意义。

图1 作者的方法概述

2

模型

为了研究神经网络的图结构与其预测性能之间的关系,需设计和探索关系图空间。其三个主要组成部分包括:(1)表征图结构属性的图度量;(2)能够生成不同图的图生成器;(3)控制计算预算的方法。因此不同神经网络的性能差异是由于它们具有不同的关系图结构。

2.1 图度量的选择

由于图结构的复杂性,图度量经常被用来描述图的特征。作者主要关注一个全局图度量,即平均路径长度,以及一个局部图度量,即聚类系数。值得注意的是,这两种方法被广泛应用于网络科学和神经科学。具体来说,平均路径长度衡量任意一对节点之间的平均最短路径距离;聚类系数衡量给定节点邻域内节点之间的边的比例,除以它们之间可能存在的边的数量,然后在所有节点上取平均值。

2.2 图生成器的设计

作者提出了WS-flex图生成器,该生成器可以生成覆盖图度量广泛的图。值得注意的是,WS-flex图几乎涵盖了经典随机生成器生成的所有图,如图2所示。WS-flex生成器通过放宽所有节点在随机重新布线之前具有相同程度的约束来概括WS模型。

图2 由不同图生成器生成的图

2.3 控制计算预算

为了比较由这些不同的图翻译的神经网络,重要的是确保所有网络具有近似相同的复杂性,从而性能的差异是由于它们的关系图结构。作者使用FLOPS作为度量标准。作者首先计算基线网络实例(即完整的关系图)的FLOPS,并在每个实验中使用它们作为参考复杂度。通过将维度或通道划分为不相交的节点特征集,关系图结构可以被实例化为具有可变宽度的神经网络。因此可以方便地调整神经网络的宽度以匹配参考复杂度(在基线FLOPS的0.5%以内),而无需改变关系图结构。

3

实验

考虑到要探索的候选图数量众多(总共3942个),作者首先研究了在CIFAR-10数据集上的MLPs的图结构,该数据集具有50K的训练图像和10K验证图像。然后,进一步研究了更大和更复杂的ImageNet分类任务,它由1K个图像类、1.28M个训练图像和50K个验证图像组成。

作者针对不同任务和体系结构上的所有采样关系图收集top-1错误,并记录每个采样图的度量值(平均路径长度L和聚类系数C)。将这些结果显示为图度量与预测性能的热图(图3(a)(c)(f))。

图3 主要结果

图3每个可视化结果平均至少3个随机种子。C = 1和L = 1(右下角)的完整图形被视为基线。(a)(c)图衡量与神经网络性能的关系。最好的图明显优于基线完全图。(b)(d)单图度量与神经网络性能。落在给定范围内的关系图显示为灰点。总体平滑函数由蓝色回归线指示。(e)跨架构的一致性。显示了当转换为不同的神经体系结构时,同一组52个关系图的性能相关性。(f)所有实验的总结。最佳关系图(红叉)在不同设置下始终优于基线完整图。此外,作者突出显示了“最佳点”(红色矩形区域),其中关系图在统计上并不比最佳关系图(带有红叉的容器)差。CIFAR-10上5层MLP的面元值是C和L落入给定面元的所有关系图的平均值。

训练成千上万个关系图,直到收敛为止可能在计算上令人望而却步。作者定量地表明,可以通过更少的计算成本来确定最佳位置,例如,通过对更少的图进行采样和对更少的epoch进行训练。

图4 快速识别最佳位置

图4左图使用较少的关系图样本和使用所有3942个图确定的最佳位置之间的相关性。右图在中间训练时期和最后时期(100个epoch)之间确定的最佳位置之间的相关性。

在实验中作者发现,性能最佳的关系图令人惊讶地类似于生物神经网络,如表1和图5所示。相似之处有两方面:(1)顶级人工神经网络的图度量(L和C)与生物神经网络高度相似;(2)通过关系图表示,可以将生物神经网络转换为5层MLP,并发现这些网络也优于基线完全图。

表1 顶级的人工神经网络可以类似于生物神经网络

图5 生物(左)和人工(右)神经网络图结构的可视化

4

结论

总而言之,作者提出了一种使用关系图表示来分析和理解神经网络的新观点,提出了从研究传统计算架构到研究神经网络图结构的新转变,并展示了其他科学学科(网络科学,神经科学等)提供的完善的图技术和方法可以有助于理解和设计深层神经网络。作者认为,这可能是未来研究应对更复杂情况的一个富有成果的途径。

参考资料

论文链接:https://arxiv.org/pdf/2007.06559v1

ICML2020 | 神经网络的图结构如何影响其预测性能?相关推荐

  1. 尤佳轩、何恺明等提出新型图表示法,新视角理解图结构如何影响预测性能

    选自arXiv 作者:尤佳轩.Jure Leskovec.何恺明.Saining Xie 机器之心编译 参与:小舟.杜伟 神经网络的图结构和预测性能之间有怎样的关系?近日,斯坦福尤佳轩.Jure Le ...

  2. 微软熊辰炎:如何利用图神经网络解决半结构化数据问题?

    对于许多信息检索和知识图谱研究者来说,究竟应该使用抽象的结构化信息进行表示学习还是使用海量的文本信息始终是一个富有争议的话题.在本届智源大会上,来自微软研究院的高级研究员熊辰炎博士带来了题为" ...

  3. 图卷积神经网络GCN原理+图结构学习+GAT+VGAE

    https://baijiahao.baidu.com/s?id=1678519457206249337&wfr=spider&for=pc GCN是一种卷积神经网络,它可以直接在图上 ...

  4. 【论文解读|AAAI2021】HGSL - Heterogeneous Graph Structure Learning for Graph Neural Networks 图神经网络的异构图结构学习

    文章目录 1 摘要 2 引言 相关工作 3 方法 3.1 特征图产生器 3.1.1 特征相似图 3.1.2特征传播图 3.2 语义图生成器 4 实验 5 结论 论文链接: http://shichua ...

  5. GNN-图卷积模型-2016:PATCHY-SAN【图结构序列化:将图结构转换成了序列结构,然后直接利用卷积神经网络在转化成的序列结构上做卷积】

    我们之前曾提到卷积神经网络不能应用在图结构上是因为图是非欧式空间,所以大部分算法都沿着找到适用于图的卷积核这个思路来走. 而 PATCHY-SAN 算法 <Learning Convolutio ...

  6. [图神经网络]图结构和图的表示

    一.图结构 图:描述关联数据的通用语言.在图中,节点之间是有关联的.但在传统机器学习中,数据样本之间独立同分布. 图需要兼容任意尺寸(不定长)的输入结构和复杂的拓扑结构,且没有参考锚点(不像CNN和G ...

  7. ICLR2020 | 图池化没有考虑图结构?一文带你了解最新图池化STRUCTPOOL

    今天给大家介绍的是TAMU的Hao Yuan等人的一篇论文,该研究针对目前的大多数图池化技术忽略了图结构这一可能会引起重要特征丢失的信息,巧妙地利用可以捕获不同节点之间的关系的条件随机场,并进一步将能 ...

  8. 【GNN】一份完全解读:是什么使神经网络变成图神经网络?

    图1:来自(Bruna等人,ICLR,2014)的图,描绘了3D领域内的MNIST图像.虽然卷积网络很难对球面数据进行分类,但是图网络可以很自然地处理它.可以把它当做是一个处理工具,但在实际应用程序中 ...

  9. 一份完全解读:是什么使神经网络变成图神经网络?

    图1:来自(Bruna等人,ICLR,2014)的图,描绘了3D领域内的MNIST图像.虽然卷积网络很难对球面数据进行分类,但是图网络可以很自然地处理它.可以把它当做是一个处理工具,但在实际应用程序中 ...

最新文章

  1. python gamma矫正
  2. MYSQL WHERE 当一个字段不为NULL的时候使用另一个字段判断
  3. 功能安全-26262(2018) part5
  4. 设备树之GPIO和中断实例
  5. 漫步者蓝牙只有一边有声音_漫步者Dreampods新品体验,蓝牙耳机黑科技来了
  6. java 非静态语句块_静态初始化代码块与非静态初始化代码块之间的区别是什么?...
  7. Java HashMap的死循环
  8. 设置header_Nginx的这些安全设置,你都知道吗?
  9. 如何调用一个windows上的应用程序呢?
  10. 网络多人游戏架构pdf_21秒看尽ImageNet屠榜模型,60+模型架构同台献艺
  11. 如何自学python知乎-马哥教育官网-专业Linux培训班,Python培训机构
  12. 【快速高斯模糊的实现】
  13. 深入探討 SCOM 2007 管理技術
  14. WdatePicker 诱发 “无法打开站点,已终止操作”错误
  15. 一个通过SOAP web service驱动ssh/telnet执行命令的小平台
  16. 首款国产8K 50P小型化广播级摄像机惊喜亮相冬季冰雪体育盛会
  17. GIF录制编辑工具(GifCam)
  18. ubuntu16.04中安装Kdevelop和使用技巧
  19. 用java做出长方体的表面积_编写java程序,输入一个长方体的长、宽、高,求长方体的表面积和体积,并将结果显示,一个长方体的...
  20. bibtex 格式文件如何导入 Endnote

热门文章

  1. 业务系统性能优化——缓存
  2. 爱奇艺视频千万级生产 Kubernetes 集群优化实践!
  3. 晒一波程序员的工位,你中意哪一款?
  4. 深入理解JWT的使用场景和优劣
  5. Redis性能优化准则!必须遵守的十条军规
  6. 阿里老员工吐槽:新员工水平差!不服管理!还不加班!我要汇报经理让对方无法转正!...
  7. Leader每天996,绩效被打C!CTO说,团队带不好,原因只有一个
  8. 又来搞事情了,这次女友让我研究如何实现一个文件系统
  9. 来自顶尖JAVA程序猿的焦虑,拒绝中年危机,唯有一生力学笃行
  10. 伟大公司为什么都考核价值观?