来源:AI科技评论本文约3500字,建议阅读5分钟
本文介绍了图论的新维度,利用数据驱动的数学理论去解决更复杂的关系。

用由点和线组成的网络形式对现实世界建模,是自18世纪以来采用的主流方法。但随着大数据的出现,研究人员开发了更多的数学工具,在大量的计算机资源加持下,数学研究不断被发现。

正如科罗拉多大学博尔德分校的计算机科学家Josh Grochow说的那样:“整个领域经历了一个令人兴奋的快速增长期。”,“毕竟,新网络模型的出现,让我们有能力在大数据的噪音中找到有价值的东西:复杂的结构和信号。”

在之前,业界往往用数学分支中的图论表示两个事物中的关系。但当涉及到大数据时候,需要关系并不能用简单的二元关系来表示,换句话说,传统的图论思维表现出了“短板”。

例如尝试建立一个关于养育子女的网络模型。图论能表现出父母与孩子的联系,但是对于同侪压力等群体效应往往束手无措,即二元网络并不能捕捉到群体的影响。再例如,如果一位药理学家想模拟药物相互作用,图论可能会显示两种药物如何相互反应。但三种药物呢?或者四种呢?

对于群体效应等的描述,数学家和计算机科学家发明了"高阶互动 "一词。从量子力学中的相互作用到疾病在人群中传播的轨迹,这些"高阶互动 "的数学现象遍布各个方面。

最近几年,高维数据集成为探索的引擎,给数学家和网络理论家带来新思路。对于图论表示“高阶互动”有了新的研究成果。最直观的表现是一些数学家已经意识到:从数学角度来看,我们以为的数据结构并不完全适合我们在数据中看到的情况。

Emilie Purvine

"网络只是事物的影子,"Grochow表示。如果一个数据集有一个复杂的基础结构,那么把它作为一个图来建模可能只揭示了整个故事的有限投影。

1 进入超图(Hypergraph)

寻找高维结构使数学变得特别模糊而有趣。例如,图的“高阶类似物”被称为超图。结合图,可以理解到超图就是每一个边可以包含两个以上的点所构成的图,这意味着它可以代表多向(或多线性)关系。

超图的边(Hyperedge)可以被看作是一个表面,而不是一条线,就像在三个或更多地方钉了一块油布一样。

超图如何从大数据集中挖掘关系类型?以科学出版为例,想象两个数据集,每个数据集都包含最多由三位数学家共同撰写的论文;为了简便,我们把它们命名为A、B和C。一个数据集包含六篇论文,其中三个不同的二人合著组(AB、AC和BC)各写了两篇论文。另一个数据集只包含两篇论文,每篇都是由三位数学家合著的(ABC)。

从这两组数据中提取的合著关系图可能看起来像一个三角形,显示每个数学家(三个节点)都与另外两个数学家(三个链接)合作过。当然,如果只有“谁与谁合作”这一个问题,那么就不需要超图。

超图可以回答关于不明显结构的问题。例如,第一个数据集的超图(有六篇论文)可能包括显示每个数学家对四篇论文有贡献的超边。对两组超图的比较将表明,第一个数据集中的论文作者不同,但在第二个数据集中是相同的。

这种高阶方法在应用研究中已经被证明是有用的。例如,20世纪90年代,生态学家展示了向黄石国家公园重新引进狼群时,生物多样性和食物链结构的变化过程。在最近的一篇论文中,美国西北太平洋国家实验室的数学家milie Purvine和她的同事分析了一个病毒感染的生物反应数据库,使用超图来确定所涉及的最关键基因。在论文中,他们还展示了这些相互作用是如何被图论提供的通常成对分析遗漏的。

康奈尔大学的Austin Benson最近使用高阶马尔科夫链和张量模拟了纽约市的出租车行程。虽然仍有改进空间,但结果比传统的马尔科夫链要好。

然而,从图到超图的泛化很快就会变得复杂。例如图论中的规范切割问题,该问题问道:"给定一个图上的两个不同的节点,你最少可以切割多少条边来完全切断两者之间的所有联系?给定一个图上的两个不同的节点,要完全切断这两个节点之间的所有联系,你能切断的最少的边数是多少?许多算法可以很容易地找到给定图形的最佳切割数。

但是如何切割超图呢?康奈尔大学的数学家Austin Benson说:“有很多方法可以将这种切割的概念推广到超图中。但没有一个明确的解决方案”,他说“因为超边可以以各种方式被切断,创造出新的节点组”。

最近,Benson 与两位同事一起,尝试将分割超图的所有不同方式正式化。但对于某些情况,这个问题基本上是无法解决,或者说无法确定是否存在解决方案。

2 数学三明治

超图并不是探索高阶互动的唯一方法。拓扑学是一种对几何属性的数学研究,其假设是:当你拉伸、压缩或以其他方式转换对象时,这些属性不会改变。拓扑学提供了一种更直观的方法。当拓扑学家研究一个网络时,他们寻找形状、表面和尺寸。他们可能会注意到连接两个节点的边是一维的,并询问不同网络中一维物体的属性。或者他们可能会看到连接三个节点所形成的二维三角形表面,并提出类似的问题。

拓扑学家把这些结构称为 simplicial complexes。实际上,这是通过拓扑学的框架来看的超图,神经网络提供了一个很好的例子。它们由旨在模仿我们大脑的神经元如何处理信息的算法驱动。图形神经网络(GNNs)将事物之间的连接建模为成对连接,擅长推断大数据集中缺失的数据,但在其他应用中,它们可能会错过仅由三个或更多群体产生的相互作用。近年来,计算机科学家开发了 simplicial neural networks,它使用高阶复数来概括GNN的方法,以求发现这些效应。

simplicial complexes 将拓扑学与图论联系起来,与超图一样,它们提出了引人注目的数学问题。例如,在拓扑学中,simplicial complexes 的特殊类型的子集本身也是simplicial complexes ,因此具有相同的属性。如果超图也是如此,子集将包括其中的所有超边——包括所有嵌入的双向边。

但情况并非总是如此。“我们现在看到的是,数据落入了中间地带,你可以进行三向互动,但不是成对的互动。”Purvine表示,“大数据集已经清楚地表明,无论是在生物信号网络中还是在同行压力等社会行为中,群体的影响往往远远超过个人的影响”。

Purvine将数据描述为数学三明治的中间部分,上限是拓扑学思想,下限是图论。

3 随机游走和矩阵

这种创造性的 "游戏 "感也延伸到了其他工具。在图和其他描述数据的工具之间存在着各种美妙的联系。但是一旦你转移到高阶设置,这些联系就难以出现了。当你试图考虑马尔科夫链的高维版时,这一点尤其明显。

马尔科夫链描述了一个多阶段的过程,其中下一阶段只取决于元素的当前位置;研究人员已经使用马尔科夫模型来描述信息、能量甚至金钱等事物如何在一个系统中流动。马尔科夫链最著名的例子也许是随机漫步,它描述了一条路径,其中每一步都是由之前的步骤随机决定的。随机漫步也是一个特定的图。任何沿着图的轨迹都可以显示为一个沿着链接从节点到节点的序列。

但如何扩大像步行这样简单的东西呢?研究人员转向高阶马尔科夫链,它不仅取决于当前的位置,还可以考虑许多以前的状态。这种方法已被证实对网络浏览行为和机场交通流等系统的建模非常有用。

Austin Benson

正如前文所言,Austin Benson最近描述了一个新的随机过程模型,该模型将高阶马尔科夫链与张量结合起来。用纽约市的出租车乘坐数据集对其进行了测试,以了解其预测轨迹的能力。结果是喜忧参半:模型对出租车运动的预测比通常的马尔科夫链要好,但这两个模型都不是很可靠。

张量本身是研究高阶相互作用的另一种工具,近年来已经开始发挥作用。要理解张量,首先考虑矩阵,它将数据组织成行和列的数组。现在想象一下由矩阵组成的矩阵,或者不仅有行和列,还有深度或其他维度的数据的矩阵。这些都是张量。如果每个矩阵都对应于一个音乐二重奏,那么张量将包括所有可能的乐器配置。

对物理学家来说,张量并不新奇,例如用来描述一个粒子的不同可能的量子态。但网络理论家采用这一工具来提高矩阵在高维数据集中的能力。

4 什么时候用超图?

前文所述,Benson不确定的出租车模型表现出一个普遍存在的问题:研究人员何时真正需要超图这样的工具?在许多情况下,如果条件合适,超图将提供与图完全相同的预测和分析。"亚琛工业大学的Michael Schaub问道:"如果某些东西已经被封装在网络中,是否真的有必要对系统进行建模为高阶?

这取决于数据集,图是社交网络的一个很好的抽象,但社交网络是如此之多。对于高阶系统,有更多的方法可以建模。例如,图论可能会显示个人是如何连接的,但不能捕捉到社交媒体上的朋友群是如何影响彼此的行为的。

同样的高阶互动不会出现在每一个数据集中,所以奇怪的是,新理论是由数据驱动的:这挑战了数学的基本逻辑。

Purvine表示,"我喜欢数学的原因是它是基于逻辑的,如果你遵循正确的方向,你会得到正确的答案。但有时,当你定义整个数学的新领域时,会有种主观性,即什么是正确的方法。"她说,"如果你不承认有多种方法,你可能会把社区推向错误的方向。"

但对工具的探索代表了一种自由,不仅允许研究人员更好地理解他们的数据,而且允许数学家和计算机科学家探索新的可能性世界。有无尽的东西可以探索,这很有趣,也很美妙,是很多伟大问题的来源。

编辑:王菁

校对:林亦霖

图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具相关推荐

  1. 深入理解张正友相机标定法:数学理论详细推导

    最近在项目中需要在激光雷达(Lidar)和相机(Camera)之间进行标定,即需要标定出相机内参和外参,使用的标定方法是张正友标定法,这里给出其数学理论推导过程. 论文原文:<A Flexibl ...

  2. 计算机科学数学理论浅谈 (转载)

    [来源:TSTC文档中心] 计算机自从其诞生之日起,它的主要任务就是进行各种各样的科学计算.文档处理,数据处理,图像处理,硬件设计, 软件设计等等,都可以抽象为两大类:数值计算与非数值计算.作为研究计 ...

  3. 数学教育与计算机教育的新讲座的心得体会,数学新课程培训心得体会(精选7篇)...

    数学新课程培训心得体会(精选7篇) 当我们经过反思,对生活有了新的看法时,有这样的时机,要好好记录下来,这么做可以让我们不断思考不断进步.那么如何写心得体会才能更有感染力呢?下面是小编为大家收集的数学 ...

  4. 神经网络的数学方法及应用,神经网络的数学理论

    神经网络算法原理 4.2.1 概述人工神经网络的研究与计算机的研究几乎是同步发展的. 1943年心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型,20世纪50年代末,Rose ...

  5. 计算机科学数学理论浅谈

    计算科学数学理论浅谈 以前,总是对于数学的学习嗤之以鼻,认为没有很大的实用性,这也是为何后来跨专业考研的一个重要动机,但是随着后续学习的深入,逐渐体 会到了数学在现实工作中的分量,而这种对思考的能力的 ...

  6. 菲尔兹奖数学家丘成桐:人工智能中的数学理论尚无很大突破

    来源:机器人 10月17日,在2019中关村论坛上,菲尔兹奖首位华人获得者.美国国家科学院院士.哈佛大学教授丘成桐发表主旨演讲.他呼吁国家应重视基础科学和数学的发展.一个国家的强大和长治久安,离不开强 ...

  7. 走近分形与混沌(part11)--一个新概念、新理论的诞生往往伴随着新常数的出现

    学习笔记 学习书目:<蝴蝶效应之谜:走近分形与混沌 >-张天蓉: 文章目录 倍周期分岔 费根鲍姆常数 倍周期分岔 罗伯特·梅,将混沌魔鬼的诞生归结为系统周期性的一次又一次突变.或者,用一个 ...

  8. 软件测试需要会python吗_真实揭秘90后职业新选择:25岁刚入行软件测试,竟拿到这么多薪资……...

    原标题:真实揭秘90后职业新选择:25岁刚入行软件测试,竟拿到这么多薪资-- 我叫王大壮,万万没想到,毕业3年后我成为了一名有钱的软件测试员. 我的工作经历不算坎坷波折,高考后顺利的考上了上海某二本学 ...

  9. 神经网络的数学表达式,神经网络的数学理论

    神经网络(深度学习)的几个基础概念 从广义上说深度学习的网络结构也是多层神经网络的一种.传统意义上的多层神经网络是只有输入层.隐藏层.输出层.其中隐藏层的层数根据需要而定,没有明确的理论推导来说明到底 ...

最新文章

  1. 原生js实现Object.assign和Object.create
  2. MySql命令行创建和删除触发器
  3. 【python】数据结构和算法 + 浅谈单链表与双链表的区别
  4. Idea怎么实现画类图
  5. crontab命令详解
  6. 怎么将pom文件mysql驱动修改版本_JDBC-MySql基础操作详解
  7. python绘制密度图
  8. 阶段3 2.Spring_05.基于XML的IOC的案例1_4 注解IOC案例-把自己编写的类使用注解配置...
  9. 工作完成了,切勿激动,一定要先求证
  10. Unity WebGL基于js通信实现网页录音
  11. 点歌APP开发解决方案详解
  12. 解决stm32下载错误 “Could not stop Cortex-M device.Please check the JTAG cable.“
  13. python-数据分析(3-Matplotlib之各种图形应用)
  14. 空间辐射环境 - 银河宇宙线
  15. 同轴电缆阻抗总结(电阻、阻抗、特性阻抗)
  16. 轩小陌的Python笔记-day26 必备SQL语句、表关系及授权
  17. (毕业设计资料)基于单片机GPS轨迹定位和里程统计系统
  18. 考研英语作文万能句子模板50个
  19. 联邦学习框架 FederatedScope(1)快速入门
  20. Hexo博客设置文章加密

热门文章

  1. ObjectARX创建新图层的注意事项
  2. 万死一生,社交APP如何与微信巨鲸共舞?
  3. 方法论分享之:刻意练习,微小改进
  4. Markdown 从入门到精通
  5. 大学计算机高海波目录,华中师范大学
  6. error: invalid initialization of reference of type ‘plb::MultiContainerBlock3D’ from expression of
  7. 服务器系统意外关机 id41,Windows内核事件ID 41.系统已重新启动,无需首先关闭 | MOS86...
  8. UWB定位基站铺设原则简析
  9. CAD初学者的基本工具和技巧
  10. 古月居ROS入门21讲——9.创建工作空间与功能包