编辑/绿萝

去年,麻省理工学院(MIT)的研究人员开发出了「液体」神经网络,其灵感来自小型物种的大脑,不仅能在训练阶段学习,而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定价。

但是随着神经元和突触数量的增加,这些模型的计算成本变得越来越高,需要笨拙的计算机程序来解决其潜在的复杂数学问题。

现在,同一个研究团队发现了一种缓解这一瓶颈的方法,即通过求解两个神经元通过突触相互作用背后的微分方程,解锁了一种新型快速高效的 AI 算法——「封闭式连续时间」(CfC) 神经网络。这些模型具有与液态神经网络相同的特征:灵活、因果关系、稳健性和可解释性,但速度快几个数量级且可扩展。因此,这种类型的神经网络可用于任何涉及随着时间的推移深入了解数据的任务。

「我们称之为 [CfC] 的新机器学习模型用封闭形式近似取代了定义神经元计算的微分方程,保留了液体网络的美丽特性,而不需要数值积分,」该研究的主要作者 Daniela Rus 教授说,「CfC 模型具有因果性、紧凑性、可解释性,并且可以高效地进行训练和预测。它们为安全关键型应用程序开辟了可信赖的机器学习之路。」

该研究以「Closed-form continuous-time neural networks」为题,于 2022 年 11 月 15 日发布在《Nature Machine Intelligence》上。

论文链接:https://www.nature.com/articles/s42256-022-00556-7

由常微分方程 (ODE) 构建的连续神经网络架构,可用于对具有复杂动态的数据进行建模。这些模型将静态神经网络的深度维度和递归神经网络 (RNN) 的时间维度转换为连续向量场,从而实现非均匀采样数据的参数共享、自适应计算和函数逼近。

虽然基于 ODE 的神经网络具有精心的记忆和梯度传播设计,但在相对较小的基准测试中与先进的离散循环模型相比具有竞争力,但由于使用了先进的数值微分方程 (DE) 求解器,它们的训练和推理速度很慢。随着数据、任务和状态空间的复杂性增加(即需要更高的精度),这就变得更加麻烦。

在这里,该研究团队推导出一个封闭的连续深度模型,它具有基于 ODE 的模型的建模能力,但不需要任何求解器来建模数据。

图 1:神经和突触动力学。(来源:论文)

在这项工作中,研究人员用相应的非线性算子替换描述神经元与其输入非线性突触连接的相互作用的非线性 DE 的积分(即解)。这在原则上可以使用函数式泰勒展开来实现。然而,在液态时间常数 (LTC) 网络的特定情况下,可以利用封闭形式的表达式来表示系统对输入的响应。

所提出的连续神经网络产生了相当快的训练和推理速度,同时与基于 ODE 的对应网络一样具有表现力。研究人员为一类明确模拟时间的连续神经网络提供了近似封闭形式解的推导。

研究人员应用线性 ODE 理论来分析求解 LTC DE 的动力学。然后,剖析所获得的封闭形式解决方案的属性,并设计一类新的神经网络模型,称之为封闭形式连续深度网络 (CfC)。CfC 在其公式中具有明确的时间依赖性,不需要数值 ODE 求解器来获得它们的时间展开。因此,它们最大限度地平衡了求解器的准确性和效率。

表 1:模型的计算复杂度。

与基于 ODE 的同类算法相比,这种明确的时间依赖性允许 CfC 在训练和推理时间方面至少快一个数量级,而不会损失准确性。

图 2 显示了一个基于 LTC 的自动驾驶训练网络。进一步说明了在给定相同参数化的情况下,所提出的解决方案与单神经元 ODE 所展示的实际动力学有多接近。

图 2:封闭形式解在实践中的紧度。(来源:论文)

近似于 LTC 网络的封闭形式解决方案,同时在很大程度上保留了其等效 ODE 系统的轨迹。研究人员将其解决方案开发成 CfC 模型,在复杂时间序列预测任务的训练和推理方面,该模型至少比神经 ODE 快 100 倍。

此外,CfC 在一系列任务上的表现优于最先进的同类模型,在通过运动传感器识别人类活动、模拟步行机器人的物理动力学建模以及基于事件的顺序图像处理方面具有更高的速度和性能。例如,在一项医学预测任务中,新模型在 8,000 名患者的样本中速度提高了 220 倍。

图 3:PhysioNet。(来源:论文)

使用互联网电影数据库(IMDB,包含 25,000 个训练句和 25,000 个测试句)进行情感分析,CfC 优于高级 RNN 基准测试。

图 4 :IMDB 数据集的结果。(来源:论文)

在物理动力学建模中,CfC 的性能大大优于其他基线,这支持了它们对不规则采样的物理动力学进行建模并具有缺失相位的强大能力。值得一提的是,在这项任务中,CfCs 甚至以 18% 的优势明显优于 transformer。

表 3:每个时间步的回归。(来源:论文)

CfC 在自动驾驶中能够稳健地学习执行自主导航,CfC 与 ODE 具有相似的稳健性。此外,与 NCP 类似,CfC 具有参数效率。他们在其 RNN 组件中使用大约 4,000 个可训练参数执行端到端自主车道保持任务。

图 5 :车道保持模型的参数计数。(来源:论文)

「基于微分方程的神经网络系统很难求解并扩展到例如数百万和数十亿个参数。获得神经元如何相互作用的描述,而不仅仅是阈值,但解决细胞之间的物理动力学使我们能够建立更大规模的神经网络,」Hasani 说。「这个框架可以帮助我们解决更复杂的机器学习任务,实现更好的表示学习,并且应该成为任何未来嵌入式智能系统的基本构建块。」

Boeing 公司 Aurora Flight Sciences 的人工智能和机器学习小组负责人 Sildomar Monteiro 说:「最近的神经网络,例如神经 ODE 和液体神经网络,都有由表示无限潜在状态的特定动力系统组成的隐藏层,而不是显式的层堆栈。」

「这些隐式定义的模型已经显示出最先进的性能,同时需要的参数比传统架构少得多。但是,由于训练和推理所需的高计算成本,它们的实际采用受到限制。」他补充说,这篇论文「显示了这类神经网络的计算效率有了显著提高……且有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。」

相关报道:https://techxplore.com/news/2022-11-brain-dynamics-flexible-machine-learning.html

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...相关推荐

  1. 连续时间动态主题模型(Continuous Time Dynamic Topic Models, cDTM)

    用于分析和管理大量电子文档的工具变得越来越重要.近年来,离散数据的分层贝叶斯模型,已成为一种广泛使用的文本探索和预测分析方法. 主题模型,例如潜在Dirichlet分配(LDA)和更一般的离散分量分析 ...

  2. 普通心理学神经网络学说,大脑神经网络学说

    心理学中定位说和模块说的区别是?整体说和神经网络学说的区别是?模块说和神经网络学说的区别是? 简单说下,希望对你有帮助.定位说认为:大脑的具体功能是对应具体的部位.模块说认为:大脑的具体功能是由多个部 ...

  3. 《强化学习周刊》第30期:Deep Mind开展人机交互的新试点研究、MIT提出神经进化优化框架...

    No.30 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  4. AI生成高数题,难出新高度:MIT提出首个可出题、做题、评分的算法模型

    你的考卷,也有可能是机器生成的. 前段时间,DeepMind 的一项研究登上<Nature>封面,通过引导直觉解决了两大数学难题:之后,OpenAI 教 GPT-3 学会了上网,能够使用基 ...

  5. 【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

    根据看到的图像来回答问题,需要在图像识别和分类的基础上再进一步,形成对图中物体彼此关系的推理和理解,是机器完成复杂任务所需的一项基本能力,也是视觉研究人员目前正在努力攻克的问题. 最近,在视觉推理任务 ...

  6. AAAI 2023 | LipCDE: 连续时间观测下的因果效应推断

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 曹德福: 南加州大学(USC)Melady Lab 二年级博士生,研究方向包括因果推断和时间序列,已发表包含NeurIPS,  ICLR ...

  7. CLINS: 基于激光-惯性系统的连续时间轨迹估计(IROS 2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:CLINS: Continuous-Ti ...

  8. 方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似

    来源:机器之心 本文约2700字,建议阅读6分钟 人和机器都是这样组织语言的. 「人工智能网络并没有试图直接模仿大脑,然而最终看起来像大脑一样,这在某种意义上表明,人工智能和自然之间发生了某种趋同演化 ...

  9. 为什么深层神经网络难以训练_“用魔法击败魔法”?一群计算神经学家正借神经网络解释大脑...

    原文:Deep Neural Networks Help to Explain Living Brains [1] 作者:Anil Ananthaswamy(科普作家) 译者:Yang 2011 年冬 ...

最新文章

  1. 【数据结构】二叉排序树
  2. 怎么查看linux服务器有cpu
  3. 运算符sizeof_C程序通过使用sizeof()运算符对数组元素进行计数
  4. 《大数据》2015年第2期“研究”——大数据时代的数据传输网
  5. JAVA 测试日期的不同显示格式
  6. 调试 高通_高通平台调整通话音量
  7. 甲骨文Java Archive
  8. 想念你 2012-10-24 23:27
  9. python cprofile_Python Profilers 分析器
  10. Java Web学习视频
  11. git2.28下载 GIT2.28新版本网盘下载
  12. Android音频开发(二):录制音频(WAV及MP3格式)
  13. linux centos 权限审核 polkitd进程 简介
  14. 【图】公路车为什么最好不要用脚撑
  15. 用参数方程绘制椭球体
  16. 《蜗居》经典台词100句
  17. Codeforces Round #548 (Div. 2) C. Edgy Trees(dfs || 并查集)
  18. Tomcat——配置Tomcat的服务端口(默认端口8080)
  19. 区块链vs.DAG, 区别到底是什么? 一文读懂烧脑的数据结构之争
  20. Maven中setting文件的配置

热门文章

  1. H3CNE最新版官网考试模拟题库
  2. Android Studio简单页面设计
  3. go unrecognized relocation (0x2a) in section `.text‘问题
  4. 微信自动回复功能怎么实现?
  5. 虚拟机网络连接的三种方式
  6. cad2020 开始_CAD2020这些功能增强,需要软件学习的朋友进来领
  7. Windows 环境下安装 Yapi 教程
  8. mysql 时区设定_教你如何修改mysql时区的问题
  9. photoshop中给矩形做圆角的方法
  10. macos安装iTouch踩过的雷