点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:机器之心

来自上海交通大学的卢策吾教授团队多年来致力于行为理解研究,最新成果已发表在《自然》上。

当行为主体在执行某个行为时,其大脑是否产生了对应的稳定脑神经模式映射?如果存在稳定映射,是否能运用机器学习方法发现未知行为神经回路?

为了回答这一系列行为理解的本质问题,近日一项发表在国际顶级学术期刊Nature《自然》上的工作对行为理解机理进行了研究。该论文的两位共同通讯作者为上海交通大学的卢策吾教授与Salk研究院Kay M. Tye教授。

Complex sequential understanding through the awareness of spatial and temporal concepts

论文链接:https://www.nature.com/articles/s41586-022-04507-5

该成果基于计算机视觉技术定量阐释了机器视觉行为理解与脑神经的内在关联,并首次建立了其稳定映射模型。形成计算机视觉行为分析发现行为神经回路这一运用人工智能解决神经科学基础问题的新研究范式,具体为计算机智能算法通过大规模对小鼠社交和竞争行为视频的理解,发现了控制 “动物社会层级(Social Hierarchy)行为”的神经回路,面向回答哺乳动物是如何判断其他个体与自己在社会群体地位高低并做出行为决策的问题,其形成的新研究范式也进一步推动了人工智能与基础科学问题前沿交叉(AI for Science)领域的发展。

具体研究内容如下:

图1. 视觉行为检测-脑神经信号关联模型:(a)小鼠视觉行为理解(b)系统框架与模型学习。

视觉行为检测-脑神经信号关联模型:我们以小鼠群为实验对象,为每只小鼠佩戴无线电生理记录设备,以记录社交活动中的特定脑区内侧前额叶皮层 (mPFC)的序列脑神经信号。同时,通过多个摄像头跟踪定位每只小鼠,基于卢策吾教授团队研究开发的姿态估计(如alphapose)与行为分类研究成果提取行为语义标签,达到小鼠的姿态估计准确率高于人眼水平。基于提出系统自动采集的大量数据,隐马尔可夫模型训练从“小鼠mPFC脑区的神经活动信号”到“行为标签”的回归模型,发现训练后在测试集上仍然有稳定映射关系,揭示了行为视觉类型与其行为主体大脑中的脑神经信号模式存在稳定的映射关系。

模型应用:控制动物社会层级(Social Hierarchy)行为神经回路发现:基于视觉行为检测-脑神经信号关联模型,我们可以发现新的行为神经回路。“动物社会层级”行为神经控制机理(比如,低等级小鼠会让高等级小鼠优先进食,低等级小鼠会表现出服从行为)一直是学界重要问题,即哺乳动物是如何判断其他个体与自己的社会群体地位高低的?其背后的神经控制机制是怎么样的?由于动物社会层级行为是复杂行为概念,该问题一直为学界未所突破的难题。我们在大规模的小鼠群体竞争视频中,定位 “动物社会层级”行为基于上述系统和模型,并同时记录到动物社会层级行为的脑部活动状态,深度解析了动物社会层级行为在大脑中的形成机制,即发现内侧前额叶皮层-外侧下丘脑(mPFC-LH)回路具有控制动物社会层级行为的功能,并得到严格生物学实验的证实。该研究形成了基于机器视觉学习发现未知行为功能神经回路的新研究范式,也进一步推动了人工智能解决基础科学问题(AI for Science)的发展。

卢策吾团队行为理解研究

上述工作是卢策吾团队多年的行为理解方面积累的一部分。机器如何理解行为,需要全面地回答以下三个问题:

1. 机器认知角度:如何让机器看懂行为?

2. 神经认知角度:机器认知语义与神经认知的内在关联是什么?

3. 具身认知角度:如何将行为理解知识迁移到的机器人系统?

图2. 卢策吾团队围绕行为理解主要工作

此次在《自然》上发表的工作正是想回答第二个问题,对于其他两个问题团队主要工作有:

1、如何让机器看懂行为?

主要工作包括:

  • 人类行为知识引擎HAKE(Human Activity Knowledge Engine)

为探索可泛化、可解释、可扩展的行为识别方法,要克服行为模式和语义间的模糊联系、数据分布长尾等问题。区别于一般的直接深度学习“黑盒”模式,团队构建了知识引导与数据驱动的行为推理引擎HAKE(开源网站:http://hake-mvig.cn/home/):

图3. HAKE系统框架

HAKE将行为理解任务分为两阶段,首先将视觉模式映射到人体局部状态原语空间,用有限且接近完备的原子的原语表达多样的行为模式;随后将原语依据逻辑规则进行编程,以可推理行为语义。HAKE提供了大型的行为原语知识库以支持高效的原语分解,并借助组合泛化和可微神经符号推理完成行为理解,具有以下特点(发表TPAMI,CVPR等计算机视觉顶刊顶会十余篇):

(1)规则可学习:HAKE可根据少量人类行为-原语的先验知识进行逻辑规则的自动挖掘和验证,即对原语组合规则进行总结,并在实际数据上进行演绎验证,以发现有效且可泛化的规则,发现未知行为规则,如图4。

图4. 学习未见行为规则

(2)人类性能upper bound:在87类复杂行为实例级别行为检测测试集(10,000张图像)上,具备完备原语检测的HAKE系统的性能甚至可接近人类的行为感知性能,验证了其巨大潜力。

(3)行为理解“图灵测试”:

图5. 让机器(HAKE)和人类抹去部分像素使得无法理解图中行为,图灵测试表明,HAEK的“抹去手法”和人类十分相似。

我们还提出了一种特殊“图灵测试”:若机器可以从图像中抹去关键像素,使得人类被试者也无法分辨该行为时,即认为其可以较好地理解该行为。分别让HAKE和人类去做这种抹去操作。并请另一批志愿者做图灵测试,问这个抹去操作是人类还是HAKE操作。人类分辨的正确率约为59.55%(随机猜50%),说明HAKE的“抹去手法”和人类十分相似,侧面印证了在行为“可解释性”的理解上与人类相近。

  • 行为对象可泛化的脑启发计算模型(《自然•机器智能》)

对于某个特定行为(如“洗”),人类大脑能抽象出泛化的行为动态概念,适用于不同的视觉对象(如衣服、茶具、鞋),并以此做出行为识别。神经科学领域研究发现,对于连续视觉信号输入,在人类的记忆形成过程中,时空动态信息与物体对象信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆,这个带来行为对象可泛化的可能性。

图6. 解耦合地处理行为对象概念和行为动态概念,带来的泛化性。

基于脑科学启发,卢策吾团队通过模仿人类的认知行为对象与动态概念在各种脑区独立工作的机制,提出了适用于高维度信息的半耦合结构模型(SCS),实现自主发掘(awareness)行为视觉对象概念与行为动态概念,将两种概念分别记忆存储在相对独立的两部分神经元上。在深度耦合模型框架下设计信息独立误差反传(decouple back-propagation)机制,约束两类神经元只关注自己的概念,初步实现了行为理解对行为主体对象的泛化。所提出半耦合结构模型工作发表在《自然•机器智能》,并获得2020年世界人工智能大会优秀青年论文奖。

视频序列                                 对象神经元       动态神经元

图7.可视化表征“视觉对象”与“行为动态概念”的神经元《自然•机器智能》

  • 人体姿态估计

人体姿态估计是行为理解的重要基础,该问题是一个在结构约束下获取精准感知的问题,围绕结构约束下感知问题,提出图竞争匹配、姿态流全局优化、神经-解析混合的逆运动优化等算法,系统性地解决人体运动结构感中密集人群干扰大、姿态跟踪不稳定、三维人体常识性错误严重等难题,前后发表CVPR,ICCV等计算机视觉顶会论文20多篇;

图8. 结构感知的工作。

相关研究成果积累形成开源系统AlphaPose(https://github.com/MVIG-SJTU/AlphaPose),在开源社区GitHub上获得5954 Star(Fork数为1656),GitHub排名前十万份之1.6。被传感器领域、机器人领域、医学领域、城市建设领域广泛使用。在姿态估计后,团队进一步形成开源视频行为理解开源框架Alphaction(https://github.com/MVIG-SJTU/AlphAction)。

2、如何将行为理解知识迁移到的机器人系统?

探索结合第一人称角度理解人类行为本质,从单纯考虑“她/他在做什么”到联合考虑“我在做什么”。这种研究范式也正是 “具身智能”(Embodied AI)的研究思路。探索将该理解能力与学习得到的行为知识迁移到具身智能本体(人形机器人),使机器人初步具有“人类行为能力”,最后驱动机器人完成真实世界的部分任务,为通用服务机器人奠定基础。以上科学问题的解决将:(1)大大提高行为语义检测性能和提升语义理解范围;(2)有力地提高智能体(特别是人形机器人)对真实世界的理解能力,同时根据完成任务过程中真实世界的反馈检验机器对行为概念本质的理解程度,为通用智能机器人的实现打下重要基础。

近年来卢策吾团队在具身智能领域联合非夕科技构建通用物体抓取框架GraspNet(https://graspnet.net/anygrasp.html),实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取,首次将PPH(picks per hour)指标超越人类水平,为之前性能最优的DexNet算法的三倍,相关论文发表一年内被引用70次。物体抓取是机器人操作的第一步,为该项目打下良好基础。

机器人行为-物体模型交互感知

实现机器人行为执行能力与物体知识理解联合学习与迭代提高,通过机器人交互本质上降低物体模型感知估计误差,并基于物体知识的理解进一步提高机器人行为执行能力。比起之前纯视觉物体识别,交互带来新的信息源,带来感知性能本质提高。如图9与视频所示,

图9. 物体知识模型-机器人行为决策迭代提高

图10. 交互感知:机器人行为能力(上图)与模型理解能力(下图)联合学习 (边执行行为,边提高纠正感知)

相关工作是发表在ICRA 2022上的论文《SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning》(SAGCI 系统:面向样本高效、可扩展、可组合和可增量的机器人学习框架)。

  • 网站:https://mvig.sjtu.edu.cn/research/sagci/index.html

  • 视频:https://www.bilibili.com/video/BV1H3411H7be/

卢策吾,上海交通大学教授,博士生导师,研究方向为人工智能。2018年被《麻省理工科技评论》评选为中国35岁以下创新精英35人(MIT TR35),2019年获求是杰出青年学者。

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号整理不易,请点赞和在看

上海交大卢策吾团队在Nature上发表行为理解最新研究成果!相关推荐

  1. 姿态估计对maskrcnn的优化,姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

    转 2018年02月05日 14:29:24 zchang81 阅读数:3334 查看全文 http://www.taodudu.cc/news/show-5238019.html 相关文章: 上海交 ...

  2. 姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

    由上海交通大学卢策吾团队发布的开源系统AlphaPose近日上线,该开源系统在标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%.Mask-RCNN是2017年以来计算机 ...

  3. 培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48

    来源:前沿科技 编译:OGAI 编辑:陈彩娴 ImageNet 的出现极大推动了计算机视觉领域的发展.在通往强人工智能的路上,我们还需要考虑物体的外观.结构.物理性质.语义等因素.为此,上海交大卢策吾 ...

  4. 庞博 上海交大计算机系,上海交大电子信息与电气工程学院卢策吾团队在人工智能《自然》子刊提出时空概念提取算法...

    引言:近期,上海交通大学电子信息与电气工程学院在<自然>机器智能杂志子刊上发表关于高维度视觉序列理解上的研究成果<Complex sequential understanding t ...

  5. 南科大计算机成果,南科大何佳清教授团队在《Science》发表SnSe热电材料最新研究成果...

    2018年5月18日,国际顶尖学术期刊<Science>发表了主要由南方科技大学物理系和北京航空航天大学材料学院共同完成的题为"3D charge and 2D phonon t ...

  6. 港科夜闻|香港科大唐本忠院士团队整合最新研究成果:刺激响应型聚集诱导发光材料...

    关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1.香港科大唐本忠院士团队整合最新研究成果:刺激响应型聚集诱导发光材料.香港科大唐本忠院士和浙江大学团队,从不同刺激响应类型,如力.光.极性.温度 ...

  7. 潘建伟团队最新研究成果登上Nature:首次实现1120公里长距离无中继纠缠量子密钥分发...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 量子通信,又获里程碑式突破. 这一次,依然来自潘建伟教授团队-- "墨子号"量子科学实验卫星,实现了1120公里长距离无 ...

  8. 赵旭计算机论文,上海交通大学赵旭教授团队在计算机视觉顶级期刊上发表最新研究成果...

    近日,自动化系赵旭教授团队硕士研究生宋潇.方良骥.胡翰文在International Journal of Computer Vision (IJCV) 上在线发表研究论文"EdgeSter ...

  9. 如何在nature上发表文章

    Nature杂志编辑的信将向一篇论文的作者提供如下意见: .该论文被采用发表,作者无需作进一步的修改.但实际中,这种情况极少存在. .一旦作者按审稿员的评述作一些修改后,原则上该论文就会被录用发表.在 ...

最新文章

  1. 作弊翻车!Kaggle 大赛第一团队获最严处分
  2. -bash: ./demoapp: 无法执行二进制文件 问题解决
  3. 关于SPECjAppServer评测,您应该知道的“故事”
  4. 概率论-3.5 条件分布与条件期望
  5. JVM系列之:详解java object对象在heap中的结构
  6. 机器学习之琐碎知识(代码运行问题)
  7. 如何配置android的adb环境变量,如何配置adb环境变量?win7配置adb环境变量的方法...
  8. MySQL(8)存储过程和函数
  9. 你敢面对这样的现实吗?
  10. java中复选框组件_Java Swing JCheckBox:复选框组件
  11. Unity3D之NGUI基础6:UIButton按钮
  12. “21天好习惯“第一期-5
  13. firefox 插件配置
  14. HttpUtil工具类
  15. 计算机弹奏两只老虎爱跳舞,原神风物之诗琴乐谱大全 原神风物之诗琴谱乐谱弹奏攻略...
  16. html鼠标悬停超链接(头像、文字)显示提示信息
  17. 哈工大刘挺:自然语言处理中的可解释性问题!
  18. php控件不显示,响应式织梦后台模板辅助插件不显示插件模块不显示解决办法
  19. 简化版的校园天翼使用路由
  20. SkeyeVSS矿山采盗监控系统智能化管控非法采矿解决方案

热门文章

  1. 淘宝客api接入步骤详解
  2. python教学课件PPT Java教学课件ppt以及代码
  3. CSS @规则(详细)
  4. 无人驾驶汽车系统入门(七)——基于传统计算机视觉的车道线检测(2)
  5. 英语基本句型之简单句
  6. 状态栏电量百分比默认关闭
  7. 第8节 三个败家子(8)——天才家族
  8. Docker: docker network 容器网络
  9. java 制作简易日历_Java简易日历的实现
  10. IP-GUARD监控不到微信聊天内容了解决方案