来源:AAAI2018

概要:近期,中国科学院自动化研究所类脑智能研究中心类脑信息处理(BRAVE)研究组,在研究员张兆翔的带领下,在借鉴生物神经结构、认知机制与学习特性的神经网络建模与类人学习研究中取得了一系列突破性进展。

近期,中国科学院自动化研究所类脑智能研究中心类脑信息处理(BRAVE)研究组,在研究员张兆翔的带领下,在借鉴生物神经结构、认知机制与学习特性的神经网络建模与类人学习研究中取得了一系列突破性进展。该研究组在“视听模态的生成、融合”以及“智能体之间的知识迁移”取得了重大突破,系列成果发表在AAAI 2018上。

在“视听模态的融合”问题中,该研究组提出了有效将听觉信息融合在视频描述生成框架中的特征融合策略,并取得了理想的效果; 在“视听模态的生成”问题中,该研究组提出了一个跨模态循环对抗生成网络、一个联合对应对抗损失函数和一个动态多模态分类网络,构建出更有效的视听跨模态相互生成模型;在“智能体之间的知识迁移”问题中,该研究组将一种新类型的知识——交叉样本相似性引入到深度度量学习中,将知识形式化成一个教师和学生网络间的排序匹配问题,将经典的基于列的学习转换成排序学习算法,这一方法可大幅提高学生网络的性能,也可得到较传统方法更好的迁移性能。

1.视听模态的融合

视频描述生成在很多领域中有着潜在应用,比如人机交互、盲人辅助和视频检索。近些年来,受益于卷积神经网络CNN,递归神经网络和大规模的视频描述数据集,视频描述生成已经取得比较理想的结果。

大多数视频描述生成框架可以分为一个编码器和一个解码器,编码器对视频特征进行编码形成一个固定长度的视频特征向量,解码器基于该视频特征生成对应的视频描述子。研究者们针对定长的视频特征描述子提出了一些方法,比如对视频帧进行池化操作,下采样固定长度的视频帧,在递归网络视频特征编码阶段提取最后一个时刻的状态表示。

虽然上述方法均可生成比较合理的视频描述,但是这些模型的视频特征编码都只侧重于视觉信息而忽略了音频信息。该课题组认为,忽视声音模态会损害模型性能。比如,一个人躺在床上唱歌。大部分传统的视频描述生成方法只关注视觉信息而忽略声音信息,可能会产生语义不完整的句子:“一个人躺在床上”。如果可以将音频信息结合到模型中,就可以产生语义完整的句子“一个人躺在床上唱歌”。

2.视听模态的生成

视听模态是视频中的两个共生模态,包含相同和互补信息。利用共同信息可实现模态间的相互转换。同时,互补信息可作为先验去辅助相关工作。因此,充分利用视听模态间的共同和互补信息可以进一步增强相关任务的性能。然而,由于环境干扰和传感器故障等因素,其中的一个模态会受损或者缺失,从而带来一些严重的问题,比如消音的影片或者模糊的屏幕。如果可以基于已知模态生成缺失模态,会给许多多媒体任务带来好处。因此,课题组致力于创建有效的视听跨模态相互生成模型。

传统的跨模态相互生成方法主要存在以下几个问题,一是模态间存在严重的结构、维度和信息不对称性,导致跨模态相互生成的质量不理想。二是模态间的相互生成是独立的,具有很大的不便性。三是其训练过程并不是端到端的。

该模型包含四个子网络,分别为A-V(听觉到视觉),V-A(视觉到听觉),A-A(听觉到听觉)和V-V(视觉到视觉)子网络。每个子网络均由一个编码器和一个解码器组成。这四种子网络以对称的形式组成了两种生成路径,一种是V-A-V/A-V-A(视觉-听觉-视觉/听觉-视觉-听觉),另一种为跨模态生成路径A-A-V/V-V-A(听觉-听觉-视觉/视觉-视觉-听觉)。

受益于CMCGAN,课题组同时也提出了一个动态多模态分类网络。若输入有两个模态,则首先将它们进行融合然后输入到后续的分类网络中。若输入只有一个模态,则可基于CMCGAN生成缺失模态,然后将已知模态和缺失模态输入到后续的动态多模态分类网络中。在该研究中,研究组提出了一个跨模态循环对抗生成网络去实现跨模态的视听相互生成;提出了一个联合对应对抗损失函数将视听相互生成集成在一个统一的框架中,该损失函数不仅可以区分图像来自原始样本集还是生成集,而且可以判断(图像,声音)是否匹配;针对不同模态的输入,提出了一个动态多模态分类网络。

3.智能体之间的知识迁移

度量学习是许多计算机视觉任务的基础,包括人脸验证,行人再识别等。近年,基于度量损失函数指导的端到端深度度量学习取得了很大的成功。这些深度度量学习成功的关键因素是网络结构的强大。然而,随着所需表征特征的增强,网络结构变的更深更宽从而带来了严重的计算负担。在现实世界的许多应用如无人驾驶上,由于硬件资源的限制,使用这些网络会导致系统产生严重的延时。为保证安全性,这些系统需要实时的响应。因此,很难将最新的网络结构设计应用到该研究的系统中。

为缓解该问题,研究者们提出了许多模型加速的方法,可简单分为三类:网络剪枝,模型量化和知识迁移。网络剪枝迭代地删除对最后决策不太重要的神经元或权值。模型量化通过降低网络中权值和激活函数的表达准确性来增加了网络的吞吐量。知识迁移使用一个更大更强的老师网络去指导一个小的学生网络的学习过程。在这些方法中,基于知识迁移的方法是最具实际价值的。跟其他需要定制硬件或者实现细节的方法相比,知识迁移在没有额外开销的情况下也可得到相当的模型加速性能。

知识蒸馏和它的变体是知识迁移领域的核心方法。尽管它们所使用的知识形式不同,但都只针对于单个样本。也就是说,这些方法中的教师网络不管在分类层还是中间特征层都只为每个样本提供监督信息。所有这些方法均忽略了另外一种有价值的度量——不同样本之间的关系。这类知识同样编码了教师网络中所嵌入的空间结构。同时,该种知识所使用的实例水平的监督信息符合度量学习的目标。图4展示了研究组的动机。右上角展示了知识迁移后学生网络可以更好的捕捉图像相似性。数字0与6的相似性比数字3、4、5与6的相似性更大,因此等级更高。该研究中,课题组解决了以下几个问题:将一种新类型的知识——交叉样本相似性引入到深度度量学习中;将知识形式化成一个教师和学生网络间的排序匹配问题,将经典的基于列的学习转换成排序学习算法并致力于解决它;在不同度量学习任务上测试该方法,均可极大地提高学生网络的性能。另外,与目前的方法融合后可得到更好的迁移性能。

以上研究得到了国家自然科学基金、微软合作研究项目的资助。

图1.三种视听觉特征深度融合框架

图2.动态多模态特征融合框架

图3.动态多模态特征融合框架

图4.智能体之间的知识迁移


论文1:http://xueshu.baidu.com/s?wd=paperuri%3A%2833257eb5a4845907061a66ba980e27fe%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1711.08097v1&ie=utf-8&sc_us=8712703236201635526

论文2:http://xueshu.baidu.com/s?wd=paperuri%3A%28a24afad24a6d2ff89c7435392895d8df%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1711.08102v1&ie=utf-8&sc_us=4500673835805782186

论文3:https://arxiv.org/pdf/1707.01220


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

类脑信息处理研究取得进展相关推荐

  1. 综述 | 从第一性原理出发,探索类脑智能研究的星辰大海

    导读 近几年来,以大模型为代表的人工智能技术正在引领下一个产业发展的浪潮.目前,以ChatGPT.AlphaFold为代表的人工智能在文图生成.自然语言处理.蛋白质结构模拟等方面取得的突破性进展正在为 ...

  2. 【人工智能】人工智能院士高峰论坛~蒲慕明院士《脑科学与类脑智能研究》

    我正在参与CSDN200进20,希望得到您的支持,扫码续投票5次.感谢您! (为表示感谢,您投票后私信我,我把我总结的人工智能手推笔记和思维导图发送给您,感谢!) 新一代人工智能院士高峰论坛2019年 ...

  3. 2018新年感谢,写在互联网类脑架构研究十年的前夜

    概要:明天,是新的一年,也是我们研究互联网类脑架构,发表第一篇文章<互联网大脑进化示意图>正好10年的的日期. 2018年1月1日,是新一年的第一天,也是我们研究互联网类脑架构,发表第一篇 ...

  4. 清华“天机芯”团队再发重磅研究!以全新类脑计算系统实现通用人工智能

    关注ITValue,看企业级最新鲜.最价值报道! 10月15日,清华大学计算机系张悠慧团队和精仪系施路平团队与合作者发表一项最新类脑计算体系结构的突破性研究成果,首次提出"类脑计算完备性&q ...

  5. 中国类脑计算先行者:在AI“无人区”探路

    注:本文转载于新华社,感谢新华社采访报道 清华大学类脑计算研究中心研制的无人自行车搭载了天机芯片,可以实现自动平衡.避障.过障.目标跟踪.语音指令识别以及自主决策. 新华社北京9月23日电(记者王晨曦 ...

  6. 类脑智能:人造超级大脑

    脑科学被视为理解宇宙.自然与人类关系的"终极疆域",人类从未停止对人脑的探索,以及对其运行机制的模仿.人脑以极强的可塑性.通用性.自适应性.自组织性以及低能耗.高效率等,为人工智能 ...

  7. Nature重磅:软硬分离、图灵完备,清华首次提出“类脑计算完备性”

    来源 | 清华大学计算机系校友会 北京时间10月14日,清华大学计算机科学与技术系(以下简称"计算机系")张悠慧团队.精密仪器系(以下简称"精仪系")施路平团队 ...

  8. l2空间的完备性_什么是“类脑计算完备性”?清华团队在Nature首次提出!

    北京时间10月14日 清华大学计算机系张悠慧团队 精仪系施路平团队与合作者 在<自然>(Nature)杂志发文 首次提出"类脑计算完备性" 以及软硬件去耦合的类脑计算系 ...

  9. 计算机神经科学与类脑智能,“脑科学与类脑智能”专题发布----中国科学院

    <中国科学院院刊>发表"脑科学与类脑智能"专题 介绍脑科学与类脑智能规划及最新研究进展 2016-07-21自动化研究所 [字体:大 中 小] 语音播报 2016年第7 ...

最新文章

  1. 25种代码坏味道总结+优化示例
  2. assert()函数用法总结【转】
  3. 哥伦比亚大学计算机工程面试题
  4. 里面如何配置库_【专享】SolidWorks管道库国标模型下载SolidWorks Routing管道设计学习必备...
  5. Mac中AndroidStudio没有找到Plugins的问题
  6. 一句DOS命令搞定文件合并
  7. 谈谈surging 微服务引擎 2.0的链路跟踪和其它新增功能
  8. 面试问题:MyBatis和Hibernate的区别
  9. Visio studio 2015企业版,汉语版下载,安装,破解,搞定了
  10. windows10 Build 10074版本上手体验(二)
  11. win10 xampp mysql_Win10系统在本地安装XAMPP的方法
  12. c 语言翻译软件,分享一款 程序员秒懂 很优雅的翻译软件
  13. postman小技巧-提取变量及设置变量
  14. 耿丹CS16-2班第三次作业汇总
  15. 数值计算与MATLAB微积分
  16. erLang中的标点符号
  17. YUV图像格式转换方法实践
  18. 移动应用UI设计(上)
  19. 卷积神经网络新方向:Three-column CNN实现无参考立体图像评估
  20. mybatis整合sqlite

热门文章

  1. 教你用百度地图API抓取建筑物周边位置、房价信息(附代码)
  2. 1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
  3. 地表最强VLP模型!谷歌大脑和CMU提出极简弱监督模型
  4. ResNets王者回归!谷歌、伯克利联合发文:它当初输给EfficientNets不是架构问题...
  5. 无需用户输入!Adobe提出自动生成高质量合成图像新方法
  6. 字体大小的设置_老年人用智能手机,怎样更改字体大小?3种方法,手把手教您学会...
  7. 中国AI专利申请量占全球74%,腾讯、百度、OPPO前五
  8. SAP_SD常用增强
  9. 可解释性 or 准确性?AI 模型就一定不能两者兼得吗?
  10. 愚蠢的CNN,换个马甲就认不出猫!但,这病能治 | ICLR Oral