一、博文推荐

多模态学习综述及最新方向
链接:
- 1. https://zhuanlan.zhihu.com/p/389287751 (简略版)
- 2. https://zhuanlan.zhihu.com/p/353681958 (详细版)
- 3. https://bbs.huaweicloud.com/blogs/264134 (归纳总结版本-推荐!)
- 4. https://zhuanlan.zhihu.com/p/475734302 (知乎)
来源文章:TPAMI综述文献
Multimodal machine learning: A survey and taxonomy.

二、综述论文推荐

国内:

  1. 何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(05):1-11.DOI:10.19678/j.issn.1000-3428.0057370.
  2. 孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10.
  3. 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(05):557-569.DOI:10.13374/j.issn2095-9389.2019.03.21.003.
  4. 牟智佳,符雅茹.多模态学习分析研究综述[J].现代教育技术,2021,31(06):23-31.

三、什么是多模态机器学习?

学习来源: https://blog.csdn.net/electech6/article/details/85142769

每一种信息的来源或者形式,都可以称为一种模态。例如:

  • 人有触觉,听觉,视觉,嗅觉;
  • 信息的媒介,有语音、视频、文字等;
  • 多种多样的传感器,如雷达、红外、加速度计等。

以上的每一种都可以称为一种模态。

多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

该博文参考了https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf,主要从以下五个方向进行了介绍。

1. 多模态表示学习

  • 联合表示 : 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
  • 协同表示 : 协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。
  • 利用多模态表示学习到的特征可以用来做信息检索,也可以用于的分类/回归任务。
  • 两个例子
    表示学习 : 学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片

    协同学习:狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片

2. 转化 Translation / 映射 Mapping

转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括

  • 机器翻译
  • 图片描述 或者 视频描述(Video captioning)
  • 语音合成(Speech Synthesis)

模态间的转换主要有两个难点:

  • 一个是open-ended,即未知结束位
    例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译
  • 另一个是subjective,即主观评判性
    是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。

3. 对齐 Alignment

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。

  1. 时间维度

  2. 空间维度

4. 多模态融合 Multimodal Fusion

还存在其他常见的别名,
多源信息融合(Multi-source Information Fusion)
多传感器融合(Multi-sensor Fusion)。

按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类

难点

  • 主要包括如何判断每个模态的置信水平、
  • 如何判断模态间的相关性、
  • 如何对多模态的特征信息进行降维
  • 如何对非同步采集的多模态数据进行配准等。

下面列举几个比较热门的研究方向

1. 视觉-音频识别

2. 多模态情感分析

3.手机身份认证
综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

5. 协同学习 Co-learning

协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

  • 迁移学习
    迁移学习比较常探讨的方面目前集中在领域适应性问题上
    还有zero-shot learning 与 one-shot learning.
  • 协同训练
    负责研究如何在多模态数据中将少量的标注进行扩充,得到更多的标注信息。

多模态学习(一) 初识相关推荐

  1. Nancy in .Net Core学习笔记 - 初识Nancy

    原文:Nancy in .Net Core学习笔记 - 初识Nancy 前言 去年11月份参加了青岛MVP线下活动,会上老MVP衣明志介绍了Nancy, 一直没有系统的学习一下,最近正好有空,就结合. ...

  2. 多模态学习研讨会:预训练是AI未来所需要的全部吗?

    编者按:文字.图片.语音.视频--我们的日常生活充满了不同模态的数据,涉及不同模态数据交互的任务也越发普遍.最近,微软亚洲研究院举办了一场多模态表征学习与应用研讨会,与来自亚太高校的多位学者深度探讨了 ...

  3. 2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」

    关注:决策智能与机器学习,深耕AI脱水干货 报道 |  腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办.受新冠肺炎疫情影响,今年的 EC ...

  4. Incomplete Multimodal Learning(不完整多模态学习)

    博主已经更新过很多多模态系列的文章了,专栏传送门:多媒体与多模态专栏. 可以发现多模态虽然效果很好,但需要保证"多个"模态都一定要存在.但是在现实世界中,部分模态的缺失是很常见的, ...

  5. Nacos学习之初识Nacos

    Nacos学习之初识Nacos 在分布式项目中既然存在Eureka这个注册中心,那么Nacos有充当什么角色?Nacos到底是个啥?他又是咋么下载安装的?本文我会将从什么是Nacos.Nacos与其他 ...

  6. CVPR 2022 Oral|OGM-GE:基于动态梯度调节的平衡化多模态学习

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:无影 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.com ...

  7. 多模态学习研究进展综述

    一.引言 模态是指人接受信息的特定方式.由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息.视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段 ...

  8. 多模态学习(Multimodal Deep Learning)研究进展综述(转载)

    转载: AI综述专栏--多模态学习研究进展综述 https://zhuanlan.zhihu.com/p/39878607 文章目录 一.引言 二.主要研究方向及研究进展 (一)多模态表示学习 (二) ...

  9. 【多模态学习】本周学习历程,附链接

    越学习,越是觉得所谓研究生不过是站在巨人的肩膀上领略科学之海的壮丽,十分荣幸能在开源精神的引领下参与到知识的传递网络中♪(^∇^*) ps.以下块引用的代码均可以.ipynb形式编译,如果您有条件,强 ...

最新文章

  1. httpclient异步发送请求_关于Tornado5.1:到底是真实的异步和还是虚假的异步
  2. 快速查询ABAP transport request lock status
  3. ensp 查看配置命令
  4. 爬取LeetCode题目——如何发送GraphQL Query获取数据
  5. 小米2s自带rec刷root_刷Magisk模块开机卡Logo了怎么办?两种方法教你轻松解决
  6. 中文分词——正向最大匹配法
  7. 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
  8. dart 获取手机信息_flutter+dart仿微信App界面聊天实例
  9. ppt修复无法读取_CVE20201938 Tomcat 文件读取/包含漏洞复现
  10. Qt4 在x86和arm平台上的一些配置
  11. 浏览器html中加入word,web网页中加载word
  12. 码教授|面试官:你还有什么要问我的吗?
  13. 计算机自我检测方法,电脑问题的自我检测方法有哪些?
  14. java 选股源码,珍藏多年的「高成功率」选股器分享(附源码)
  15. 计算机共享文件输入网络密码是什么,Win7共享文件时需要输入网络密码怎么办?...
  16. 计算机驱动恢复出厂设置在哪里,Windows系统恢复出厂设置在哪?怎么恢复出厂设置?...
  17. FireFox插件开发--弃用NPAPI
  18. Padavan挂载SMB共享及编译ffmpeg
  19. OSPF 多区域原理与配置
  20. 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇

热门文章

  1. oracle spool循环导出文件,oracle 使用spool导出数据到文件
  2. 安装Adobe Flash CS5出错的解决办法(Exit Code: 7 ERROR: Unable to get root from inChildPath)
  3. 深析超市商品管理系统设计
  4. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
  5. MATLAB图形绘制--离散数据绘图
  6. 十年产品人是如何炼成的?
  7. 2015年 android 白皮书
  8. 【语音之家】AI产业沙龙—语音技术在贝壳的应用
  9. 如何实现一篇数据新闻报道
  10. 苹果官宣了,iPhone 11继续使用这款基带附查询iPhone基代方法教程