清华大学张长水教授——多模态学习讲座

任务

Introduction to Multi-modal Learning


基础的:NLP Vision Auditory
进阶:触觉 嗅觉等等
进一步: 脑电信号 皮电 红外图 深度图 脑电图等等

Multi-Modal Learning Tasks

Language-Audio

  1. 文本 生成 语音 -> 后序还要生成语音和人图像口型对上

Vision-Audio

第一件是早期的,在深度学习之前;
视频声音分离,加入视觉的信息,比如口型辅助声音分离,声源定位。
结合语音和口型,动画配音生成三维口型。
(局部点- - 构建声音和点的位置关系映射)


某个人在哪个时间段说话了,完成标记的任务。


声音转换成动作,建立拉琴和声音 任务手势和声音的映射

Vision-Language



机器人根据人的语言进行导航,比如看到树往哪儿走,看到红绿灯干嘛?


通过图像辅助翻译

定位相关任务

只有文字,没有视觉,无法完全理解客观世界。


Core Challenges

1. Representation


word2vec , 不同模态的信息都表示为向量

2. Alignment


显示对齐 隐式对齐 例子如下:

3. Fusion


融合过程,融合越早越好,但是不是所有的数据能够很早融合。

4. Translation





5. Co-Learning

CMU 98年的论文

Short History




多模态大模型

问题

多模态学习:
表示 - 语言 + 语音
对齐 和 评价好坏

生成任务上,是否有一个比较好的评价指标

根据实际任务设置

多模态学习 讲座记录相关推荐

  1. CVPR 2022 Oral|OGM-GE:基于动态梯度调节的平衡化多模态学习

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:无影 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.com ...

  2. 多模态学习研讨会:预训练是AI未来所需要的全部吗?

    编者按:文字.图片.语音.视频--我们的日常生活充满了不同模态的数据,涉及不同模态数据交互的任务也越发普遍.最近,微软亚洲研究院举办了一场多模态表征学习与应用研讨会,与来自亚太高校的多位学者深度探讨了 ...

  3. Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

    网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...

  4. python多分类混淆矩阵代码_深度学习自学记录(3)——两种多分类混淆矩阵的Python实现(含代码)...

    深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码),矩阵,样本,模型,类别,真实 深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码) 深度学习自学记录(3) ...

  5. MySQL学习足迹记录01--SOURCE,SHOW

    MySQL学习足迹记录01--SOURCE,SHOW MySQL学习足迹记录02--SELECT MySQL学习足迹记录03--ORDER BY,DESC MySQL学习足迹记录04--数据过滤--W ...

  6. Activiti 学习笔记记录(2016-8-31)

    上一篇:Activiti 学习笔记记录(二) 导读:上一篇学习了bpmn 画图的常用图形标记.那如何用它们组成一个可用文件呢? 我们知道 bpmn 其实是一个xml 文件 转载于:https://ww ...

  7. 【深度学习】深度学习实验记录--自编码+分类器

    深度学习课程记录 自编码分类器神经网络记录 1.Train the autoencoder by using unlabeled data 训练1(fail) 训练2(fail) 训练3(fail) ...

  8. 2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」

    关注:决策智能与机器学习,深耕AI脱水干货 报道 |  腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办.受新冠肺炎疫情影响,今年的 EC ...

  9. 神经网络学习小记录2——利用tensorflow构建循环神经网络(RNN)

    神经网络学习小记录2--利用tensorflow构建循环神经网络(RNN) 学习前言 RNN简介 tensorflow中RNN的相关函数 tf.nn.rnn_cell.BasicLSTMCell tf ...

最新文章

  1. 数字图像处理与Python实现笔记之基础知识
  2. VS IISExpress REST DELETE 405 Method Not Allowed
  3. adb(4)-应用管理
  4. c语言链表代码大全,C语言实现链表
  5. java ee基础知识_Java EE:基础知识
  6. 过滤器匹配符包含单词_Hamcrest包含匹配器
  7. Laravel Session 遇到的坑
  8. Node.js meitulu图片批量下载爬虫1.051
  9. mysql pdo 查询一条数据,使用 PDO 关联查询 MySQL 数据
  10. BZOJ2809:[Apio2012]dispatching——题解
  11. 032. asp.netWeb用户控件之一初识用户控件并为其自定义属性
  12. 微软最有价值专家(MVP)四连任
  13. 【推荐系统】电影推荐系统(一)
  14. day1------安装部署k8s之完成(3)
  15. win10 计算机菜单,win10系统计算机界面菜单栏不见了的还原方案
  16. R语言—基本统计分析
  17. docker配置代理pull报错:proxyconnect tcp: tls: first record does not look like a TLS handshake
  18. Cadence PSpice中更改Cursor控制的曲线及打印图形Cursor信息的方法
  19. 九方财富更新招股书:上半年营收9亿 冲刺港股一年未果
  20. SAP R3 功能详解 - 财务管理

热门文章

  1. ECOSYS FS-1040 USB打印驱动安装
  2. Net Core DocXCore 实现word模板导出
  3. cudnn linux 安装
  4. 整合DL4J训练模型与Web工程
  5. 字典树简单实现 插入 查找 遍历
  6. 我的物联网项目(三)平台架构
  7. ubuntu安装Qt creator
  8. HOG特征提取matlab代码
  9. 陈景润是数学改革先锋吗
  10. 强化学习Q-learning(超详解)