多模态学习 讲座记录
清华大学张长水教授——多模态学习讲座
任务
Introduction to Multi-modal Learning
基础的:NLP Vision Auditory
进阶:触觉 嗅觉等等
进一步: 脑电信号 皮电 红外图 深度图 脑电图等等
Multi-Modal Learning Tasks
Language-Audio
- 文本 生成 语音 -> 后序还要生成语音和人图像口型对上
Vision-Audio
第一件是早期的,在深度学习之前;
视频声音分离,加入视觉的信息,比如口型辅助声音分离,声源定位。
结合语音和口型,动画配音生成三维口型。
(局部点- - 构建声音和点的位置关系映射)
某个人在哪个时间段说话了,完成标记的任务。
声音转换成动作,建立拉琴和声音 任务手势和声音的映射
Vision-Language
机器人根据人的语言进行导航,比如看到树往哪儿走,看到红绿灯干嘛?
通过图像辅助翻译
定位相关任务
只有文字,没有视觉,无法完全理解客观世界。
Core Challenges
1. Representation
word2vec , 不同模态的信息都表示为向量
2. Alignment
显示对齐 隐式对齐 例子如下:
3. Fusion
融合过程,融合越早越好,但是不是所有的数据能够很早融合。
4. Translation
5. Co-Learning
CMU 98年的论文
Short History
多模态大模型
问题
多模态学习:
表示 - 语言 + 语音
对齐 和 评价好坏
生成任务上,是否有一个比较好的评价指标
根据实际任务设置
多模态学习 讲座记录相关推荐
- CVPR 2022 Oral|OGM-GE:基于动态梯度调节的平衡化多模态学习
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:无影 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.com ...
- 多模态学习研讨会:预训练是AI未来所需要的全部吗?
编者按:文字.图片.语音.视频--我们的日常生活充满了不同模态的数据,涉及不同模态数据交互的任务也越发普遍.最近,微软亚洲研究院举办了一场多模态表征学习与应用研讨会,与来自亚太高校的多位学者深度探讨了 ...
- Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...
- python多分类混淆矩阵代码_深度学习自学记录(3)——两种多分类混淆矩阵的Python实现(含代码)...
深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码),矩阵,样本,模型,类别,真实 深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码) 深度学习自学记录(3) ...
- MySQL学习足迹记录01--SOURCE,SHOW
MySQL学习足迹记录01--SOURCE,SHOW MySQL学习足迹记录02--SELECT MySQL学习足迹记录03--ORDER BY,DESC MySQL学习足迹记录04--数据过滤--W ...
- Activiti 学习笔记记录(2016-8-31)
上一篇:Activiti 学习笔记记录(二) 导读:上一篇学习了bpmn 画图的常用图形标记.那如何用它们组成一个可用文件呢? 我们知道 bpmn 其实是一个xml 文件 转载于:https://ww ...
- 【深度学习】深度学习实验记录--自编码+分类器
深度学习课程记录 自编码分类器神经网络记录 1.Train the autoencoder by using unlabeled data 训练1(fail) 训练2(fail) 训练3(fail) ...
- 2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」
关注:决策智能与机器学习,深耕AI脱水干货 报道 | 腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办.受新冠肺炎疫情影响,今年的 EC ...
- 神经网络学习小记录2——利用tensorflow构建循环神经网络(RNN)
神经网络学习小记录2--利用tensorflow构建循环神经网络(RNN) 学习前言 RNN简介 tensorflow中RNN的相关函数 tf.nn.rnn_cell.BasicLSTMCell tf ...
最新文章
- 数字图像处理与Python实现笔记之基础知识
- VS IISExpress REST DELETE 405 Method Not Allowed
- adb(4)-应用管理
- c语言链表代码大全,C语言实现链表
- java ee基础知识_Java EE:基础知识
- 过滤器匹配符包含单词_Hamcrest包含匹配器
- Laravel Session 遇到的坑
- Node.js meitulu图片批量下载爬虫1.051
- mysql pdo 查询一条数据,使用 PDO 关联查询 MySQL 数据
- BZOJ2809:[Apio2012]dispatching——题解
- 032. asp.netWeb用户控件之一初识用户控件并为其自定义属性
- 微软最有价值专家(MVP)四连任
- 【推荐系统】电影推荐系统(一)
- day1------安装部署k8s之完成(3)
- win10 计算机菜单,win10系统计算机界面菜单栏不见了的还原方案
- R语言—基本统计分析
- docker配置代理pull报错:proxyconnect tcp: tls: first record does not look like a TLS handshake
- Cadence PSpice中更改Cursor控制的曲线及打印图形Cursor信息的方法
- 九方财富更新招股书:上半年营收9亿 冲刺港股一年未果
- SAP R3 功能详解 - 财务管理