让机器耳濡目染：MIT提出跨模态机器学习模型

2019独角兽企业重金招聘Python工程师标准>>>

时间 2017-06-11 17:28:22 机器之心

原文 https://www.jiqizhixin.com/articles/015f1f8e-5dca-486a-961c-b4b4b76647df

主题数据挖掘

不变性表示（invariant representation）是视觉、听觉和语言模型的核心，它们是数据的抽象结果。人们一直希望在视觉、有噪音的音频、有同义词的自然语言中获取观点和大量不变性表示。具有识别能力的不变性表示可以让机器从大量数据中学习特征，从而获得近似于人类的识别效果。但在机器学习领域，目前这一方面的研究进展有限。

对此，麻省理工学院（MIT）的 Yusuf Aytar 等人最近在一项研究中提出了全新的方法：研究人员通过多种关联信息的输入让机器学习了跨模态数据的通用表达方式。在文字语句「她跳入了泳池」中，同样的概念不仅出现在视觉上，也出现在了听觉上，如泳池的图像和水花飞溅的声音。如果这些跨模态的表示存在关联，那么它们的共同表示就具有鲁棒性。上文中的句子、泳池的图像和水声应当具有相同的内在表示。

论文：See, Hear, and Read: Deep Aligned Representations

链接：https://arxiv.org/abs/1706.00932

摘要

我们利用大量易于获得的同步数据，让机器学习系统学会了三种主要感官（视觉、声音和语言）之间共有的深度描述。通过利用时长超过一年的视频配音和百万条配和图片匹配的句子，我们成功训练了一个深度卷积神经网络对不同信息生成共同的表示。我们的实验证明，这种表示对于一些任务是有效的，如跨模式检索或在形态之间的传递分类。此外，尽管我们的神经网络只经过了图片+文字和图片+声音的配对训练，但它也在文本和声音之间建立了联系——这在训练中未曾接触。我们的模型的可视化效果揭示了大量自动生成，用于识别概念，并独立于模态的隐藏单元。

图 1. 共同表示：研究人员提出了深度跨模态卷积神经网络，它可以学习三种表征方式：视觉、听觉和文字阅读。在此之上，研究人员展示了输入信息可以激活网络中的隐藏单元，其中被激发的概念位置独立于模态。

图 2. 数据集：研究人员使用了大量未加工、无约束的数据对概念表达进行训练。

图 3. 学习通用表示方法：研究人员设计了一种能够同时接收图像、声音和文字输入的神经网络。该模型从模态专属表示（灰色）中产生一种通用表示，同时适用于不同模态（蓝色）。研究人员同时使用模型转换损失和配比排名损失来训练这个模型。模态专有层是卷积的，不同模态的共享层则是全连接的。

图 4. 跨模式反演示例：MIT 的研究人员展示了使用深度表示，跨声音、图像和文字三种模态的顶层反演

图 5. 隐藏单元的可视化：研究人员通过模型的可视化发现了一些隐藏单元。注意：频谱图（红/黄色的热区显示）之外，还有原始视频和与之对应的描述声音，后者仅用于可视化目的。

不变性表示可以让计算机视觉系统可以在不受约束的、现实世界环境中高效运行。在实验中，研究人员发现了一些联结表达方式具有更高的分类和检索性能，可以应对未遇到过的新情况。麻省理工学院的学者们相信，对于下一代机器感知而言，跨模态的表示具有重要意义。

转载于:https://my.oschina.net/airship/blog/919859

让机器耳濡目染：MIT提出跨模态机器学习模型相关推荐

CPT：刷爆少样本REC任务！清华刘知远团队提出跨模态预训练Prompt Tuning
关注公众号,发现CV技术之美本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...
你说我画，你画我说：全球最大中文跨模态生成模型文心ERNIE-ViLG来了！
来源:机器之心本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型. 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的 ...
【论文笔记】基于GAN的三维医学图像跨模态配准模型 Deform-GAN
本文是关于<DEFORM-GAN:AN UNSUPERVISED LEARNING MODEL FOR DEFORMABLE REGISTRATION>论文的阅读笔记. 一.简介文章提出 ...
百度AI技术盛宴来了！大咖齐聚解读CV/NLP/跨模态大模型技术！
随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破.自2020年至今,越来越多的科技巨头和科研机构参与其中.去年12月,百度发布了全球首个知识增强千亿 ...
有了AI智能绘画，我也可以成为绘画大师——全球最大规模中文跨模态生成模型ERNIE-ViLG
对于绘画一窍不通的我,也喜欢看动漫,看到一些绝美的画,何尝不会感叹,要是我也会画画就好了,现在终于有机会帮我实现这个想法了,无意间看到了AI的一个新应用,最近热度还挺高的AI绘画,充分引起了我的兴趣, ...
刷新SOTA！Salesforce提出跨模态对比学习新方法，仅需4M图像数据！
文 | 子龙多模态已经不是一个新鲜的话题,如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光(CV.NLP的会都能投),但是很容易就能想到,来自图片的视觉特征和来自语料的文本特征来自不同 ...
机器推理文本+视觉，跨模态预训练新进展
作者 | 李根.段楠.周明来源 | 微软研究院AI头条(ID:MSRAsia) [导读]机器推理要求利用已有的知识和推断技术对未见过的输入信息作出判断,在自然语言处理领域中非常重要.本文将介绍微软亚 ...
EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
关注公众号,发现CV技术之美 ▊ 写在前面预训练的视觉语言BERT的目标是学习结合两种模态的表征.在本文中,作者提出了一种基于跨模态输入消融诊断方法(cross-modal input ablati ...
跨模态行人重识别研究综述
跨模态行人重识别研究综述刘天瑜,刘正熙摘要:传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景.随着视频安防监控要求的不断提升,为了克服可见光摄像头无法全天候进行使 ...
Cross-modal Pretraining in BERT（跨模态预训练）
BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让-仅在2019 年就有8+篇的跨模态预训练的论文挂到了arxiv上-上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的 ...

让机器耳濡目染：MIT提出跨模态机器学习模型

让机器耳濡目染：MIT提出跨模态机器学习模型相关推荐

最新文章

热门文章