文 | 谢凌曦@知乎

作者注:所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。谢谢!

最近data2vec在twitter和知乎上小火了一把,有人说data2vec是个不错的工作,也有人说data2vec最成功的就是名字。

我的一句话评价:在当前的技术储备下,我不太看好这种多模态融合的路线会走太远。

先说文章。主体方法一句话就可以说清楚:利用masked data modeling的方式对语音、文本、图像进行统一预训练。

至于用EMA来构造teacher然后监督student等常规操作,与许多已有方法相似,因此也不再赘述。和之前若干文章一样,作者也毫不避讳,甚至有些骄傲地宣传该方法非常简单,并且可以处理三种不同模态。

实验部分因为要兼顾三种模态,所以每个部分都比较短,其中视觉部分略显敷衍:只做了ImageNet上的fine-tuning——然而在我看来,fine-tuning这个setting真的没有太大价值:预训练模型的两个最重要的能力(小样本、域迁移)都没有得到考验!

总的来讲,与近期视觉领域的若干文章一样,data2vec使用了极简架构,达到了比较solid的实验结果,因而是一篇值得被ICML接受的文章。

顺便说句题外话感慨一下:最近做预训练的文章,都流行“方法1页,实验4-5页”的暴力写作风格,似乎要向业界传递一个信号:方法不重要,数据和算力才是。

回想十年前,方法和实验长度1:1的文章,都时常要被质疑方法太简单。时代确实不一样了。

问题是,现在这样真的对吗?或者说,这样真的能解决长远的问题吗?我们知道,不同模态的数据具有十分不同的性质。除了语音和文本这种对应性很强的跨模态,如果我们考虑文本和图像,就会发现两者的对应关系复杂而多变。

本中的某些token,根本不会在图像中呈现出来,反之亦然。在这种情况下,统一使用masked modeling的做法,虽然确实取得了一定的效果,但是它的上限不会太高;指望它完成真正的跨模态,就更是天方夜谭了。

上述现象,归根结底,这是因为图像和文本的来源不同:图像作为反映客观事物的载体,必须追求真实和详细;而文本作为人类主观意志的表达,则往往追求抽象和简洁。

目前,还没有任何一种方法能够证实两种数据应该被映射到同一个隐空间上;而几乎所有跨模态预训练方法,都不过将两种完全不同的数据强行对齐,得到一些统计意义上的弱规律罢了。

当然,我不是说这些事没有意义。在深度学习,尤其是具有大一统潜力的transformer模块的助力下,这样做确实拓展了人类的知识边界和工具包,值得记为AI发展的一个小里程碑。

但是,我们决不能满足于这种简单暴力的方法,因为它们对本质问题(即不同模态数据如何对齐)的帮助极为有限。

就拿我熟悉的视觉任务来说。BEIT和MAE开启了一波masked image modeling的热潮,然而问题是:在图像上做mask真的对吗,真的能够学到高效的语义吗?这个问题目前还没有得到解答!

换句话说,还没有人能够回答,图像自监督究竟学到了什么,是否学到了超越像素统计量的信息?在这种情况下,如果我们一味地沉浸在transformer的表面繁荣里,沾沾自喜于fine-tuning比linear probing高出的那几个百分点,怕是会忘了前路漫漫,懈怠于思考真正重要的问题吧。

总之,大一统很重要也很迷人,但是还不到火候啊。

最后,我希望以下两件事至少发生一件。

第一,我被狠狠地打脸:这样暴力的预训练方法确实带来了非平凡的突破,走向下一个时代的AI。

第二,大佬/大组们能够稍微冷静一些,向业界传递正确的信号,让没有足够资源烧实验的同学们知道哪些问题重要、哪些问题亟待解决、哪些问题不过是无奈下的选择:只有更理智的大众,才能更好地推动业界发展,不是么?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

我不看好data2vec这类多模态融合的研究相关推荐

  1. 海康威视 | AI算法实习生招聘(3D检测/分割/多模态融合)

    3D视觉工坊致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「CV_LAB」. 公司介绍: 海康威视研究院专注于 ...

  2. 无监督学习多模态融合!腾讯优图联合厦门大学发布2021十大AI趋势

    腾讯优图实验室联合厦门大学人工智能研究院发布<2021 十大人工智能趋势>报告,对 3D 视觉技术.深度学习算法.人工智能内核芯片等众多领域的发展趋势进行了预测. 6 月 5 日,2021 ...

  3. AI:人工智能的多模态融合模型的简介、发展以及未来趋势

    AI:人工智能的多模态融合模型的简介.发展以及未来趋势 目录 人工智能的多模态融合模型的简介.发展以及未来趋势 多模态融合模型的简介 多模态融合模型的发展趋势 多模态常见应用分类 1.按照模态分类 2 ...

  4. 直播 | 天津大学副教授张长青:多模态融合的基础问题及算法研究

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  5. 多模态融合技术综述和应用

    文章目录 多模态技术基础 1,多模态融合架构(神经网络模型的基本结构形式) 1.1联合架构 1.2协同架构 1.3编解码架构(自监督) 2,多模态融合方法 2.1早期融合 2.2 晚期融合 2.3混合 ...

  6. 视频分析与多模态融合之一,为什么需要多模态融合

    视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team 前言 在前文<万字长文漫谈视频理解>[1]中,笔者曾经对视频理 ...

  7. 多模态深度学习综述总结 与 目标检测多模态融合领域论文推荐

    文章目录 一.多模态学习定义及应用 二.模态表示 2.1 单模态表示 2.1.1 语句模态表示 2.1.2 视觉模态表示 2.1.3 声音模态表示(略) 2.2 多模态表示 2.2.1 模态共作用语义 ...

  8. CVPR2020恶劣天气下的多模态融合Seeing Through Fog Without Seeing Fog

    文章目录 总结 Abstract Introduction 自适应深度融合 自适应多模态单镜头融合 熵引导融合 总结 Seeing Through Fog Without Seeing Fog:Dee ...

  9. 多模态融合 - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Repre ... (ICRA 2023)

    BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation - 基于统一 BEV 表示的 ...

最新文章

  1. Windows Azure 数据安全(清理和泄漏)
  2. jsonp react 获取返回值_必须要会的 50 个React 面试题(下)
  3. mysql数据库作业_mysql数据库操作练习
  4. 健康医疗数据库建设亟需“万象更新”式变革
  5. iPhone 11终于没涨价但依然暴利 外媒:64GB起始容量就是个笑话
  6. JSP中使用script计算
  7. 如何配置 Windows XP SP2 中的 Internet Explorer 增强安全功能
  8. java后台提示信息弹出框
  9. gstreamer v4l2预览双摄像头
  10. 多目标跟踪算法方案总结
  11. 使用ROS提取udacity .bag文件中的压缩图片
  12. jquery fadein css同时用,如何同时运行jQuery fadeIn()和slideDown()?
  13. dva的用法_dva入门讲解
  14. 业务智能化成为电信运营业的总体发展趋势
  15. 拼多多拼单显示内部服务器错误,拼多多为什么拼不了?拼多多怎么拼单?
  16. 暮光之城 - Eclipse的DVD发行 - 另一个重磅炸弹DVD
  17. 0929 - CloudXNS 域名解析需要实名认证
  18. 联想小新air14显示已连接电源但实际上充不进电
  19. SOA为什么不“香”了?| 建设数据中台系列(三)
  20. rootfs 制作ubuntu_【整理】为何要把文件夹形式的rootfs制作成单个rootfs镜像文件...

热门文章

  1. DetachedCriteria和Criteria的使用方法
  2. 移动端中如何检测设备方向的变化?
  3. 揭秘 | 小米最新款12PRO智能动态刷新率技术原理
  4. 用一句话证明你是程序员,你会怎么说
  5. 随想,对嵌入式职场建议
  6. xshell如何运行java_利用Xshell往应用服务器上部署项目
  7. canvas 多次画图效果_canvas练习之终极的奔跑小人
  8. python中split函数_python strip()函数和Split函数的用法总结
  9. axis=0 与axis=1 的区分
  10. [Kaggle] Digit Recognizer 手写数字识别(神经网络)