LeCun领导下的Meta AI，押注自监督

作者丨ELIZA STRICKLAND

来源丨机器之心

自监督学习真的是通往 AGI 的关键一步？

Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时，也没有忘记远期的目标。他在一次采访时说：「我们想要构建像动物和人类一样学习的智能机器。」

近几年，Meta 发表了一系列关于 AI 系统自监督学习（SSL）的论文。LeCun 坚定地认为，SSL 是 AI 系统的必要前提，它可以帮助 AI 系统构建世界模型，以获得类似人类的能力，如理性、常识，以及将技能和知识从一个环境迁移到另一个环境的能力。

他们的新论文展示了一种被称为掩蔽自编码器（MAE）的自监督系统如何学会从非常零散、不完整的数据中重建图像、视频甚至音频。虽然 MAE 并不是一个新的想法，但 Meta 已经将这项工作扩展到了新的领域。

LeCun 说，通过研究如何预测丢失的数据，无论是静态图像还是视频或音频序列，MAE 系统都是在构建一个世界模型。他说：「如果它能预测视频中即将发生的事情，它必须明白世界是三维的，有些物体是无生命的，它们自己不会移动，其他物体是有生命的，很难预测，一直到预测有生命的人的复杂行为。」一旦 AI 系统有了一个精确的世界模型，它就可以使用这个模型来计划行动。

LeCun 说，「智能的本质是学会预测。」虽然他并没有声称 Meta 的 MAE 系统接近于通用人工智能，但他认为这是通往通用人工智能的重要一步。

但并非所有人都同意 Meta 的研究人员走在通往通用人工智能的正确道路上。Yoshua Bengio 有时会与 LeCun 就 AI 领域的重大想法进行友好的辩论。在给 IEEE Spectrum 的一封电子邮件中，Bengio 阐述了他们在目标上的一些不同和相似之处。

Bengio 写道：「我真的不认为我们目前的方法（无论是不是自监督）足以弥合人工与人类智能水平的差距。」他说，该领域需要取得「质的进步」，才能真正推动技术向人类规模的人工智能靠拢。

对于 LeCun 的「对世界的推理能力是智能的核心要素」这一观点，Bengio 表示赞同，但他的团队并没有把重点放在能够预测的模型上，而是放在了能够以自然语言的形式呈现知识的模型上。他指出，这样的模型将允许我们将这些知识片段结合起来，以解决新问题，进行反事实模拟，或研究可能的未来。Bengio 的团队开发了一种新的神经网络框架，它比致力于端到端学习的 LeCun 所青睐的框架更具模块化的性质。

大火的 Transformer

Meta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。这种架构最初在自然语言处理领域走红，之后扩展到计算机视觉等多个领域。

当然，Meta 并不是第一个成功将 Transformer 用到视觉任务中的团队。Meta AI 的研究者 Ross Girshick 介绍说，谷歌在视觉 Transformer（ViT）上的研究启发了 Meta 的团队，「ViT 架构的采用帮助（我们）消除了试验过程中遇到的一些障碍」。

Girshick 是 Meta 第一篇 MAE 系统论文的作者之一，这篇论文的一作是何恺明，他们论述了一种非常简单的方法：掩蔽输入图像的随机区块并重建丢失的像素。

这种模型的训练类似于 BERT 以及其他一些基于 Transformer 的语言模型，研究人员会向它们展示巨大的文本数据库，但有些词是缺失的，或者说被「掩蔽」了。模型需要自己预测出缺失的词，然后被掩蔽的词会被揭开，这样模型就能检查自己的工作并更新自己的参数。这一过程会一直重复下去。Girshick 解释说，为了在视觉上做类似的事情，研究小组将图像分解成 patch，然后掩蔽一些 patch 并要求 MAE 系统预测图像缺失的部分。

该团队的突破之一是意识到，掩蔽大部分图像会获得最好的结果，这与语言 transformer 有着关键区别，后者可能只会掩蔽 15% 的单词。「语言是一种极其密集和高效的交流系统，每个符号都包含很多含义，」Girshick 说，「但是图像——这些来自自然世界的信号——并不是为了消除冗余而构建的。所以我们才能在创建 JPG 图像时很好地压缩内容。」

Meta AI 的研究人员试验需要掩蔽多少图像获得最佳效果。

Girshick 解释说，通过掩蔽图像中超过 75% 的 patch，他们消除了图像中的冗余，否则会使任务变得过于琐碎，不适合训练。他们那个由两部分组成的 MAE 系统首先使用一个编码器，通过训练数据集学习像素之间的关系，然后一个解码器尽最大努力从掩蔽图像中重建原始图像。在此训练方案完成后，编码器还可以进行微调，用于分类和目标检测等视觉任务。

Girshick 说，「最终让我们兴奋的点在于，我们看到了这个模型在下游任务中的结果。」当使用编码器完成目标识别等任务时，「我们看到的收益非常可观。」他指出，继续增大模型可以获得更好的性能，这对未来的模型来说是一个有潜力的方向，因为 SSL「具有使用大量数据而不需要手动注释的潜力」。

全力以赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略，但也是一个越来越有争议的方法。Timnit Gebru 等人工智能伦理研究人员已经呼吁大家注意大型语言模型学习的未经整理的数据集固有的偏见，这些偏见有时会导致灾难性的结果。

视频和音频的自监督学习

在视频 MAE 系统中，掩蔽物遮蔽了每个视频帧的 95%，因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta 研究人员 Christoph Feichtenhofer 说，就视频而言，MAE 方法的一大优势是视频通常需要大量计算，而 MAE 通过屏蔽每帧高达 95% 的内容，减少了高达 95% 的计算成本。

这些实验中使用的视频片段只有几秒钟，但 Feichtenhofer 表示，用较长的视频训练人工智能系统是一个非常活跃的研究课题。想象一下，你有一个虚拟助理，他有你家的视频，可以告诉你一个小时之前你把钥匙放在哪里了。

更直接地说，我们可以想象图像和视频系统对 Facebook 和 Instagram 上的内容审核所需的分类任务都很有用，Feichtenhofer 说，「integrity」是一种可能的应用，「我们正在与产品团队沟通，但这是非常新的，我们还没有任何具体的项目。」

对于音频 MAE 工作，Meta AI 的团队表示他们将很快将研究成果发布在 arXiv 上。他们发现了一个巧妙的方法来应用掩蔽技术。他们将声音文件转化为声谱图，即信号中频率频谱的视觉表征，然后将部分图像掩蔽起来进行训练。重建的音频令人印象深刻，尽管该模型目前只能处理几秒钟的片段。

该音频系统的研究人员 Bernie Huang 说，这项研究的潜在应用包括分类任务，通过填充数据包被 drop 时丢失的音频来辅助基于 IP 的语音传输（VoIP），或者找到更有效的压缩音频文件的方法。

Meta 一直在进行开源 AI 方面的研究，如这些 MAE 模型，还为人工智能社区提供了一个预训练的大型语言模型。但批评人士指出，尽管在研究方面如此开放，但 Meta 还没有把它的核心商业算法开放出来供大家研究，即那些控制新闻推送、推荐和广告植入的算法。

扩展阅读：思考总结 10 年，图灵奖得主 Yann LeCun 指明下一代 AI 方向：自主机器智能

原文链接：https://spectrum.ieee.org/unsupervised-learning-meta

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

LeCun领导下的Meta AI，押注自监督相关推荐

AI到底如何改变教育？好未来重金押注AI的背后逻辑
安妮发自香格里拉饭店量子位出品 | 公众号 QbitAI 无AI,不教育,未来关键在开放.这是国内教育第一梯队玩家好未来最新明确的技术方向. 在2019好未来TI教育智能大会上,一连串AI新动 ...
杀死 Oculus ，Facebook 改名 Meta ，是押注元宇宙还是“金蝉脱壳”？
整理 | 祝涛出品 | CSDN(ID:CSDNnews) 美东时间10月28日周四,在名为Facebook Connect的年度大会上,Facebook宣布,Facebook将公司名称更改为&qu ...
雷军100亿押注IoT，小米借AI两翼齐飞
李根发自清河以南量子位报道 | 公众号 QbitAI 从今往后,小米两翼齐飞,手机+AIoT双引擎驱动. 就在小米2018公司年会上,董事长雷军总结好成绩,强调新趋势,最后明确新战略. 这一 ...
没有硬件，不押注AI，苹果在求稳中彻底quot;软quot;了
▼ 点击上方蓝字关注网易智能为你解读AI领域大公司大事件,新观点新应用清晨时分,熬夜看苹果WWDC大会的网友纷纷倦怠不堪. 没有 iPhone SE2.新iPad.Macbook.HomePod ...
马化腾和扎克伯格，为什么抢着押注元宇宙？
一个"元宇宙"的幽灵,正在互联网上空飘荡. 2021年3月,被称为"元宇宙第一股"的美股游戏公司Roblox,上市后从最初40亿美元估值,飙升到近500亿美元市 ...
押注混合云和人工智能，分拆后的IBM能成功吗？
国庆节前有英伟达收购ARM的"瓜"让科技圈的人吃了许久,而就在国庆期间,科技领域又有一波大动作出现,先是AMD拟花费百亿美金收购赛灵思,再就是IBM谋求再次转型的基础业务的大分拆. ...
通用汽车270亿美元押注电动汽车和自动驾驶技术；亚马逊全球开店助力中国卖家发展欧洲业务 | 美通企业日报...
今日看点:通用汽车将投资270亿美元押注电动汽车和自动驾驶技术.亚马逊全球开店助力中国卖家发展欧洲业务.韩国电信推出首尔最大规模数据中心,浪潮助力东欧最大电信运营商数字化转型.波音回应美国联邦航空局对 ...
核能版“水变油”登上Nature！谷歌7000万押注，MIT参与，被评争风加水汽车
边策乾明发自凹非寺量子位报道 | 公众号 QbitAI 谷歌,对核冷核聚变(Cold Fusion)下手了. 这个被称为核能版"水变油"的设想,30年前首次提出后,一直 ...
美团正押注无人车？没错，这是外卖大战的第三阶段
千平假装发自望京量子位出品 | 公众号 QbitAI 外卖不是一个简单的生意. 前不久,美团点评刚刚宣布融资40亿美元,这些钱会花在哪?美团点评CTO罗道锋今天表示,其中一个主要的方向就是人工 ...

LeCun领导下的Meta AI，押注自监督

LeCun领导下的Meta AI，押注自监督相关推荐

最新文章

热门文章