视学算法报道

转载自:机器之心

编辑:陈萍

Facebook AI 用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA,可能会为计算机视觉领域打开一个新篇章。

近日,Facebook 宣布了一项重要新工作:他们提出的自监督 AI 模型 SEER 能够在没有人类手动标注的情况下,从 10 亿张来自 Instagram 的随机图片中学习识别和分类照片中的主要对象。最终,该模型在 ImageNet 上的 top-1 准确率达到 84.2%,比现有的 SOTA 自监督模型高出一个百分点。

对此,Facebook AI 首席科学家、图灵奖得主 Yann Lecun 发推表示祝贺,并将显著结果进行了展示:

在大家的认知里,大多数计算机视觉模型都是从标记的数据集中学习。与此不同的是,Facebook 的模型则是通过暴露数据各部分之间的关系从数据中生成标签。

这一步被认为对有朝一日实现人类级的机器智能至关重要。

研究人员认为,AI 的未来在于做出一种自动化系统:其可以从任何给定的信息中进行推断,而不依赖于标注的数据集。给定一份文本、图像或其他类型的数据,AI 系统最好能够识别照片中的物体、读懂文本,或执行要求它完成的其他无数任务中的任何一项。

Facebook 声称,他们已经朝着这一目标迈出了一步,推出了一种名为 SEER 的计算机视觉模型。SEER 是 SElf-supERvised 的缩写,包含 13 亿个参数,可以从互联网上的任何一组随机图像中学习,而不需要标记数据。

论文地址:https://arxiv.org/pdf/2103.01988.pdf?fbclid=IwAR3sRgn_9uiOc_yZFROfEfyXylMZX5-C-yTDN_QRggHev9ai2snQkemh81w

SEER有何创新之处?

参数一直是机器学习系统的基本组成部分,是从历史训练数据中得到的模型的一部分。AI 的未来在于是否能够不依赖于带注释的数据集,从给定的信息中进行推理。

视觉自监督是一项极具挑战性的任务。对于文本来说,语义概念可以分解为离散的词,自监督学习在自然语言处理中已经取得突破,在数量越来越多的未标记文本上训练算法已使诸如问答、机器翻译、自然语言推理等应用程序取得了进展。

但是对于图像,计算机视觉尚未完全进入自监督的学习,在现有的技术中心,模型必须决定哪个像素属于哪个概念。因此,要抓住围绕一个概念的变化,就需要查看大量不同的图像。

正如 Facebook AI Research 的软件工程师 Priya Gopal 所解释的那样,SEER 是该领域的首创。与现有的在 ImageNet 数据集上训练的计算机视觉的自监督模型相比,SEER 是第一个可以随机训练互联网上图像上的完全自监督的计算机视觉模型。

研究人员通过 Instagram 公开的 10 亿张图片进行模型训练。

经过研究,Facebook 的研究人员发现,扩展 AI 系统以处理复杂图像数据至少需要两个核心部分:

  • 第一为算法,其需要从大量的随机图像中学习,而不需要任何元数据或注释;

  • 第二为卷积网络,ConvNet——模型需要足够大,可以从数据中捕捉和学习每一个视觉概念。

卷积网络最早是在 20 世纪 80 年代被提出的,它的灵感来自于生物过程,即模型各部分之间的连接模式类似于视觉皮层。

在开发 SEER 的过程中,Facebook 采用了一种称为 SwAV 的算法。SwAV 使用了一种聚类技术,可以快速地对来自相似视觉概念的图像进行分组,并利用它们的相似性,与以前最先进的自监督学习相比有了改进,同时所需的训练时间缩短为原来的1/6。

SEER 模型架构的简化示意图。图源:Facebook

PriyaGoyal 介绍说,为了训练 SEER,Facebook 的团队使用了具有 32GB RAM 的 512 块英伟达 V100 GPU,耗时 30 天完成。

训练 SEER,还需要 VISSL 通用库,它一种基于 PyTorch 的全能库,用于自监督学习, 该库是开源的。VISSL 通过整合现有的几种算法,减少了对每个 GPU 的内存需要,提高了任意一个给定模型的训练速度,促进了大规模的自监督学习。

项目地址:https://github.com/facebookresearch/vissl

性能评价及未来工作

Facebook 的研究人员使用 ImageNet 数据集作评估 SEER 性能的基准,他们发现自监督模型在诸如物体检测、分割和图像分类等任务上优于最新的自监督 AI 系统。结果表明,SEER 在对 10 亿张 Instagram 公共图片进行预训练后,性能优于现有的 SOTA 自监督系统。

当使用 ImageNet 数据集中 10% 的数据进行训练时,SEER 仍然达到 77.9% 的准确率。当只使用 ImageNet 数据集中 1% 的数据训练时,SEER 的准确率为 60.5%。

这一结果表明,研究人员不需要像 ImageNet 这样的高度精选的数据集,对随机图像的自监督学习就可以产生非常高质量的模型。

当被问及 Instagram 用户是否知道自己的照片被用来训练 SEER,或有机会选择退出研究时,Goyal 表示说,Facebook 在其数据政策中告知 Instagram 账户持有人,他们上传的照片可能会被用来进行研究,同时包括 SEER。

同时这也意味着,Facebook 没有计划分享图像数据集或 SEER 模型本身。

Facebook 在博客中写道:自监督学习一直是 Facebook AI 关注的焦点,因为它使机器能够直接从大量可用的信息中学习,而不仅仅是从专门为 AI 研究创建的训练数据中学习。

自监督学习对计算机视觉的未来有着难以置信的影响,就像它在其他研究领域中的那样。

消除对人类注释和元数据的需求,可以使计算机视觉模型能够处理更大、更多样化的数据集,从随机的公共图像中学习,并可能减轻数据管理中的一些偏见。

自监督学习还可以帮助我们在图像或元数据有限的领域(如医学成像)进行专门研究。而且,无需预先进行标记,就可以更快地创建和部署模型,从而能够更快、更准确地响应快速变化的情况。

参考链接:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

亚马逊云科技白皮书《策略手册:数据、 分析与机器学习》

曾存储过 GB 级业务数据的组织现在发现,所存储的数据量现已达 PB 级甚至 EB 级。要充分利用这 些海量数据的价值,就需要利用现代化云数据基础设施,从而将不同的信息竖井融合统一。

无论您处于数据现代化改造过程中的哪个阶段,本行动手册都能帮助您完善策略,在整个企业范围内高效扩展数据、分析和机器学习,从而加快创新并推动业务发展。

点击阅读原文,免费领取白皮书。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

CV领域中的Bert,了解一下?相关推荐

  1. 【每周CV论文推荐】 CV领域中数据增强相关的论文推荐

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 数据增强在每一个深度学习项目中都是必要的操作 ...

  2. 【Transformer】一文搞懂Transformer | CV领域中Transformer应用

    目录 阅读本文的基础: 一.发展历史: 二.从上向下的理解Transformer 1.Transformer整体结构简单介绍 2.Transformer中的Self-attention (1)引入 ( ...

  3. Bert在CV领域的应用

    一只小狐狸带你解锁NLP/ML/DL秘籍 老板老板,听说BERT是个瞎子 此话怎讲? 它能理解语言,但是理解不了小夕的自拍! video-BERT了解一下 喵喵喵? AI的三大核心板块(CV/Spee ...

  4. 深度长文 | 详细归纳NLP领域中的巨人肩膀

    来源:PaperWeekly 本文约13600字,建议阅读10+分钟. 本文为你分析当下NLP 当中可能的"巨人肩膀"在哪里,有哪些已经造好的"梯子"可供攀登. ...

  5. ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域

    如果觉得我的算法分享对你有帮助,欢迎关注我的微信公众号"圆圆的算法笔记",更多算法笔记和世间万物的学习记录- 1. BEIT整体介绍 今天跟大家聊一聊ICLR 2022微软亚研院的 ...

  6. 深度学习在CV领域的进展以及一些由深度学习演变的新技术

    CV领域 1.进展:如上图所述,当前CV领域主要包括两个大的方向,"低层次的感知" 和 "高层次的认知". 2.主要的应用领域:视频监控.人脸识别.医学图像分析 ...

  7. BERT在多模态领域中的应用

    ©PaperWeekly 原创 · 作者|李明晓 学校|鲁汶大学博士生 研究方向|自然语言处理 BERT (Bidrectional Encoder Representations from Tran ...

  8. CV领域的对比学习综述

    对比学习发展历程 发展历程大概可以分为四个阶段 1.百花齐放 InstDisc(instance discrimination) CPC CMC 在这个阶段中,方法.模型.目标函数.代理任务都还没有统 ...

  9. 李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 责编 | Jane 出品 | AI科技大本营(公众号id:rgznai100) [导语]上周,李沐老师公布 GluonNLP0.6 版本,借助 ...

最新文章

  1. C++之匿名对象与析构函数的关系
  2. Android Tab 选项卡的简单实现
  3. Python基础教程(四):循环语句
  4. 架构师口中的混沌工程,究竟用来解决什么问题
  5. 网站安全狗V3.0—— .NET安全设置及保护实战教程
  6. python安装第三方库
  7. 【渝粤题库】国家开放大学2021春2109刑事诉讼法学题目
  8. 请给出计算231-1的python表达式_【填空题】计算2 32 -1的Python表达式可以书写为____...
  9. thinkpad bios联想logo_最强12吋ThinkPad,X201终极改造:8代酷睿+双内存+NVMe
  10. 转 Hystrix超时实现机制
  11. cygwin图文安装教程
  12. JavaScript:new关键字的执行过程
  13. Python删除文件第一行
  14. InputFilter实现EditText文本输入过滤器
  15. Java使用POI导出excel(下)——实例与小技巧
  16. k2 官方纯净版固件
  17. 2021年微软研究博士奖研金名单出炉!三位华人博士生入选,每人42000美元
  18. 传感器发展历史,你知道吗?(图文并茂)
  19. Springboot 发邮件端口问题
  20. Docker( 八)docker的安全以及安全加固

热门文章

  1. POJ 3683 【2-sat+求一组可行解】.cpp
  2. Ubuntu下配置Nginx HTTPS
  3. jquery实现心算练习
  4. EXECL使用技巧(转)
  5. 【复盘】小朋友的奇思妙想
  6. 【怎样写代码】向现有类型“添加”方法 -- 扩展方法(二):扩展方法的实现与调用
  7. AI 盯上了外包司机,看后视镜就被扣分,奖金拜拜!
  8. 谁是“艾灵”?是腾讯的真国风 AI 虚拟人!
  9. 「AI 质检员」在富士通上岗,效率比人工高 25%
  10. 用AI打造科技公益新模式,腾讯发起公益创新挑战赛,聚焦三大社会问题