Fly-AI竞赛服务平台 flyai.com

在开始学习之前推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。

无需标签,自我分析数据!

Facebook的新AI模型在革计算机视觉的命?

刚刚,Facebook宣布了一个在10亿张图片上训练的AI模型——SEER,是自监督(Self-supervised)的缩写。

该模型包含10亿个参数,可以在几乎没有标签帮助的情况下识别图像中的物体,并在一系列计算机视觉基准上取得了先进的结果。

要知道,大多数计算机视觉模型都是从标记的数据集中学习。

而Facebook的模型则是通过暴露数据各部分之间的关系从数据中来生成标签。

这一步被认为对有朝一日实现人类终极智能至关重要。

新AI模型SEER在革计算机视觉的命?

参数一直是机器学习系统的基本组成部分,是从历史训练数据中得到的模型的一部分。

人工智能的未来在于是否能够不依赖于带注释的数据集,从给定的任何信息中进行推理。

只要提供文本、图像或其他类型的数据,AI就能够完美地识别照片中的物体、解释文本,或者执行任何要求它执行的其他任务。

Facebook首席科学家Yann LeCun表示,这是构建具有背景知识或「常识」的机器以解决远远超出当今AI任务的最有前途的方法之一。

我们已经看到了自然语言处理(NLP)的重大进步。其中,在大量文本上对超大型模型进行自我监督的预训练在自然语言处理方面取得重大突破。

现在,Facebook声称自家的SEER计算机视觉模型向这个目标迈进了一步。

它可以从互联网上的任何一组随机图像中学习,而不需要进行注释。

对视觉的自我监督是一项具有挑战性的任务。

对于文本,语义概念可以被分解成离散的单词,但是对于图像,模型必须自己推断哪个像素属于哪个概念。

同样的概念在不同的图像之间往往会发生变化,这使得问题变得更具挑战性。因此,要想掌握单个概念的变化,就需要查看大量不同的图像。

研究人员通过Instagram的公开的10亿张图片进行模型训练

他们发现,让人工智能系统处理复杂的图像数据至少需要两个核心算法:

一是可以从大量随机图像中学习,无需任何元数据或注释的算法;二是卷积神经网络(ConvNet)足够大,可以从这些数据中捕捉和学习所有视觉概念。

卷积神经网络在20世纪80年代首次提出,受到生物学过程的启发,因为模型中各组成部分之间的连接模式类似于视觉皮层。

SEER:10亿张图,无需标记,自主训练数据集

SEER模型结合了最近的架构家族「RegNet」和在线自我监督训练「SwAV」来规模训练数具有10亿参数的数十亿张随机图像。

科研团队改编利用了一种新算法,称为SwAV。它起源于FAIR的研究,后被应用于自我监督学习。

SwAV 使用在线聚类方法来快速分组具有相似视觉概念的图像,并且能利用图像的相似性改进自我监督学习的先进水平,而且训练时间减少了6倍。

这种规模的训练模型还需要一个在运行时间和内存方面都效率很高的,又不会损失较精确性的模型架构。

幸运的是,FAIR 最近在架构设计领域的一项创新催生了一个称为 RegNets 的新模型家族,它完全符合这些需求。

RegNet 模型能够扩展到数十亿甚至数万亿个参数,可以优化这些参数以适应不同的运行时间和内存限制。

科研团队对比了SEER在随机IG图像上的预训练和在ImageNET上的预训练,结果表明非监督特性比监督特性平均提高了2%。

为SEER技术添上最后一块砖的是VISSL自我监督学习通用库。

服务于SEER的VISSL是开源的,这个通用图书馆能让更广泛的群体可以从图像中进行自我监督学习实验。

VISSL是一个基于PyTorch的库,她允许使用各种现代方法在小规模和大规模上进行自我监督训练。

VISSL还包含了一个一个广泛的基准套件和一个包括了60多个预先训练模型的模型动物园(model zoo),使研究人员可以比较几个现代自我监督方法。

VISSL通过整合现有的几种算法,减少了对每个GPU的内存需要,提高了任意一个给定模型的训练速度,从而实现了大规模的自我监督学习。

SEER的自我监督模型建立在与VISSL相同的核心工具之上,并结合了PyTorch的自定义数据加载器,该加载器的数据吞吐量高于默认值。

自监督学习的未来

Facebook 表示,SEER在预先训练了10亿张公开的Instagram图片后,性能优于较先进的自监督模型。

用受欢迎的ImageNet10%的数据集中进行训练时,SEER仍然达到了77.9%的准确率。

当只有1%的数据集训练时,SEER的准确率是60.5% 。

接下来,Facebook将发布SEER背后的一些技术,但不会发布算法本身,因为它使用了Instagram用户的数据进行训练。

麻省理工学院计算知觉和认知实验室的负责人Aude Oliva表示,这种方法将使我们能够实践更多雄心勃勃的视觉识别任务,但是像SEER这样的尖端人工智能算法的庞大规模和复杂性也带来了问题。

SEER可能有数十亿或数万亿个神经连接或参数,这样的算法需要大量的计算能力,使可用的芯片供应变得更加紧张。

Facebook的团队使用了具有32GB RAM的 V100 Nvidia GPU,并且随着模型尺寸的增加,必须将模型放入可用的RAM中。

长期以来,自我监督学习一直是 Facebook 人工智能的一个重点,因为它使机器能够直接从世界上大量可用的信息中学习,而不仅仅是从专门为人工智能研究创建的训练数据中学习。

自我监督学习对计算机视觉的未来有着难以置信的影响,就像它在其他研究领域所做的那样。

消除对人工注释和元数据的需求,使计算机视觉社区能够处理更大、更多样化的数据集。

Facebook的研究人员表示,「这一突破可以实现计算机视觉的自监督学习革命。」

参考资料:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/​venturebeat.com


更多精彩内容请访问FlyAI-AI竞赛服务平台;为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台;每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。

挑战者,都在FlyAI!!!

Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途相关推荐

  1. Facebook新AI模型实现直接从非英语语言翻译到另一种非英语语言

    据外媒报道,机器翻译技术自诞生以来走过了漫长的道路.虽然像谷歌这样的翻译曾经粗糙.不可靠,而且只对最基本的翻译有用,但如今,由于AI的力量,它们可以实现惊人的准确.然而一些古老的翻译方法仍然存在. 比 ...

  2. Google开源新AI模型,语音区分准确率92%创新高 | 论文+GitHub

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一个AI音箱,认得每一个说话的对象. 所谓"千人千面",此之谓也.小孩说话,它就依照小孩的喜好和模式,老人票友,它的智 ...

  3. 文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

    Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频. Make-A-Video研究基于文本到图像生成技术的最新进展 ...

  4. Facebook 万字长文:AI 模型全部迁移至 PyTorch 框架

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | Facebook AI Blog 编辑 ...

  5. Facebook万字长文:AI模型全部迁移至PyTorch框架

    来源:新智元本文约3800字,建议阅读8分钟PyTorch 占领 Facebook. [ 导读 ] 2017年,PyTorch诞生,成为当下最流行的深度学习框架.近日,Facebook宣布让PyTor ...

  6. Facebook万字长文:AI模型将全部迁移至PyTorch框架

    来源:新智元 PyTorch自2017年推出以来,就迅速占领GitHub热度榜榜首,一度有赶超Tensorflow的趋势. 这是一个开源的Python机器学习库,基于Torch,底层由C++实现. 近 ...

  7. 文心一言云服务即将上线;紫光原董事长赵伟国被审查;任正非:未来AI大模型赛道不只是微软一家;李开复筹办新AI公司丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 紫光集团有限公司原董事长赵伟国涉嫌职务犯罪被移送检察机关审查起诉 近日,中央纪委国家监委网站消息,国家监委对紫光集团有限公司原董事 ...

  8. 独家 | 围绕DeepMind最新AI模型的炒作,忽视了它真正值得注意的地方(附链接)...

    文: Melissa Heikkilä 2022 年4月22日 翻译:陈超校对:zrx本文约1800字,建议阅读5分钟 一些人担忧关于这些工具喋喋不休的讨论正在对整个领域造成负面的影响. 这个月早期, ...

  9. PNAS新研究:剑桥学者发现,有些 AI 模型无法被计算

    来源:AI科技评论 作者:Ailleurs 编辑:陈彩娴 近日,剑桥学者在<美国科学院院报>(PNAS)上发表了一篇名为"The Difficulty of Computing ...

最新文章

  1. 微服务架构与Docker容器之间关系
  2. linux rsyslog 系统日志转发
  3. centos php编译安装mysql_CentOS手动编译安装Apache、PHP、MySQL
  4. BOOST_VMD_ASSERT_IS_NUMBER宏相关的测试程序
  5. python第三章上机实践_《机器学习Python实践》读书笔记-第三章
  6. mysql为什么添加索引_当我添加新索引时,为什么MySQL中索引的基数保持不变?
  7. django前后端分离部署
  8. 五十一、【Bluetooth蓝牙模块】
  9. 多年软件测试大牛分享成长经历,一个好的软件测试工程师应该做到这些!
  10. 全局光照模型与Rendering Equation(全局光照的最为基础的核心理论) .
  11. 最多添加3个标签,每个标签最长6字,空格或逗号隔开
  12. 解决 Visio 2016 打开弹出“windows正在设置 请稍候”的问题
  13. 【EJB基础】开发一个简单的EJB应用程序
  14. pyside6(1):Qt 资源系统和qrc文件使用
  15. ClearCase的一些基本概念
  16. java将date类型转成yyyymmdd_java中的Date怎么转换成YYYYMMDD形式的
  17. MATLAB 指定线型和颜色
  18. 主数据管理功能模块、实施、提供厂商
  19. git在回退版本时HEAD~和HEAD^的作用和区别
  20. 【d3】树图-各种效果集合(附效果图)

热门文章

  1. java 你的职业规划是什么,Java工程师的职业发展规划是什么
  2. 基于PHP+MySQL的动漫网站的设计与实现
  3. 内存问题检测工具的介绍
  4. 简述Android模拟机和真机的区别,谈谈android模拟器和真机的差别
  5. 青少年python编程课哪家好,青少年Python编程课反馈与分享
  6. 【ChatGPT】与ChatGPT聊天,了解世界杯的前世今生
  7. 创建一个简单的应用程序窗口,显示“欲穷千里目 更上一层楼”。这一行文字从窗口中向左滚动显示,而且每显示一轮,改变一次颜色,改变一次字体,一个周期为4种颜色,分别为红、绿、黄、蓝,四种字体分别为宋体、楷
  8. 如何调整Ubuntu界面的大小
  9. 计算机网课课堂评价语,大学生课堂表现评语
  10. clickhouse安装 Requires: libstdc++.so.6(GLIBCXX_3.4.19)(64bit)