(关注52CV——有价值有深度的公众号~)

自监督模型是继GAN之后Yann LeCun看好的世界模型。

本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队的最新论文,展示了自监督学习在计算机视觉领域的巨大潜力。
基于深度学习的计算机视觉方法的巨大成功在很大程度上依赖于大规模的训练数据集。这些带有丰富标注的数据集有助于网络学习到具有鉴别能力的视觉特征。收集和标注这些数据集需要大量的人力,并且这些标注仅限于少数广为人知的类集。作为替代方案,通过设计利用可自由使用的带有自监督信息(self-supervised)的辅助任务来学习视觉特征已经在计算机视觉社区中变得越来越流行。
在本文中提出了利用多模态(这里是文本-图像模态)上下文为计算机视觉算法的训练提供自监督信息的想法。展示了通过训练CNN来预测语义文本上下文的问题可以有效地学习具有足够鉴别力的视觉特征,具体地说,这个问题就是对于一幅特定图像它更有可能成为哪一类语义文本的插图。在实现方法上,使用了流行的文本嵌入技术来为深度学习CNN的训练提供自监督信息。
最终的实验证明,与最近出现的自监督(self-supervised)或自然监督(naturally-supervised)方法相比,提出的TextTopicNet技术在图像分类,物体检测和多模态检索方面都达到了state-of-the-art的性能。

TextTopicNet方法总览
维基百科文章是包含某一主题的文本描述,这些文章往往还附有支持文本的说明性图像。使用文本嵌入框架生成文本信息的全局上下文表示。 将整篇文章的这种文本矢量表示用于为CNN的训练提供自监督信息。

何为自监督学习?
自监督(self-supervised)或者又称为自然监督(naturally-supervised)学习是指利用与图像内在关联的非视觉信号作为监督视觉特征学习的形式。比如一篇文章插图周围的文本信息。

Topic Model生成监督信息
使用LDA(Blei等,2003)Topic概率作为图像和文本的共同表示。使用文本的Topic级的表示来监督卷积神经网络的视觉特征学习。 通过使用CNN模型学习预测特定图像作为某一类语义上下文插图出现的概率的任务,达到学习可用于其他视觉任务的“通用”视觉特征。

使用的数据

来源于维基百科的网页。

1.ImageCLEF Wikipedia Collection

2.全部英文维基百科数据

TextTopicNet文本topic生成与CNN网络训练

使用LDA提取数据集中文本的topic,将topic的概率作为与其文本对应的图像CNN训练的监督信

将训练得到的CNN特征直接用于图像分类
直接提取网络中不同的层,使用one-vs-all SVMs方法在PASCAL VOC2007数据集上执行分类任务。除了LDA,文中尝试了多种Text Representation的文本嵌入方法。可以发现LDA主题模型取得了最好的效果。

PASCAL VOC2007上图像分类的每类平均精度
中间五行是其他自监督方法,最后两行是分别在ImageNet和Places数据集上训练的监督方法。相比于其他自监督方法,TextTopicNet的性能改进非常显著,即使与监督学习方法相比,在较难的类“bottle”也取得了最好的结果。

PASCAL VOC2007 上图像分类的%mAP
TextTopicNet (COCO)使用了COCO数据集的文本描述训练的,TextTopicNet (Wikipedia)打败了TextTopicNet (COCO),说明提取的特征有良好的推广特性。

SUN397 数据集图像分类精度

当然除了直接使用CNN的层进行特征提取,也可以finetune整个CNN网络然后执行图像分类。

网络finetune后在PASCAL VOC 2007图像分类结果

网络finetune后在STL-10图像分类结果

使用Fast R-CNN和TextTopicNet特征在 PASCAL VOC2007上的目标检测结果
虽然相比于在ImageNet上预训练的Fast R-CNN精度低,但Fast R-CNN若只是用PASCAL VOC2007数据训练,精度只有40.7%mAP。

多模态检索
即使用TextTopicNet特征,执行输入图像查询文本,或者输入关键词查询图像。

多模态检索的示例

展示了模型提取的特征具有良好的通用语义表示能力。

欢迎随手转发,让更多人看到——不是看到这个算法好,而是看到你很努力

更多精彩推荐:

终于!商汤科技开源DAVIS2017视频目标分割冠军代码

重磅!彭博社“机器学习基础”教程视频及讲义下载

MultiPoseNet:人体检测、姿态估计、语义分割一“网”打尽

阿里巴巴提出Auto-Context R-CNN算法,刷出Faster RCNN目标检测新高度

计算机视觉研究入门全指南

TextTopicNet:CMU开源无标注高精度自监督模型相关推荐

  1. 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法

    出处"来自微信公众号:我爱计算机视觉" 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法 这篇论文解决的问题与现实中的人脸识别应用场景密切相关,其假设已经有了少量已经标注的 ...

  2. 13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型

    作者|陈萍 来源|机器之心 Facebook AI 用 10 亿张来自Instagram的随机.未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA ...

  3. 最热开源无服务器函数:五大Fission架构参考

    "无服务器"现在是极具诱惑的技术趋势,没有什么比管理服务器更让人痛苦.亚马逊.微软和谷歌都在云中提供无服务器专有接口.相较于这些云供应商的商业化产品,开源无服务器架构可免于被云厂商 ...

  4. 高效利用无标注数据:自监督学习简述

    一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:huyber 来源:https://zhuanlan.zhihu.com/p/108906502 BERT的大热让自监督学习成为了大家讨论的热点 ...

  5. ICCV 2019 | 微软开源无监督学习的医学图像配准方法:递归级联网络

    点击我爱计算机视觉标星,更快获取CVML新技术 编者按:目前,深度学习正广泛应用于医学图像配准领域.无监督机器学习方法能够广泛利用临床中产生的大量原始.无标注医学图像,然而现有算法对于变形大.变化复杂 ...

  6. 无标注数据是鸡肋还是宝藏?阿里工程师这样用它

    阿里妹导读:针对业务场景中标注数据不足.大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示.这 ...

  7. 无标注数据是鸡肋还是宝藏?阿里工程师这样用它​

    阿里妹导读:针对业务场景中标注数据不足.大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示.这 ...

  8. 构想:中文文本标注工具(内附多个开源文本标注工具)

    ■ 项目地址 | https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关 ...

  9. OpenCV开发团队开源计算机视觉标注工具CVAT

    OpenCV开发团队开源计算机视觉标注工具Computer Vision Annotation Tool (CVAT) 同时支持图像和视频的标注,最大特点是专业!专业团队做的专业水准的工具! (关注& ...

最新文章

  1. Windows电脑C盘老是报红
  2. sql语句的一些细节东西学起来还是很费劲的,希望以后注意下。算是经验吧
  3. Photoshop一些人像处理技巧总结
  4. Spring源码分析-Spring事务源码分析
  5. 微信小程序页面引入公用头部底部
  6. 第一个云原生步骤:自动化构建、测试和部署(二)
  7. Android App层通过JNI从驱动获取Input Event
  8. IOS TableView详解
  9. jsonp 使用选择器
  10. 【数学建模】基于matlab贫困生评测系统【含Matlab源码 1744期】
  11. RGB HSV CMYK LAB颜色空间
  12. 用windows电脑制作macos系统安装U盘
  13. onActivityResult不能收到setResult(RESULT_OK, intent);的回调
  14. 深信服防火墙console波特率_[网络技术]深信服防火墙配置详细步骤 pdf文件[16.26MB]-码姐姐下载...
  15. SpringBoot的@Value注解设置默认值
  16. Unable to open shape_predictor_68_face_landmarks.dat
  17. 单核CPU的并发和并行(操作系统篇)
  18. Texture Haven Spider
  19. 苹果手机用android,用习惯了苹果手机还能从苹果换到安卓吗?
  20. 大数据主要学习什么?

热门文章

  1. F. 张胖胖玩多米诺骨牌 (南阳理工oj—21新生第二场招新赛)
  2. div自动滚动_从手机滚动丢帧问题,学习浏览器合成与渲染层优化
  3. pandas apply函数_Pandas学习笔记(四)
  4. css 下边框 90%,css怎么设置下边框
  5. python的read函数调用报错_从零开始学Python(七):文件存储I/O流和异常捕捉
  6. oracle加密表空间,加密表空间
  7. mysql proxy ro-pooling.lua_MySQL读写分离
  8. 怎么用睡袋拉人_宝宝晚上翻身踢被子又着凉了,别再盖被子,给宝宝穿婴儿睡袋吧...
  9. python显示当前中文日期_Python--获取当前日期和时间(含中文格式)
  10. python 爬虫框架_Python实战:爬虫框架(6)