TextTopicNet:CMU开源无标注高精度自监督模型

（关注52CV——有价值有深度的公众号~）

自监督模型是继GAN之后Yann LeCun看好的世界模型。

本文来自于Carnegie Mellon University和Universitat Autonoma de Barcelona研究团队的最新论文，展示了自监督学习在计算机视觉领域的巨大潜力。
基于深度学习的计算机视觉方法的巨大成功在很大程度上依赖于大规模的训练数据集。这些带有丰富标注的数据集有助于网络学习到具有鉴别能力的视觉特征。收集和标注这些数据集需要大量的人力，并且这些标注仅限于少数广为人知的类集。作为替代方案，通过设计利用可自由使用的带有自监督信息（self-supervised）的辅助任务来学习视觉特征已经在计算机视觉社区中变得越来越流行。
在本文中提出了利用多模态（这里是文本-图像模态）上下文为计算机视觉算法的训练提供自监督信息的想法。展示了通过训练CNN来预测语义文本上下文的问题可以有效地学习具有足够鉴别力的视觉特征，具体地说，这个问题就是对于一幅特定图像它更有可能成为哪一类语义文本的插图。在实现方法上，使用了流行的文本嵌入技术来为深度学习CNN的训练提供自监督信息。
最终的实验证明，与最近出现的自监督（self-supervised）或自然监督（naturally-supervised）方法相比，提出的TextTopicNet技术在图像分类，物体检测和多模态检索方面都达到了state-of-the-art的性能。

TextTopicNet方法总览
维基百科文章是包含某一主题的文本描述，这些文章往往还附有支持文本的说明性图像。使用文本嵌入框架生成文本信息的全局上下文表示。将整篇文章的这种文本矢量表示用于为CNN的训练提供自监督信息。

何为自监督学习？
自监督（self-supervised）或者又称为自然监督（naturally-supervised）学习是指利用与图像内在关联的非视觉信号作为监督视觉特征学习的形式。比如一篇文章插图周围的文本信息。

Topic Model生成监督信息
使用LDA（Blei等，2003）Topic概率作为图像和文本的共同表示。使用文本的Topic级的表示来监督卷积神经网络的视觉特征学习。通过使用CNN模型学习预测特定图像作为某一类语义上下文插图出现的概率的任务，达到学习可用于其他视觉任务的“通用”视觉特征。

使用的数据

来源于维基百科的网页。

1.ImageCLEF Wikipedia Collection

2.全部英文维基百科数据

TextTopicNet文本topic生成与CNN网络训练

使用LDA提取数据集中文本的topic，将topic的概率作为与其文本对应的图像CNN训练的监督信

将训练得到的CNN特征直接用于图像分类
直接提取网络中不同的层，使用one-vs-all SVMs方法在PASCAL VOC2007数据集上执行分类任务。除了LDA,文中尝试了多种Text Representation的文本嵌入方法。可以发现LDA主题模型取得了最好的效果。

PASCAL VOC2007上图像分类的每类平均精度
中间五行是其他自监督方法，最后两行是分别在ImageNet和Places数据集上训练的监督方法。相比于其他自监督方法，TextTopicNet的性能改进非常显著，即使与监督学习方法相比，在较难的类“bottle”也取得了最好的结果。

PASCAL VOC2007 上图像分类的%mAP
TextTopicNet (COCO)使用了COCO数据集的文本描述训练的，TextTopicNet (Wikipedia)打败了TextTopicNet (COCO)，说明提取的特征有良好的推广特性。

SUN397 数据集图像分类精度

当然除了直接使用CNN的层进行特征提取，也可以finetune整个CNN网络然后执行图像分类。

网络finetune后在PASCAL VOC 2007图像分类结果

网络finetune后在STL-10图像分类结果

使用Fast R-CNN和TextTopicNet特征在 PASCAL VOC2007上的目标检测结果
虽然相比于在ImageNet上预训练的Fast R-CNN精度低，但Fast R-CNN若只是用PASCAL VOC2007数据训练，精度只有40.7%mAP。

多模态检索
即使用TextTopicNet特征，执行输入图像查询文本，或者输入关键词查询图像。

多模态检索的示例

展示了模型提取的特征具有良好的通用语义表示能力。

欢迎随手转发，让更多人看到——不是看到这个算法好，而是看到你很努力

更多精彩推荐：

终于！商汤科技开源DAVIS2017视频目标分割冠军代码

重磅！彭博社“机器学习基础”教程视频及讲义下载

MultiPoseNet:人体检测、姿态估计、语义分割一“网”打尽

阿里巴巴提出Auto-Context R-CNN算法，刷出Faster RCNN目标检测新高度

计算机视觉研究入门全指南

TextTopicNet:CMU开源无标注高精度自监督模型相关推荐

新思路！商汤开源利用无标注数据大幅提高精度的人脸识别算法
出处"来自微信公众号:我爱计算机视觉" 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法这篇论文解决的问题与现实中的人脸识别应用场景密切相关,其假设已经有了少量已经标注的 ...
13亿参数，无标注预训练实现SOTA：Facebook提出自监督CV新模型
作者|陈萍来源|机器之心 Facebook AI 用 10 亿张来自Instagram的随机.未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA ...
最热开源无服务器函数：五大Fission架构参考
"无服务器"现在是极具诱惑的技术趋势,没有什么比管理服务器更让人痛苦.亚马逊.微软和谷歌都在云中提供无服务器专有接口.相较于这些云供应商的商业化产品,开源无服务器架构可免于被云厂商 ...
高效利用无标注数据：自监督学习简述
一只小狐狸带你解锁炼丹术&NLP 秘籍作者:huyber 来源:https://zhuanlan.zhihu.com/p/108906502 BERT的大热让自监督学习成为了大家讨论的热点 ...
ICCV 2019 | 微软开源无监督学习的医学图像配准方法：递归级联网络
点击我爱计算机视觉标星,更快获取CVML新技术编者按:目前,深度学习正广泛应用于医学图像配准领域.无监督机器学习方法能够广泛利用临床中产生的大量原始.无标注医学图像,然而现有算法对于变形大.变化复杂 ...
无标注数据是鸡肋还是宝藏？阿里工程师这样用它
阿里妹导读:针对业务场景中标注数据不足.大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示.这 ...
无标注数据是鸡肋还是宝藏？阿里工程师这样用它
阿里妹导读:针对业务场景中标注数据不足.大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示.这 ...
构想：中文文本标注工具（内附多个开源文本标注工具）
■ 项目地址 | https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关 ...
OpenCV开发团队开源计算机视觉标注工具CVAT
OpenCV开发团队开源计算机视觉标注工具Computer Vision Annotation Tool (CVAT) 同时支持图像和视频的标注,最大特点是专业!专业团队做的专业水准的工具! (关注& ...

TextTopicNet:CMU开源无标注高精度自监督模型

TextTopicNet:CMU开源无标注高精度自监督模型相关推荐

最新文章

热门文章