腾讯开源最大规模多标签图像数据集，刷新行业数据集基准

↑ 点击上方【计算机视觉联盟】关注我们

腾讯 AI Lab 公布的图像数据集 ML-Images，包含了 1800 万图像和 1.1 万多种常见物体类别，在业内已公开的多标签图像数据集中规模最大，足以满足一般科研机构及中小企业的使用场景。

此外，腾讯 AI Lab 还提供基于 ML-Images 训练得到的深度残差网络 ResNet-101。该模型具有优异的视觉表示能力和泛化性能，在当前业内同类模型中精度最高，将为包括图像、视频等在内的视觉任务提供强大支撑，并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

题目： Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

作者：Baoyuan Wu, Weidong Chen, Yanbo Fan, Yong Zhang, Jinlong Hou, Junzhou Huang, Wei Liu, Tong Zhang

【摘要】

在现有的视觉表示学习任务中，深度卷积神经网络（CNN）通常是针对带有单个标签的图像进行训练的，例如 ImageNet。然而，单个标签无法描述一幅图像的所有重要内容，一些有用的视觉信息在训练过程中可能会被浪费。在这项工作中，我们建议对带有多个标签的图像进行训练，以提高训练后的 CNN 模型的视觉表示质量。

为此，我们构建了一个大规模的多标签图像数据库，其中包含 18000000 个图像和 11000 个类别，我们称之为 Tencent ML-Images。我们基于大规模分布式深度学习框架，即 TFplus，在 Tencent ML-Images 上高效训练 ResNet-101 多标签输出模型，共 60 个 epoch，耗时 90 小时。通过 ImageNet 和 Caltech-256 上的单标签图像分类、PASCAL VOC 2007 上的对象检测、PASCAL VOC 2012 上的语义分割三个迁移学习任务，验证了 Tencent ML-Images checkpoint 的视觉表示质量良好。

腾讯 ML-Images 数据库，ResNet-101 的 checkpoint 以及所有训练代码已在 https://github.com/Tencent/tencent-ml-images 上发布。它有望推动研究领域和工业界的其他视觉任务的发展。

论文地址：

https://arxiv.org/abs/1901.01703

作者简介

第一作者是吴保元，现在是腾讯 AI Lab 的高级研究员，2014 年 8 月至 2016 年 11 月在 KAUST 进行博士后学习，与 Bernard Ghanem 教授一起工作。2014 年 6 月获得中国科学院自动化研究所模式识别国家重点实验室博士学位，导师为胡包钢教授。作者研究兴趣包括机器学习、计算机视觉和优化，包括图像标注、弱 / 无监督学习、结构化预测、概率图模型、视频处理和整数规划。

https://sites.google.com/site/baoyuanwu2015/home

其他作者包括樊艳波、张勇也都是博士毕业于中科院自动化研究所，师从胡包钢教授。

文章简介

这项工作在新建的多标签图像数据库（称为 Tencent ML-Images）上展示了大规模的视觉表示学习。文章从讨论以下两个问题开始。

为什么我们需要大规模的图像数据库？深度学习一直处于长期低谷，直到 2012 年，AlexNet 在 ILSVRC2012 挑战的单标签图像分类任务中取得了令人惊讶的成绩。深度神经网络的潜力是通过大规模的图像数据库释放出来的，即 ImageNet-ILSVRC2012 。此外，对于许多视觉任务，如目标检测和语义分割，获取训练数据的成本是非常高的。由于训练数据不足，需要在其他大型数据库上预先训练好的视觉呈现良好的 checkpoint 作为初始化，用于其他视觉任务 (如针对单标签图像分类的 ImageNet-ILSVRC2012)。

为什么我们需要多标签图像数据库？由于在大多数自然图像中存在多个对象，单个标注可能会遗漏一些有用的信息，从而误导 CNN 的训练。例如，同时包含牛和草的两个视觉上相似的图像可能分别被标注为牛和草。合理的方法是 “告诉”CNN 模型这两幅图像同时包含牛和草。

这项工作的主要贡献有四个方面：

建立了一个包含一千八百万张图像和一万一千个类别的多标签图像数据库，被称为 Tencent ML-Images，这是迄今为止最大的公开可用的多标签图像数据库。

利用大规模分布式深度学习框架，在 Tencent ML-Images 上有效地训练 ResNet-101 模型。此外，还设计了一种新的损失函数来缓解大规模多标签数据库中严重的类失衡问题。

我们通过迁移学习三种不同的视觉任务，证实了 Tencent ML-Images 和其预训练的检查点有着比较好的质量。

在 GitHub（https://github.com/Tencent/tencent-ml-images）上发布了 Tencent ML-Images 数据库，包含训练的 ResNet-101 检查点，以及从数据预处理，预训练，微调到图像分类和特征提取的完整代码。预计这将推动研究领域和工业界的其他视觉任务的发展。

附文章中部分结果

更多阅读：

https://arxiv.org/abs/1901.01703

https://github.com/Tencent/tencent-ml-images

声明：本文来源于网络，【专知】

如有侵权，联系删除

热文荐读

2018年12月精选文章目录一览

亲身经历2019年校招8个大厂心得体会，纯干货分享（大疆、百度...）

重磅！图森王乃岩团队最新工作—TridentNet：处理目标检测中尺度变化新思路
GANs最新综述论文: 生成式对抗网络及其变种如何有用【附pdf下载】
算法岗百里挑一热爆了，全球AI大厂薪酬大起底
史上最全！计算机科学领域顶会最佳论文大合集：微软研究院最多，清华排24MIT的周博磊博士如何解释深度学习模型（附PPT)
【资源下载】512页IBM沃森研究员Charu最新2018著作《神经网络与深度学习》（附下载链接）
人工智能相关领域的国际顶尖会议介绍

腾讯开源最大规模多标签图像数据集，刷新行业数据集基准相关推荐

腾讯 AI Lab 开源业内最大规模多标签图像数据集
2018年9月10日,腾讯AI Lab宣布将于9月底开源"Tencent ML-Images"项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最 ...
腾讯AI Lab正式开源业内最大规模多标签图像数据集
感谢阅读腾讯AI Lab第44篇文章.本文将介绍"Tencent ML-Images"项目正式开源情况. 今日,腾讯AI Lab宣布正式开源"Tencent ML-Ima ...
研究做得好，贡献也要大！腾讯AI Lab正式开源业内最大规模多标签图像数据集...
点击我爱计算机视觉标星,更快获取CVML新技术人工智能的能源是什么?是数据!要问这个世界上谁拥有图片数据最多?谷歌?亚马逊?Flicker?腾讯?阿里巴巴?52CV君不知道,但我每天几乎都在微信和Q ...
腾讯AI Lab开源业内最大规模多标签图像数据集（附下载地址）
今日(10 月 18 日),腾讯AI Lab宣布正式开源"Tencent ML-Images"项目.该项目由多标签图像数据集 ML-Images,以及业内目前同类深度学习模型中精度 ...
业内最大规模多标签图像数据集开源 | GitHub资源
允中发自凹非寺量子位报道 | 公众号 QbitAI 开源地址来了. 上个月,腾讯AI实验室宣布开源多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络Re ...
AI一分钟 | 特斯拉再融46亿；腾讯AI Lab宣布开源多标签图像数据集
▌特斯拉再融 46 亿近日,<证券日报>记者登录上海市工商行政管理局官网发现,特斯拉(上海)有限公司的注册资本已由 1 亿元增至 46.7 亿元,这意味着马斯克凭借特斯拉这匾金字招牌在上 ...
腾讯开源ML-Images，超越谷歌成业内最大多标签图像数据集
策划编辑 | Vincent 作者 | 腾讯 AI Lab 采访 | Natalie 编辑 | Vincent AI 前线导读:2018 年 9 月 10 日,腾讯 AI Lab 宣布将于 9 月底开 ...
腾讯开源业内最大多标签图像数据集，附ResNet-101模型
允中发自凹非寺量子位报道 | 公众号 QbitAI 鹅厂福利,又是开源. 最迟本月月底,腾讯AI Lab将开源"Tencent ML-Images"项目. 不仅要开源多标 ...
马化腾首谈腾讯开源时，鹅厂已在Github上放出82个项目，标星24万+ | 附AI项目链接...
乾明发自凹非寺量子位报道 | 公众号 QbitAI "腾讯希望在科研领域投入更多力量,把'科技向善'纳入公司新的使命与愿景.我们将通过内外部开放源代码等方式,积极参与'全球科技共同 ...

腾讯开源最大规模多标签图像数据集，刷新行业数据集基准

腾讯开源最大规模多标签图像数据集，刷新行业数据集基准相关推荐

最新文章

热门文章