今日,腾讯AI Lab宣布将于9月底开源“Tencent ML-Images”项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101构成。

该项目的开源,是腾讯AI Lab在计算机视觉领域所累积的基础能力的一次释放,为人工智能领域的科研人员和工程师提供充足的高质量训练数据,及简单易用、性能强大的深度学习模型,促进人工智能行业共同发展。

腾讯AI Lab此次公布的图像数据集ML-Images,包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。此外,腾讯AI Lab还将提供基于ML-Images训练得到的深度残差网络ResNet-101。该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

以深度神经网络为典型代表的深度学习技术已经在很多领域充分展现出其优异的能力,尤其是计算机视觉领域,包括图像和视频的分类、理解和生成等重要任务。然而,要充分发挥出深度学习的视觉表示能力,必须建立在充足的高质量训练数据、优秀的模型结构和模型训练方法,以及强大的的计算资源等基础能力之上。

各大科技公司都非常重视人工智能基础能力的建设,都建立了仅面向其内部的大型图像数据集,例如谷歌的JFT-300M和Facebook的Instagram数据集。但这些数据集及其训练得到的模型都没有公开,对于一般的科研机构和中小企业来说,这些人工智能基础能力有着非常高的门槛。

当前业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。腾讯AI Lab此次开源的ML-Images数据集包括1800万训练图像和1.1万多常见物体类别,或将成为新的行业基准数据集。除了数据集,腾讯AI Lab团队还将在此次开源项目中详细介绍:

(1) 大规模的多标签图像数据集的构建方法,包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中,团队充分利用了类别语义关系来帮助对图像的精准标注。

(2) 基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法,可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

(3) 基于ML-Images训练得到的ResNet-101模型,具有优异的视觉表示能力和泛化性能。通过迁移学习,该模型在ImageNet验证集上取得了80.73%的top-1分类精度,超过谷歌同类模型(迁移学习模式)的精度,且值得注意的是,ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

注:微软ResNet-101模型为非迁移学习模式下训练得到,即1.2M预训练图像为原始数据集ImageNet的图像。

腾讯AI Lab此次开源的“Tencent ML-Images”项目,展现了腾讯在人工智能基础能力建设方面的努力,以及希望通过基础能力的开放促进行业共同发展的愿景。

“Tencent ML-Images”项目的深度学习模型,目前已在腾讯多项业务中发挥重要作用,如“天天快报”的图像质量评价与推荐功能。如下图所示,天天快报新闻封面图像的质量得到明显提高。

优化前(左图)&优化后(右图)

此外,腾讯AI Lab团队还将基于Tencent ML-Images的ResNet-101模型迁移到很多其他视觉任务,包括图像物体检测,图像语义分割,视频物体分割,视频物体跟踪等。这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。

自2016年腾讯首次在GitHub上发布开源项目(https://github.com/Tencent),目前已累积开源覆盖人工智能、移动开发、小程序等领域的57个项目。为进一步贡献开源社区,腾讯相继加入Hyperledger、LF Networking和开放网络基金会,并成为LF深度学习基金会首要创始成员及Linux基金会白金会员。作为腾讯“开放”战略在技术领域的体现,腾讯开源将继续对内推动技术研发向共享、复用和开源迈进,向外释放腾讯研发实力,为国内外开源社区提供技术支持,注入研发活力。

腾讯AI Lab宣布将于9月底开源“Tencent ML-Images”项目相关推荐

  1. 2020腾讯AI Lab犀牛鸟专项研究及访问学者计划入选项目公布!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文来源:腾讯AI实验室  2020年度腾讯AI Lab犀牛鸟专项研究计划及访问学 ...

  2. 腾讯 AI Lab 开源业内最大规模多标签图像数据集

    2018年9月10日,腾讯AI Lab宣布将于9月底开源"Tencent ML-Images"项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最 ...

  3. 腾讯AI Lab开源世界首款自动化模型压缩框架PocketFlow:将深度学习装进口袋

    来源:腾讯AI 实验室 腾讯AI Lab机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架--PocketFlow,并即将在近期发布开源代码.这是一款面向移动端AI开发者的自动模型压缩 ...

  4. 腾讯首位17级杰出科学家诞生:腾讯AI Lab负责人张正友

    2021年1月8日腾讯宣布,腾讯Robotics X实验室及腾讯AI Lab负责人张正友博士成为腾讯首位17级研究员/杰出科学家,17级是腾讯历史上最高的专业职级. 腾讯AI Lab及腾讯Roboti ...

  5. 800万中文词,腾讯AI Lab开源大规模NLP数据集

    参加 2018 AI开发者大会,请点击 ↑↑↑ 10 月19 日,腾讯 AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含 800 多万中文词汇. 腾讯 AI Lab 表示,相比现有的公 ...

  6. 腾讯AI Lab开源业内最大规模多标签图像数据集(附下载地址)

    今日(10 月 18 日),腾讯AI Lab宣布正式开源"Tencent ML-Images"项目.该项目由多标签图像数据集 ML-Images,以及业内目前同类深度学习模型中精度 ...

  7. 对话腾讯AI Lab:即将开源自动化模型压缩框架PocketFlow,加速效果可达50%

    整理 | Jane 出品 | AI科技大本营 [导语]腾讯 AI Lab 机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架--PocketFlow,并即将在今年10-11月发布开源代 ...

  8. AI一分钟 | 特斯拉再融46亿;腾讯AI Lab宣布开源多标签图像数据集

    ▌特斯拉再融 46 亿 近日,<证券日报>记者登录上海市工商行政管理局官网发现,特斯拉(上海)有限公司的注册资本已由 1 亿元增至 46.7 亿元,这意味着马斯克凭借特斯拉这匾金字招牌在上 ...

  9. AI一分钟 | 今天,百度又多了一个好基友华为,还互赠了信物;腾讯AI Lab“肢体动作追踪”技术造出了个“AI 尬舞机”

    图片来源:凤凰网科技 一分钟AI 地平线面向智能驾驶和智能摄像头,推出征程和旭日两款嵌入式人工智能视觉芯片. 百度Apollo无人车队雄安开跑,河北省政府与百度宣布将共同筹建AI国家实验室. 搜狗推出 ...

最新文章

  1. UI自动化之特殊处理三(日期控件\表格\富文本)
  2. 陕西中小企业促进局 e-mail_重点注意2020陕西工程师职称评审破格指南
  3. 微型计算机所组装的流程图是,计算机、微型计算机的组成及工作过程.ppt
  4. 高可用集群原理概念详述
  5. TensorFlow :HelloWorld
  6. AD9371+ZC706 NO-OS初始工程搭建-Vivado2019.2
  7. c语言棋类ai怎么写搜索,新手立体四子棋AI教程(4)——启发式搜索与主程序
  8. Android内存分析工具
  9. checksum命令 linux_Linux命令大全完整版
  10. 分享一些图片懒加载组件的设计思路
  11. 互联网摸鱼日报(2022-10-08)
  12. node npm 升级
  13. javascript查找并输出英语文章出现最多次数单词,和英语字符中出现最多字母
  14. 国内期刊不需要审稿费和版面费汇总
  15. DTAS-电机机壳与端盖止口垂直度对电机气隙影响
  16. html在ie8下跳转新网址,ie8升级到ie11 单击“查看已安装更新”
  17. 华为手机系统天气小部件不见了,这样恢复!
  18. 完整详细的回归分析实例R语言实现(含数据代码)
  19. 【RPC框架、RPC框架必会的基本知识、手写一个RPC框架案例、优秀的RPC框架Dubbo、Dubbo和SpringCloud框架比较】
  20. 80%概率增加一个移动宽带设备限制

热门文章

  1. 【Network】高性能 UDP 服务应该怎么搞?
  2. php实现上传图片保存到数据库的方法
  3. 分布式监控之Zabbix-Server
  4. Silverlight BUG
  5. CodeForces - 431C k-Tree(dp)
  6. 电脑卡顿不流畅怎么解决_如何解决因电脑内存容量不足引起的卡顿?
  7. 机器学习-降维之主成分分析PCA算法原理及实战
  8. php self 内存,php导致内存溢出
  9. 不平等博弈问题学习记录(二)(对于超实数在博弈下左右相等的扩充)
  10. 遍历Windows系统的内核模块(源码)