新记录诞生,腾讯云2分31秒打破ImageNet训练记录
点击上方,选择星标或置顶,不定期资源大放送!
阅读大概需要5分钟
Follow小博主,每天更新前沿干货
8月21日,腾讯云正式对外宣布成功创造了128卡训练ImageNet业界新记录,以2分31秒的成绩一举刷新了这个领域的世界记录。若改变跨机网络带宽,该成绩还可以进一步提升至2分2秒,将这一记录提升到一个全新的高度。
这次记录是基于公有云25Gbps的VPC网络环境,使用128块V100 GPU,借助最新研制的Light大规模分布式多机多卡训练框架创造的,最终成绩定格在2分31秒训练 ImageNet 28个epoch,TOP5精度达到93%,之前的业界最好成绩是2分38秒。据了解,这项记录的背后团队来自腾讯云智能钛团队、腾讯机智团队、腾讯优图实验室以及香港浸会大学计算机科学系褚晓文教授团队。
作为人工智能最重要的基础技术之一,深度学习的应用已经快速延伸到智慧城市、智能制造等众多场景。然而与需求同步衍生的是在深度学习训练中产生的诸多问题,比如数据量庞大且训练耗时长、计算模型/结构愈渐复杂、参数量大、超参数范围广泛等。这些问题已经阻碍了深度学习开发应用的进度。如何做高性能AI训练和计算,不仅关乎到AI生产研发效率,还对AI产品的迭代效率和成功上线产生重要影响,而高效训练的一个非常重要的基准是如何在更短时间内对大型可视化数据库ImageNet做一次训练。
正是在这样的背景下,腾讯云联合多个团队研发出了Light大规模分布式多机多卡训练框架,从深度学习训练的速度、多机多卡的扩展性、batch收敛等方面,为业界提供了一套全新的训练解决方案。
在单机训练速度方面,腾讯云首先利用GPU云服务器的内存和SSD云盘,在训练过程中为训练程序提供数据预取和缓存,加速了访问远程存储数据。而针对大量线程相互抢占导致CPU运行效率低下问题,腾讯云通过自动调整最优数据预处理线程数来降低CPU的切换负担,让数据预处理和GPU计算并行,提升了整体训练的速度。
在多机扩展训练方面,以往的TCP环境下,跨机通信的数据需要从显存拷到主存,再通过CPU去收发数据,计算时间短加上通信时间长,使多机多卡的扩展性受到了很大挑战。腾讯云则凭借Light高效扩展了多机训练,通过自适应梯度融合技术、层级通信+多流手段、层级topk压缩通信算法等,充分利用通信时的网络带宽,优化了跨机通信的时间。
此外,为充分利用大规模集群算力,目前业界主要通过不断提升训练的batch size来提升训练速度,但是batch size的增大会对精度带来影响和损失。为解决这一问题,腾讯云通过大batch调参策略、梯度压缩精度补偿、AutoML调参等方法,有效实现了在增大batch size的同时,最小化其对精度的影响。
通过 Light大规模分布式多机多卡训练框架及平台等一系列完整的解决方案,ImageNet的训练结果取得了新突破。并且在取得高效训练的同时,也将其能力集成到腾讯云智能钛机器学习平台,并广泛应用在腾讯内外部的业务。
接下来,联合项目团队还将进一步提升机器学习平台易用性,训练和推理性能,构建稳定、易用、好用、高效的平台和服务,为算法工程师提供有力的机器学习工具,助力各行各业用户业务的发展。
重磅!DLer-计算机视觉交流2群已成立!
大家好,这是DLer-计算机视觉微信交流2群!首先非常感谢大家的支持和鼓励,我们的计算机视觉交流群正在不断扩大人员规模!希望以后能提供更多的资源福利给到大家!欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。
本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台!!!
进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)
???? 长按识别添加,即可进群!
新记录诞生,腾讯云2分31秒打破ImageNet训练记录相关推荐
- 2 分 31 秒,腾讯云创造 128 卡训练 ImageNet 新记录
来源 | 腾讯云 编辑 | 白峰 转自 | 新智元 8月21日,腾讯云正式对外宣布成功创造了128卡训练ImageNet业界新记录,以2分31秒的成绩一举刷新了这个领域的世界记录. 刷新世界纪录:2分 ...
- 聚焦新基建,腾讯云十余项自研技术应用集中亮相
创立已有22年的腾讯,究竟积累了多少自研的技术? 从数据中心和网络建设,到数据库.存储.大数据等,伴随着业务的不断发展,腾讯在技术上也有了深厚的积淀.无论是从消费互联网到产业互联网,还是聚焦" ...
- 腾讯云直播 tcplayer, 前端 vue 项目经验记录
腾讯云文档 直播拉流:https://cloud.tencent.com/document/product/454/7503 1. 在 index.html 中引入初始化脚本(可将其保存在本地) &l ...
- 云端数智新引擎,腾讯云原生数据湖计算重磅发布
引言 是否遇到过,一个简单的业务统计需求却让数据工程师们抓耳挠腮? 是否遇到过,业务峰值周期明显,要么资源大量闲置, 要么线上疯狂告警? 是否遇到过,大数据集群运维复杂,需要投入大量技术工程师? 针对 ...
- 腾讯云IM服务端API集成踩坑记录(一)账号管理调试
1.新增用户要注意大小写: 2.除体验版外,其他版本都无法删除账号: 3.连接失败问题报错,需要增加pom依赖 问题截取:Caused by: java.lang.NoSuchMethodError: ...
- 【新用户专享】腾讯云发车,360元三年1核2G云服务器
为什么80%的码农都做不了架构师?>>> 最近发现腾讯云有新用户专享活动,360元即可购买云服务器1核2G.1M带宽,加赠50GB对象存储空间. 一般情况,阿里云腾讯云的1核1 ...
- AI 新基建怎么做,腾讯云正式公布全景布局
新基建正在成为中国经济发展的新动能,在政策的推动下,截止今年 3 月,已累计有 25 个省区市公布了未来的新基键投资计划,金额高达 49.6 万亿元,2020 年计划投入 7.6 万亿. 在新基建覆盖 ...
- 腾讯云老用户重新注册新账号算新用户吗?
腾讯云重新注册账号算新用户吗?实名认证信息和老用户不同的话,算新用户.腾讯云老用户重新注册账号算新用户吗?算,但有限制,为了防止羊毛党薅羊毛,腾讯云也是有风控系统的,腾讯云百科告诉大家如何重新注册账号 ...
- 腾讯云个人账号如何多开注册8个新用户账号
众所周知,腾讯云的优惠活动基本上都是新用户首购最优惠,然而腾讯云个人账号只能实名认证三个账号,3个账号都注册了,又想买服务器又不是新用户了怎么办,下面就由我来教大家如何实现再次注册5个账号,废话不多说 ...
最新文章
- 无人机、IoT 设备都有漏洞?专访以色列老牌安全企业Check Point | 拟合
- MRI炎症和结构损伤指标对TNF拮抗剂治疗AS患者获持续缓解的预测价值
- php创建mysql计划任务_有关创建PHP-MySQL后台任务的建议
- xxl-job执行定时job原理
- hibernate jpa_JPA /Hibernate刷新策略初学者指南
- IIoT 安防保卫战一触即发,Fortinet 亮剑
- 【实践】微博推荐算法实践与机器学习平台演进.pdf(附PPT下载链接)
- Jenkins的定时构建与轮询SCM
- 机器学习项目实战(一) 鸢尾花
- python阿拉伯数字转换为英文,python – 将东部阿拉伯数字转换为西方阿拉伯数字...
- Linux的userdel和deluser命令
- 埃森哲 X SAP:智慧转型高手论剑
- 华科教授因学生住宿问题投诉后勤处:被学校处分,取消两年评优资格
- ubuntu13.04(pear 8) 几个比较好用的软件
- Cryptohack刷题记录(一) General部分 WP
- ubunut安装teamview
- 看服务器是物理机还是虚拟机,如何判断一台机器是物理机还是虚拟机
- Multipath以及device mapper
- 西门子PLC模拟量滤波程序,西门子1200和1500通用,有电压或者电流或者热电偶选择
- 电子商务、电子商务项目、电子商务企业商业计划书模板
热门文章
- NSUserDefaults读取和写入自定义对象
- Windows server 2003 DNS 全攻略(一)
- 前端调用mysql异步_PHP 使用 Swoole – TaskWorker 实现异步操作 Mysql
- 计算机与智能化专业课程,人工智能专业课程有哪些 大学本科课程设置
- embedding层和全连接层的区别是什么 一般说embedding层,实现方式就是一个没有bias的fc层
- 表格(增加行号) http://www.blogjava.net/zeyuphoenix/archive/2010/04/19/318788.html
- sql同时操作两列_SQL简单查询
- 2021首期Nature封面:牛津大学ML算法实现10万高压非晶硅原子的模拟​ | AI日报
- 生成对抗网络学习笔记4----GAN(Generative Adversarial Nets)的实现
- 何恺明一作论文 MAE 已有人复现!PyTorch 版!(附链接)