NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收
为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了“技”高一筹系列专题直播。在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰,对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析,并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”,请查收!
直播 FAQ
Q1:Merlin 是否支持 10TB 以上的模型训练?
A:Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache (Model Oversubscription)机制。通过模型并行 Embedding 层,我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中,并将每个子训练集(比如一个月的数据)中用到的 Feature 缓存在GPU中,可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练。
Q2:训练数据读取太慢,怎么办?
A:Merlin NvTabular 重新实现了 TensorFlow 和 Pytorch 的DataReader,新的 DataReader 利用 GPU 加速数据的读取,并且支持在线 shuffle,在某些情况下性能可以达到原 TF DataReader 速度的24倍。
Q3:在 batchsize 很小的情况下,GPU 能用满吗?
A:Merlin HugeCTR 针对推荐系统模型和 GPU 硬件特性进行了算子的合并,从而充分利用 GPU 的众核架构,相比于其他框架在处理小 batch 时有更明显的优势,GPU 的计算效率更高。
Q4:一台机器一个 GPU 的低密度集群方案是否可以用于推荐系统训练?
A:由于推荐系统的模型结构以浅层模型为主,计算和通信比较大,GPU 间通信速度对整体性能影响较大,因此高密度服务器(如 DGX 服务器)或集群(如 SuperPOD)往往有助于提高整个系统的性能。
Q5:Merlin 的官方网站是什么?
A:
https://developer.nvidia.com/nvidia-merlin
https://github.com/NVIDIA-Merlin/Merlin
想要复习本期直播内容
或往期“视”界杯直播周相关内容的选手
在公众号后台发送“直播”,即可获取相关PPT
“技”高一筹专题直播第二期
将于6月24日19点上线
抓紧扫描下方海报二维码预约吧!
NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收相关推荐
- 今晚7点,NVIDIA专家深度解析全新推荐系统解决方案Merlin
腾讯广告算法大赛致力于通过赛事促进产研融合,助力选手探索算法技术的应用前景.为了让选手进一步打开视野,站在行业技术最前沿,腾讯广告算法大赛官方正式开启"技"高一筹专题直播,持续为选 ...
- 如何使用nVidia Falcor渲染框架进行GPU加速的图片处理
图片处理在很多领域中都有很大的需求,比如计算机视觉等.比较简单且常用的方法是用openCV读取图片,然后用numpy进行图片处理.然而,只有当处理算法能够完全用numpy中提供的矩阵操作实现时,才能够 ...
- Linux下JavaCv使用GPU加速(Nvidia显卡)
1.环境配置,安装显卡驱动,cuda,cudnn linux上安装NVIDIA显卡驱动以及深度学习需要的cudn.cudnn.pytorch_宜城有少年的博客-CSDN博客_linux安装 ...
- 构建可扩展的GPU加速应用程序(NVIDIA HPC)
构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...
- NVIDIA Jarvis:一个GPU加速对话人工智能应用的框架
NVIDIA Jarvis:一个GPU加速对话人工智能应用的框架 Introducing NVIDIA Jarvis: A Framework for GPU-Accelerated Conversa ...
- 程序怎么启动vasp_构建可扩展的GPU加速应用程序(NVIDIA HPC)
构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...
- 使用GPU加速图片处理的多种方案解析
图片处理是最常见的任务之一.如果是熟悉计算机视觉方向的肯定对OpenCV+Numpy的方案不陌生:用OpenCV读取图片,用Numpy的矩阵操作快速完成处理.由于OpenCV支持所有格式的图片,而Nu ...
- 记录一下折腾Ubuntu 20.04部署lammps GPU加速 2*AMD 7742 1*NVIDIA 3090
本人技术小白,目前已经安装好Ubuntu 20.04,nvidia驱动版本470.86 安装cuda CUDA Toolkit 11.5 Downloads | NVIDIA Developer 登录 ...
- NVIDIA Tensor Cores解析
NVIDIA Tensor Cores解析 高性能计算机和人工智能前所未有的加速 Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度.最新一代将这些加速功能扩展到各种工作 ...
最新文章
- IDEA JNI配置
- 软件测试模型以及测试方法
- 毕业五年的音视频开发工程师过得怎么样了?
- linux下用户切换
- DDD理论学习系列(9)-- 领域事件
- 北森iTalentX 3.0:聚焦场景一体,开启HR全面数字化时代
- Java简单高精度合集
- Ext中的get、getDom、getCmp、getBody、getDoc的区别
- appium+python 【Mac】Android夜神模拟器
- 排序算法Java实现(希尔排序)
- AJAX, JSON.js,Newtonsoft.Json.dll,nunit.framework.dll 源代码
- 普华永道计算机在线测评题库,普华永道笔试题及经验
- 协调端到端的供应链管理——SCM
- 计算机怎么配置IP地址,如何设置电脑IP地址?
- 源码安装Zabbix5.0监控系统
- 机器学习之【蒙特卡罗法】
- 全景声制作软件 Spat Revolution 最新更新 v20.12
- 倍福plc的型号_EL9186——plc倍福模块+EL9100型号EL9010
- Navicata查看已经创建MySql的触发器
- SOA Presentation - SOA概念介绍
热门文章
- 用于对Compound协议进行无Gas投票和委托的社区工具发布
- SAP License:ABC作业成本法-平行记帐
- SAP License:SAP 初学者指南
- 企业网站+Axure企业官网通用模板+公司官网通用模板+web端高保真原型+门户官网+物流企业+门户网站+服务中心+产品中心+新闻中心+帮助中心+企业官网+公司官网+公司网站+登录注册+高保真交互
- Highcharts 显示图表
- 中国象棋口诀及要领精髓
- 自己封装了的AlertController
- 金币(NOIP2015 普及组第一题)
- pom中导入spingside包
- win10 免安装版本的MySQL的下载安装和配置