为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了“技”高一筹系列专题直播。在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰,对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析,并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”,请查收!

直播 FAQ

Q1:Merlin 是否支持 10TB 以上的模型训练?

A:Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache (Model Oversubscription)机制。通过模型并行 Embedding 层,我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中,并将每个子训练集(比如一个月的数据)中用到的 Feature 缓存在GPU中,可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练

Q2:训练数据读取太慢,怎么办?

AMerlin NvTabular 重新实现了 TensorFlow 和 Pytorch 的DataReader,新的 DataReader 利用 GPU 加速数据的读取,并且支持在线 shuffle,在某些情况下性能可以达到原 TF DataReader 速度的24倍。

Q3:在 batchsize 很小的情况下,GPU 能用满吗?

A:Merlin HugeCTR 针对推荐系统模型和 GPU 硬件特性进行了算子的合并,从而充分利用 GPU 的众核架构,相比于其他框架在处理小 batch 时有更明显的优势,GPU 的计算效率更高

Q4:一台机器一个 GPU 的低密度集群方案是否可以用于推荐系统训练?

A:由于推荐系统的模型结构以浅层模型为主,计算和通信比较大,GPU 间通信速度对整体性能影响较大,因此高密度服务器(如 DGX 服务器)或集群(如 SuperPOD)往往有助于提高整个系统的性能。

Q5:Merlin 的官方网站是什么?

A

https://developer.nvidia.com/nvidia-merlin

https://github.com/NVIDIA-Merlin/Merlin

想要复习本期直播内容

或往期“视”界杯直播周相关内容的选手

公众号后台发送“直播”,即可获取相关PPT

“技”高一筹专题直播第二期

将于6月24日19点上线

抓紧扫描下方海报二维码预约吧!

NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收相关推荐

  1. 今晚7点,NVIDIA专家深度解析全新推荐系统解决方案Merlin

    腾讯广告算法大赛致力于通过赛事促进产研融合,助力选手探索算法技术的应用前景.为了让选手进一步打开视野,站在行业技术最前沿,腾讯广告算法大赛官方正式开启"技"高一筹专题直播,持续为选 ...

  2. 如何使用nVidia Falcor渲染框架进行GPU加速的图片处理

    图片处理在很多领域中都有很大的需求,比如计算机视觉等.比较简单且常用的方法是用openCV读取图片,然后用numpy进行图片处理.然而,只有当处理算法能够完全用numpy中提供的矩阵操作实现时,才能够 ...

  3. Linux下JavaCv使用GPU加速(Nvidia显卡)

    1.环境配置,安装显卡驱动,cuda,cudnn ​​​​​​linux上安装NVIDIA显卡驱动以及深度学习需要的cudn.cudnn.pytorch_宜城有少年的博客-CSDN博客_linux安装 ...

  4. 构建可扩展的GPU加速应用程序(NVIDIA HPC)

    构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...

  5. NVIDIA Jarvis:一个GPU加速对话人工智能应用的框架

    NVIDIA Jarvis:一个GPU加速对话人工智能应用的框架 Introducing NVIDIA Jarvis: A Framework for GPU-Accelerated Conversa ...

  6. 程序怎么启动vasp_构建可扩展的GPU加速应用程序(NVIDIA HPC)

    构建可扩展的GPU加速应用程序(NVIDIA HPC) 研究人员.科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性 ...

  7. 使用GPU加速图片处理的多种方案解析

    图片处理是最常见的任务之一.如果是熟悉计算机视觉方向的肯定对OpenCV+Numpy的方案不陌生:用OpenCV读取图片,用Numpy的矩阵操作快速完成处理.由于OpenCV支持所有格式的图片,而Nu ...

  8. 记录一下折腾Ubuntu 20.04部署lammps GPU加速 2*AMD 7742 1*NVIDIA 3090

    本人技术小白,目前已经安装好Ubuntu 20.04,nvidia驱动版本470.86 安装cuda CUDA Toolkit 11.5 Downloads | NVIDIA Developer 登录 ...

  9. NVIDIA Tensor Cores解析

    NVIDIA Tensor Cores解析 高性能计算机和人工智能前所未有的加速 Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度.最新一代将这些加速功能扩展到各种工作 ...

最新文章

  1. IDEA JNI配置
  2. 软件测试模型以及测试方法
  3. 毕业五年的音视频开发工程师过得怎么样了?
  4. linux下用户切换
  5. DDD理论学习系列(9)-- 领域事件
  6. 北森iTalentX 3.0:聚焦场景一体,开启HR全面数字化时代
  7. Java简单高精度合集
  8. Ext中的get、getDom、getCmp、getBody、getDoc的区别
  9. appium+python 【Mac】Android夜神模拟器
  10. 排序算法Java实现(希尔排序)
  11. AJAX, JSON.js,Newtonsoft.Json.dll,nunit.framework.dll 源代码
  12. 普华永道计算机在线测评题库,普华永道笔试题及经验
  13. 协调端到端的供应链管理——SCM
  14. 计算机怎么配置IP地址,如何设置电脑IP地址?
  15. 源码安装Zabbix5.0监控系统
  16. 机器学习之【蒙特卡罗法】
  17. 全景声制作软件 Spat Revolution 最新更新 v20.12
  18. 倍福plc的型号_EL9186——plc倍福模块+EL9100型号EL9010
  19. Navicata查看已经创建MySql的触发器
  20. SOA Presentation - SOA概念介绍

热门文章

  1. 用于对Compound协议进行无Gas投票和委托的社区工具发布
  2. SAP License:ABC作业成本法-平行记帐
  3. SAP License:SAP 初学者指南
  4. 企业网站+Axure企业官网通用模板+公司官网通用模板+web端高保真原型+门户官网+物流企业+门户网站+服务中心+产品中心+新闻中心+帮助中心+企业官网+公司官网+公司网站+登录注册+高保真交互
  5. Highcharts 显示图表
  6. 中国象棋口诀及要领精髓
  7. 自己封装了的AlertController
  8. 金币(NOIP2015 普及组第一题)
  9. pom中导入spingside包
  10. win10 免安装版本的MySQL的下载安装和配置