简介: 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

作者:新浪微博数据计算平台系统架构师 曹富强

本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

微博介绍

微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

微博机器学习平台(WML)优势

微博机器学习平台的特点是样本规模大,百亿级样本,实时性比较高,是分钟级,然后模型规模是百亿级,模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9,平台业务多,场景丰富迭代快。

微博机器学习平台(WML)CTR模型

微博机器学习平台的CTR模型经过数字版本的迭代,从1.0的离线机器学习到3.0的离线和深度,到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代,目前支撑的参数规模达千亿级,服务峰值达百万QPS,模型更新是10分钟量级。

微博机器学习平台(WML)架构

我们看一下微博机器学习平台的架构,微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法,提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎,计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰富的算法。基于这些算法,训练的模型,我们入到我们WeiPS模型库,然后通过WeiServing对外提供在线推理服务。

微博机器学习在阿里云上实践

我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐,使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练,比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线,业务推荐效果提升10%。基于Flink搭建了实时计算平台,集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路,作业规模上千。整体来说阿里云建设机器学习有几大优势:支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。

微博深度学习平台(WDL)典型业务场景

接下来介绍微博深度学习相关的业务,目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。

微博深度学习平台(WDL)架构

基于在线gpu的机器,我们通过K8s和Yarn管理,然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库,对外提供两路服务,一个是通过AI服务直接对外提供AI输出能力,另外就是我们的计算服务WeiStorm,集成了数据流,调用WeiServing RPC服务框架,实时生成多媒体特征,对外提供在线服务推理。

微博深度学习平台(WDL)多媒体特征生成

微博机器学习深度平台多媒体特征的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的处理输出到样本库,然后通过我们WeiServing分布式训练模型调用,输出到模型库,这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理,在线推理的话消费多媒体实时数据流,调用我们的WeiServingRPC框架,输出多媒体特征,然后应用到业务,这条链路的话,我们通过对账系统、case追踪、全链路监控去做服务保障,成功率是99.99%,延时是秒级延时。开发模式是通过UI化、配置化、一键部署。

微博深度学习平台(WDL)基本功能

微博深度学习平台产品功能的话,一个是样本库,然后分布式训练,模型库,在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储,对在各节点上零散的样本进行统一管理;分布式训练的话,内置常用深度学习算法并持续新增成熟的算法,规范样本读取,训练gpu集群的灵活调度和训练模型的统一存储;模型库的话提供分布式系统和本地两种存储方式,为在线推理服务提供模型;在线推理服务,支持Python和C++模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为HTTP服务,对外直接提供AI的能力,实现AI能力的直接输出;计算服务,基于内部的多媒体分发系统,接入多媒体数据流,调用在线推理服务,实时生成多媒体特征。

微博深度学习平台(WDL)业务实践

微博深度学习平台业务实践,早期的话基于单机训练处理大规模数据时训练周期长,迭代慢,影响业务效果。 于是我们提供了多媒体深度学习服务方案,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是:分布式训练极大缩短了训练时间,为快速业务迭代提供良好基础;一体化服务让我们只需要专注于模型算法优化,提高业务效率,整体上为业务赋能和业务承建产生了巨大的推动力。

原文链接

本文为阿里云原创内容,未经允许不得转载。

微博机器学习平台云上最佳实践相关推荐

  1. 针对《等保2.0》要求的云上最佳实践——网络安全篇

    简介:伴随着国内企业上云步伐的加快,越来越多的企业需要对云上关键业务进行等级保护自查或完成相关认证.本文以<GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求>中所要求 ...

  2. 博云容器云、DevOps 平台斩获可信云“技术最佳实践奖”

    7 月 21 日,2022 可信云大会在北京顺利开幕,会上中国信通院颁布了可信云最佳实践评选结果.博云容器云和博云牧繁 DevOps 平台成功入选可信云技术最佳实践云原生-容器及管理.可信云最佳实践软 ...

  3. 使用 CNF 测试套件测试云原生最佳实践

    Joel Hans为CNCF撰写的社区帖子 电信行业是当今日益数字化的经济的支柱,但在发展以满足现代基础设施实践方面面临着艰巨的新挑战.电信是如何陷入这种境地的?由于事故或停机的风险非常严重,该行业几 ...

  4. 抛砖引玉(3): 微信云开发最佳实践

    抛砖引玉(3): 微信云开发最佳实践 概览 微信云开发是一个打通了微信生态的BaaS (后端即服务)平台,开发方便,快捷,计费友好,适合个人开发者,以及小团队使用. 它主要由 云数据库,云存储,云函数 ...

  5. 自建K8S迁移镜像、应用至阿里云ACK最佳实践

    简介:本最佳实践构建以下场景: 1.以河源ECS构建Harbor仓库,模拟IDC的镜像仓库服务. 2.以河源ECS构建Registry仓库,模拟IDC的镜像仓库服务. 3.以河源地域模的ECS搭建K8 ...

  6. 韵达混合云深度解析:Docker助力大规模云上调度实践

    在2016杭州云栖大会第二日,韵达快运集团高级总监张磊在智慧物流专场分享了<大数据在物流行业应用突破--大规模云上调度实践>.他主要从韵达上云过程.云上资源调度实践.未来发展三个方面进行了 ...

  7. 干货 | 如何在京东云上简单实践CI流程

    如何在京东云上简单实践CI流程 在如今的互联网时代,随着软件开发复杂度的不断提高,软件开发和发布管理也越来越重要.目前已经形成一套标准的流程,最重要的组成部分就是持续集成及持续交付.部署.在此,我们在 ...

  8. 构建企业私有云的最佳实践

    构建企业私有云的最佳实践 作为全球计算创新领域的领先厂商,英特尔在中国大力推进计算创新.近年来,英特尔除了在微处理器.芯片组.服务器.存储系统及软件等方面有重大的突破,也在云计算.大数据和企业移动化应 ...

  9. #阿里云原生最佳实践# 申通快递:核心业务系统云原生化上云技术详解

    随着云计算的快速发展和成熟,越来越多的企业正在把自己的核心系统向云上迁移,从而享受云计算带来的技术红利.IDC发布的<全球云计算IT基础设施市场预测报告>显示:2019年全球云上的IT基础 ...

最新文章

  1. 2021-2027年中国手机天线行业竞争格局分析及发展趋势预测报告
  2. Hibernate和iBATIS 优缺点比较
  3. The Hystrix timeout of XXms for the command XX-XX is set lower than the combination of the
  4. Lodop 打印控件
  5. mysql获取当前时间,及其相关操作
  6. 中国市场新财富与新人群趋势
  7. 奥比中光ROS启动节点运行异常退出:[camera/driver-2] process has finished cleanly
  8. 粗略写了使用GD2制作文字图像demo
  9. Pycharm安装python包的四种常用方式
  10. 曲苑杂坛--DML操作中如何处理那些未提交的数据
  11. 经典算法题-----猴子吃桃的问题
  12. 怎样将多个视频快速分割成两段或者多段
  13. php实现邀请好友,新版php获取MSN好友列表,邀请MSN好友
  14. SQL企业管理器打不开
  15. 程序员:是花光积蓄在深圳买房?还是回到长沙过“富余”生活?
  16. 用户数据反超Snap,Pinterest能否拾回独角兽光环?
  17. 2020最新免费网盘
  18. Linux命令 - zip命令
  19. linux设置steam为中文,Linux下Steam中支持中文的办法
  20. 520特辑 有一个IDC运维工程师的女朋友是什么体验

热门文章

  1. axure web组件下载_Element - 饿了么团队出品的神级桌面 UI 组件库
  2. python的类方法_python 类不实例化,调用类方法:@staticmethod 和 @classmethod
  3. 微众银行软件测试笔试题,微众银行4月8日笔试题目及部分代码
  4. android复杂列表滑动卡顿,Android 列表滑动性能优化总结
  5. python docx官网_【记录】尝试用DocxyGen为Python代码生成文档
  6. linux nginx postgresql php,常用Web环境架设手册PNP:Postgresql+Nginx+PHP
  7. java多次点击时事件_click事件的累加绑定,绑定一次点击事件,执行多次
  8. 即席和即兴_即兴说话小课堂
  9. java 网络编程connection timed out是什么意思_什么?听说这四个概念,很多 Java 老手都说不清...
  10. ts 模板库文件_vue与ts的使用模版