淘宝云梯分布式计算平台架构
以下是淘宝云梯分布式计算平台的整体架构,由数据分析网整理自网络资料,供大家学习参考。
一、系统架构
1、系统整体架构
数据流向从上到下,从各数据源、Gateway、云梯、到各应用场景。
2、淘宝云计算介绍
主要由数据源、数据平台、数据集群三部分构成。
二、数据同步方案
1、数据同步方案——概览
2、数据同步方案—— 实时同步VS非实时同步
3、数据同步方案—— TimeTunnel2 介绍
TimeTunnel是一个实时数据传输平台,TimeTunnel的主要功能就是实时完成海量数据的交换,因此TimeTunnel的业务逻辑主 要也就有两个:一个是发布数据,将数据发送到TimeTunnel;一个是订阅数据,从TimeTunnel读取自己关心的数据。TimeTunnel作为一个实时数据传输平台具有以下特点:
高效性:单点1k数据可以到4万TPS高可靠性:M-S模式时保证数据不丢失
高可用性:单点故障不影响整个集群服务
顺序性:当没有故障发生时,保证所有传输都
是顺序的,或者说一次连接内的传输是顺序的。
4、数据同步方案—— Dbsync 介绍
dbsync是一个用于同步服务库数据到HDFS的产品,通过分析数据库服务器的log文件来提取相应的数据库动作,进而达到数据库到HADOOP的数据同步,供相关部门提取增量数据。
Dbsync实时同步性能
记录大小 速度
2K 4M/s
9K 10M/s
应用场景:数据量 800G,00:10分备库打开:非实时同步完成时间0:55,实时同步完成时间0:25。
5、数据同步方案—— DataX 介绍
DataX是一个在异构的数据容器之间交换数据的工具。用于在任意的数据处理系统(RDBMS/NoSql/FS)之间交换数据。
Framework+plugin,Framework处理了高速数据交换的大部分问题,插件提供对数据处理系统的访问。
运行模式 :stand-alone / on hadoop
Webui + cui 基于元数据的高效配置。例子:表A sharding为32个库,1024张表,配置时间<1 min
DataX部分性能数据:
三、调度系统
1、调度系统——生产率银弹
2、调度系统——模块/子系统
3、调度系统——任务触发方式
Flow control/Data Trigger
Time Trigger
4、调度系统——调度方式
5、调度系统——什么是Gateway? 参与天网调度的资源。
– 数据同步(dataX, DBSync,TimeTunnel2…)
– 数据上传/下载(hadoop fs –put/get/getmerge)
– 日志收集
– Hive sql语句提交运行
– MapReduce程序提交运行
– 集群间数据同步(hadoop distcp)
6、调度系统—— Gateway规模及规划
用于生产的Gateway约30台,由天网调度统一进行任务分发,并行控制。
数据同步(dataX, DBSync,TimeTunnel2…)
数据上传/下载(hadoop fs –put/get/getmerge)
日志收集
Hive sql语句提交运行
MapReduce程序提交运行
集群间数据同步(hadoop distcp)
7、调度系统——gateway standardization
8、调度系统——Dynamic LB实现
9、调度系统——优先级策略(实现)
10、调度系统——优先级策略(意义)
11、调度系统——监控全景
四、元数据应用
面对上面的问题,靠经验丰富的架构师?还是靠智能的分析系统?
1、挖掘元数据金矿
2、基于元数据的开发平台
自动生成代码/集成开发平台
自动定位输入/自动代码
优化/自动部署/自动调度
配对分析/热点分
析/字段变更影
响/转换轨迹
元数据
3、基于元数据的分析平台——运行分析系统
4、基于元数据的分析平台——分析策略概览
5、基于元数据的分析平台——运行数据收集
6、基于元数据的分析平台——宏观分析策略
7、基于元数据的分析平台——定位系统瓶颈
每个环节的吞吐能力都是动态变化的。
在某个特定时间区间内,整个系统的吞吐能力由吞吐能力最小的一个环节决定。
如果需要发现系统的短板,需要对每个环节的吞吐曲线绘制出来。
针对系统的短板进行重点优化。
对于吞吐能力抖动比较大的环节,需要在前面设置队列进行缓冲。
瓶颈定位方法:
1 每个环节的吞吐曲线
2 两个环节之前缓冲队列的状态曲线
3 统一单位到task级别
8、基于元数据的分析平台——最值得优化的任务
从关键路径的角度考虑,任务A运行时间变化,对系统对影响可以用下图中阴影的面积来计算,它取决于下面
几个因素:
A 任务的当前运行时间——决定了当前位置的曲线斜率。
B 任务在几个叶子节点的关键路径上——决定了当前位置的曲线斜率。
C 其它关联任务的运行时间——决定A何时会离开某个关键路径,也就是决定了斜率的斜率。
出处:数据分析网整理自互联网分享资料《淘宝云梯分布式计算平台整体架构》
公众号后台回复【2T】有惊喜礼包!
猜你喜欢
1、GitHub 标星 3.2w!史上最全技术人员面试手册!FackBoo发起和总结
2、如何才能成为优秀的架构师?
3、从零开始搭建创业公司后台技术栈
4、程序员一般可以从什么平台接私活?
5、37岁程序员被裁,120天没找到工作,无奈去小公司,结果懵了...
6、滴滴业务中台构建实践,首次曝光
7、不认命,从10年流水线工人,到谷歌上班的程序媛,一位湖南妹子的励志故事
8、15张图看懂瞎忙和高效的区别!
淘宝云梯分布式计算平台架构相关推荐
- 淘宝云梯分布式计算平台整体架构
一.系统架构 1.系统整体架构 数据流向从上到下,从各数据源.Gateway.云梯.到各应用场景. 2.淘宝云计算介绍 主要由数据源.数据平台.数据集群三部分构成 二.数据同步方案 1.数据同步方案- ...
- 淘宝高性能可伸缩平台架构简介
一 应用无状态(淘宝session框架) 假如在session中保存了大量与客户端的状态信息,保存状态信息的server宕机时 通常通过集群解决,不仅有负载均衡,更重要的是要有失效恢复failover ...
- 阿里千亿级购物节背后,淘宝智能客服架构演进之路
" 淘宝上每天都有上百万的客服在线为上亿的买家提供服务,客服服务平台也从一个简单的分流系统逐步演进到覆盖买家.客服和客服主管三位一体的平台解决方案. 作者简介:淘宝技术部-媒体技术与消费连接 ...
- python爬取淘宝数据魔方_淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业 ...
- 分布式系统 淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据.每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的数据化运营 ...
- [转]浅析淘宝数据魔方技术架构
为什么80%的码农都做不了架构师?>>> 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.尽管从业务层面来讲,数据产品的研发难度并不高; ...
- 读《淘宝数据魔方技术架构解析》有感
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...
- B2B2C网上商城开发指南——基于SaaS和淘宝API开放平台
B2B2C网上商城开发指南--基于SaaS和淘宝API开放平台邢波涛 郭 娟 著 ISBN 978-7-121-12983-4 2011年4月出版 定价:49.00元 16开 388 页 内 容 ...
- python爬取淘宝数据魔方_《淘宝数据魔方技术架构解析》阅读笔记
淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...
- 淘宝数据魔方技术架构解析读后感
本次阅读文章为:淘宝数据魔方技术架构解析 文章地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&i ...
最新文章
- 五分钟教会你函数式编程与闭包
- 【完结】给新手的12大深度学习开源框架快速入门项目
- JVM异常之:方法区溢出OutOfMemoryError: PermGen space
- 鬼子进村(洛谷 1503)
- 【火炉炼AI】深度学习006-移花接木-用Keras迁移学习提升性能
- 值得收藏!深度报告解读NB-IoT
- 伯克利CS61A-Sum2019-Week1
- 如何学习硬件设计——实践篇
- 免费开源cms自助建站系统大全,不会编程也可以自己建网站
- Java高级之Float类和Double类的isNaN()方法
- Vue实战篇三十三:实现新闻的浏览历史
- Python处理CSV,Excel,PDF和图片
- JS padStart()方法和padEnd()方法(ES6新增方法)
- yolov5训练常见错误解决办法
- 杭电1856——并差集
- 2023 小微支付服务商系统开源源码
- 【渝粤题库】陕西师范大学201291 商法学 作业(高起专)
- SA-用calibre做xrc时用的cellmap文件怎么设置
- MacBook —— 修改host文件
- C语言课程设计——学生证管理系统