管中窥豹之淘宝大数据平台
淘宝这两年比较火,马云为了淘宝整体上市卖个好价钱,吹了不少泡泡。但是从对大数据技术这块来看,个人以为目前淘宝是做的比较好的。淘宝为什么搞得好,还是因为马云本身较早的把数据放到了全公司的战略的地位,所以为了搞好大数据,网罗了不少人才。现在搞数据分析相关技术的同学,如果能拿到的淘宝的OFFER的话,给的都还是比较的高。
下面来简单看下淘宝的技术架构:(淘宝技术也在不停的发展,现在公开的资料可能有些老,当前的分析是基于公开的资料)
整个分为四层:
数据源:来自传统的数据库,RAC集群,系统日志等等。数据的采集用到的了Datax/DbSync/TimeTunnel。DataX是主要是用来异构数据容器交换数据用,所谓异构主要指传统的mysql/oracle和hdfs之间交换数据。DbSync是通过分析数据库服务器的log日志,来讲数据库的数据同步到hdfs上。TimeTunnel是参考kafka产品的一个数据库日志采集收取发布中间件,淘宝最新的中间件应该叫RocketMQ。(kafka相关信息可以参考我前面的文章《高速数据总线kafka分析》)
计算层:淘宝称之为云梯,主要是指hadoop MapReduce集群,查询分析用HIVE。除了非实时的用MapReduce,还有实时流部分,这部分暂时不知道具体用什么技术,可能是storm之类,后面再补充。
存储层:数据存储用到了传统关系数据库(Mysql),通过字段+条目的方式来进行数据库的分片,用关系型数据库主要是还是利用传统关系型数据库的较强的SQL表达式,对全属性交叉的采用Hbase,即上图中的Prom。存储层和上层应用通过中间层来隔离,屏蔽多数据源等具体技术实现。
应用层:主要支撑数据魔方,淘宝指数等等。
最后整个平台通过统一的调度和元数据管理。
以上分析的都是淘宝的数据调度,整个系统主要服务内部的数据分析。阿里集团还有一块云计算,主要是类似亚马逊一样提供弹性云服务,阿里称之为飞天系统。
总的来说
1.淘宝起步较早,对整个大数据平台有很多实际的经验,有个锻炼多年的团队,这是它和业界拉开差距的地方。具体的技术上,开源本身发展很快,目前来看中国的公司目前主要还是停留在选用业界技术和追赶开源的层面。
2.阿里将数据作为整个公司的战略,应该说还是比较有远见的,例如比较火的阿里金融,就是以数据作为支撑,相信破除了央行的监管问题之后,会有一个大的发展。
管中窥豹之淘宝大数据平台相关推荐
- 淘宝大数据之路【转】
原文地址:https://yq.aliyun.com/articles/62528 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数 ...
- 淘宝大数据解析之timetunnel
1. 下载安装JDK.本文使用的是jdk-7u4-linux-i586.tar.gz. 2. 下载apache-maven-3.0.4-bin.tar.gz,解压到目标文件夹: root@ubuntu ...
- 淘宝、美团、滴滴分别如何搭建大数据平台?
常规的大数据平台架构方案是基于大数据平台Lamda架构设计的.事实上,业界也基本是按照这种架构模型搭建自己的大数据平台. 接着我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的 ...
- 知名大厂大数据平台搭建案例分享
" 今天我们来看一下淘宝.美团和滴滴的大数据平台" 01 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典 ...
- 【硬刚大数据】企业级大数据平台建设参考 | 淘宝滴滴美团360快手京东
欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞.收藏.留言 ,欢迎留言交流! 本文由[王知无]原创,首发于 CSDN博客! 本文首发CSDN论坛,未经过官 ...
- 招联金融研发总监姜良雷做客选型宝 亲身讲述大数据平台选型历程
写在前面 招联金融的研发总监姜良雷, 这位被称为大数据领域"老司机"的姜总,从1997年开始便在招商银行从事数据相关的工作:过去20年,亲历了招行历代数据库的建设与开发.2014年 ...
- java spark淘宝大数据分析可视化系统(源码+数据+报告)
下载地址:https://download.csdn.net/download/a13689028602/18298100 项目介绍 java spark淘宝大数据分析可视化系统(源码+数据+报告) ...
- RocketMQ实战--大数据平台技术栈06
回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的RocketMQ! 作者丨张丰哲 www.jianshu.com/p/3afd610a8f7d 阿里巴巴有2大核心的分布式技术,一个是O ...
- 别被忽悠了!我来谈谈大数据平台的4个要点,你们写的都不是干货
公司要做数据分析,首先要考虑数据的准备,也就是数据平台的建设,最近接触了几个朋友都处于这一环节,而且其中一个在方案选型过程中,也是充满了纠结,而我也并没有在开始阶段给出合理全面的建议. 所以根据自己的 ...
- 支撑EB级规模的大数据平台深度揭秘
编者按: 4月20日,云栖大会走进深圳,由阿里云高级数据仓库专家陈鹏宇(花名:不老)分享的环节内容量巨大,引发现场用户关注.他分享的议题主要围绕阿里云数加平台,这一发布不久的大数据平台对很多人来说还比 ...
最新文章
- 生产者/消费者模式(阻塞队列)
- thinkphp 5 stdClass Call to undefined
- 打包,并自动安装SQL数据库
- distinct作用于后面所有的列吗_所有的鱼缸都适合放底砂吗?有的沙子让观赏鱼变美,有的起反作用...
- linux-查看文件类型-看本质-file
- 雪碧+滑动门,自适应宽度菜单
- 教你怎么在arxiv快速下载pdf论文
- 全志R311芯片规格书-datasheet资料分享
- 超好用的录屏软件 captura
- c语言竞赛信息管理系统,一种基于ACM程序设计竞赛在线评测系统解决方案
- 关于二级域名与三级域名的解释
- Studio用布局编辑器设计UI界面
- [转]关于模糊控制的理解
- 《乱音盒子》之《隐者小调》
- 模仿是一种最好的学习方法
- 两种PDF密码都忘记了,怎么办?
- Zabbix监控系统系列之八:日志监控
- 基于arcgis的python编程秘籍_基于ArcGIS的Python编程秘笈 第2版
- 电脑移动热点无法开启,一直显示正在断开;没有要共享的网络连接,但你的Internet仍打开
- 智能化金融新范本 银联商务与百度智能云合作再升级