Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。

阿里对Hadoop的源码做了如下修改:

  • 改进Namenode单点问题
  • 增加安全性
  • 改善Hbase的稳定性
  • 改进反哺Hadoop社区
阿里数据处理的整体架构图如下:
架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。
  • 数据源:这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
  • 计算层:在数据源层实时产生的数据,通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”,是计算层的主要组成部分。在“云梯”上,每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。一些对实效性要求很高的数据采用“云梯”来计算效率比较低,为此做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
  • 存储层:针对前端产品设计了专门的存储层。在这一层,有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。
MyFOX的结构图如下:
Prom(即普罗米修斯)结构图如下:
  • 查询层(glider)
  • 产品层:数据魔方、量子恒道等

[Hadoop] 实际应用场景之 - 阿里相关推荐

  1. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  2. 面向高维稀疏数据场景,阿里妈妈宣布开源XDL深度学习框架

    据介绍,作为阿里巴巴旗下的大数据营销平台,阿里妈妈基于自身广告业务自主研发了深度学习框架X-Deep Learning(XDL),且已经大规模部署应用在核心生产场景. 阿里妈妈表示,这也是业界首个面向 ...

  3. 10个Hadoop的应用场景

    谁在用 Hadoop这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是 Hadoop的最大用户呢?首先想到的当然是它的 ...

  4. hadoop的应用场景分析

    其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据? 带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业 ...

  5. Greenplum roaring bitmap与业务场景 (类阿里云RDS PG varbitx, 应用于海量用户 实时画像和圈选、透视)

    摘要: 标签 PostgreSQL , Greenplum , varbitx , roaring bitmap , pilosa , varbit , hll , 多阶段聚合 背景 roaring ...

  6. Hadoop的应用场景

    其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据? 带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业 ...

  7. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景...

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

  8. 详解:从Greenplum、Hadoop到现在的阿里大数据技术

    对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起 ...

  9. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

最新文章

  1. ECSHOP在打印订单时打印出商品序号
  2. Windows四大傻X功能——那些拖慢系统性能的罪魁祸首
  3. 【Python】Python字典的高级用法-统计计数
  4. 代码讲解java_主要代码的讲解
  5. Go条件语句、switch和循环语句
  6. FPGA状态机跑飞原因分析
  7. python导入excel模块_python使用openpyxl模块操作excel
  8. Android 基础控件与线性布局
  9. MFC访问共享文件夹
  10. macbook 虚拟机安装win7
  11. Vue报错:Invalid prop: type check failed for prop .... Expected String with value 1, got Number 1
  12. 海康威视监控插件使用步骤
  13. 仿蘑菇街界面应用(1)
  14. 通过Gartner 2018年新兴技术成熟度曲线解读大数据人工智能技术的发展
  15. 劲爆战士第二部的陀螺叫什么名字
  16. 7-6 输出三角形面积和周长 (15分)
  17. linux中权限管理命令chmod
  18. 基辛格带领英特尔发起大反攻,以开源生态驱动异构计算
  19. 煤炭设备比例阀控制放大器
  20. Pyton接口自动化相关【易报错问题及解决方法】

热门文章

  1. 计算机网络仿真技术概述,浅谈计算机网络仿真技术及其研究
  2. 2021爱智先行者——EdgerOS Spirit 1深度使用体验与EdgerOS应用开发实践
  3. LOL国服哪个服务器最稳定,《LOL》国服服务器排名怎么样 国服服务器排名一览...
  4. CentOS Linux下的apache服务器配置与管理
  5. 【Trex】Trex初始化配置和server/client的启动
  6. Virtualbox识别U盾等USB设备
  7. 计算机摄影采用的成像媒介,数码摄影普及时代胶片摄影的存在价值
  8. 手用计算机电池,用BatteryCare正确管理二手笔记本的电池
  9. Linux 下的歌词秀软件
  10. 时间序列预测方法总结