作者: 来源:CNET科技资讯网 时间:2014-11-21 15:45:25
关键字:阿里巴巴 实时数据

今年的双11,相信大家对上面央视新闻图片中的数字大屏不会陌生了,除了媒体之外,在阿里巴巴西溪园区的媒体报告厅、指挥部等“要地”都有它的身影。当天,这一大屏在全球400多家媒体前面惊艳出场,并完美谢幕。

阿里巴巴数据技术与产品部的实时数据公共层团队承担了这背后的实时数据计算的工作,不仅做到了后台数据全天24小时不间断,而且保证了数据的准确性。

实时的后台数据不仅用在全球媒体大屏,阿里巴巴生意参谋的商家数据实时直播、天猫赛马的实时数据、广告投放系统的实时数据都来自实时数据公共层。

那么,什么是数据公共层,而实时数据公共层又是什么呢?

数据公共层,是阿里巴巴服务于全集团的基础数据中心,由数据技术与产品部承建。数据公共层分为离线数据公共层和实时数据公共层。离线数据公共层即传统的数据仓库ODS层和DW层,而实时数据公共层顾名思义,可以理解成经过清洗和加工后的“实时”基础数据。

实时数据公共层的架构如下:

实时数据公共层有如下特征:

1高性能和可扩展性

实时计算的核心是基于Storm的实时计算引擎Galaxy和实时调度引擎Gallardo,系统的架构可以高性能、横向线性扩展。目前实时公共层主备计算集群的机器数量已接近2千台。从2012年开始,实时公共层团队经过近3年的技术积累,积累了丰富的实时计算性能优化经验。本次双11全天订单创建及支付过程有近60亿的变更量, 0点瞬时订单量超过每秒7万笔,全天日志量更是达到数百亿之多,数百个实时应用均能秒级响应。

2高可用性和SLA服务保障

为了保障服务的高可用性,实时数据公共层在各个环节都做了容灾备份。如数据源层面,除了TT提供服务外,还接入了MetaQ数据源,两个数据源都可以提供交易订单数据;在数据计算层面,实时计算平台Galaxy和HBase都有多套独立提供服务。为了配合容灾,OpenAPI可以做到5秒内完成接口切换,对整个前端应用透明,使整个后台数据服务做到高可用。

3平衡高精度和高吞吐量

实时数据有两大主要业务,交易和日志。交易数据要求高精度,在尽可能的情况下每一笔订单数据都不能遗漏;而日志数据则要求高吞吐量,允许一定范围内的数据误差。因此,在这两种不同的业务场景,公共层使用了不同的计算方式。在计算交易数据时,每一条消息都带有事务ID,在消息接收、消费的过程中需要对事务ID进行校验,一旦发生消息丢失可以请求数据源重发消息;而在计算日志数据时,利用了Bloom Filter特性,牺牲了精确度以换取时间和空间。

4OneData和OneService

由于阿里巴巴集团的业务繁多,对数据分析的需求量极其庞大,因此,阿里巴巴的数据公共层团队致力于建设一个基础的、公共的核心数据层,这里所有的数据都是经过OneData指标规范化和数据建模的,通过统一的数据服务OneService对集团的内外数据产品提供服务,从根本上避免了数据使用过程中指标定义不一致、重复建设等诸多问题。在实时数据公共层的建设过程中,通过对集团的实时交易、日志数据进行DWD建模,最终上线了100多个实时接口就服务了17个不同的团队,OneService接口每日调用次数接近1.5亿次,通过这项工作下线的重复计算任务直接节省的计算资源超过230万元。

阿里巴巴实时数据公共层助力双11媒体直播相关推荐

  1. 阿里巴巴集团CRO刘振飞:双11的六维技术准备

    2016年4月15日,阿里巴巴技术论坛在清华大学新清华学堂启幕.阿里巴巴集团CRO刘振飞围绕"双11"的技术演进以及互联网安全两大主题进行了演讲. 阿里技术的演进:从业务驱动到拓展 ...

  2. 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化商铺千人千面

    12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云云栖社区联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum ...

  3. 阿里巴巴CTO行癫:阿里双11是世界互联网技术的超级工程

    11月11日晚上10点,阿里巴巴集团CTO张建锋(花名:行癫)连线上海双11媒体中心,为700多位中外媒体记者介绍了阿里技术在双11中取得的突破与成绩,表示"阿里双11是名副其实的世界互联网 ...

  4. 对话阿里巴巴 CTO 程立:没有双 11 的极限压强,许多创新不可能发生

    今年双 11,阿里练了什么? 今年天猫双 11「光棍节」变成了「双节棍」(2020 年双 11 代号,11 月 1 日至 3 日第一波,11 月 11 日第二波).战线.周期比往年拉得更长,但令人意外 ...

  5. 阿里云CDN直播架构与双11晚会直播实战

    摘要: 分享人:阿里云CDN直播 高级技术专家 阙寒分享内容:双11直播活动是众多直播活动中非常典型的场景,离不开直播本身这个话题.所以今天的分享会从直播概述.直播架构.业务功能.直播监控.双11这几 ...

  6. 阿里云CDN直播架构与双11晚会直播实战 1

    摘要: 分享人:阿里云CDN直播 高级技术专家 阙寒分享内容:双11直播活动是众多直播活动中非常典型的场景,离不开直播本身这个话题.所以今天的分享会从直播概述.直播架构.业务功能.直播监控.双11这几 ...

  7. 电商“双11”or直播“双11”?

    2020双十一,电商玩法变了.双十一,直播电商已成主流. 日渐普及的直播电商,正在重构零售. 01 双十一,直播电商成主流 2020年,直播电商无疑是消费领域最火爆的话题.疫情之下,各行业争相入局,企 ...

  8. 争分夺秒:阿里实时大数据技术全力助战双11

    摘要: 12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的<2017阿里巴巴双11技术十二讲>顺利结束,集中为大家分享了2017双11背后的黑科技.本文是<争分夺秒:阿里实时 ...

  9. 第六章 大数据,6.1 双11数据大屏背后的实时计算处理(作者:藏六 黄晓锋 同杰)...

    6.1 双11数据大屏背后的实时计算处理 1. 双11数据大屏的实时计算架构 1.1 背景 2016年的双11我们的实时数据直播大屏有三大战场,它们分别是面向媒体的数据大屏.面向商家端的数据大屏.面向 ...

最新文章

  1. HDU 2519 新生晚会【求组合数】
  2. could not load inserted library: /usr/lib/libgmalloc.dylib
  3. delphi开发日志——基窗体,使用面向对象编程的编程思想创建基类
  4. UITabBarController详解
  5. IntelliJ idea 中使用Git
  6. div中直接绑定富文本值
  7. centos7 cuda测试_CentOS 7 安装 NVIDIA 显卡驱动以及CUDA驱动(自测可用)
  8. 基于JAVA+SpringMVC+Mybatis+MYSQL的疫情防控物业管理系统
  9. 通过分析系统日志,统计你的电脑开机时间的小程序PC PowerOn Time,附源码
  10. 会c 学plc编程语言,想学PLC编程?先弄清5种PLC专用语言!
  11. 解决DEFINE_string(result_path, result, Path for results) NameError:name 'os' is not defined
  12. 微信小程序---wxss模板样式
  13. php redis 搜索,一步步实现 Redis 搜索引擎
  14. python数据分析第三方库scipy_Python数据分析工具库-Scipy 矩阵支持库
  15. 欧洲中世纪名剑兵器谱
  16. 多重共线性的诊断与对策
  17. PLC内部等效电路怎么设计?
  18. c语言 关键字volatile和register
  19. u-boot v2018.01 启动流程分析
  20. 计算机考研视频哪个好,计算机考研视频课程哪个好

热门文章

  1. [Node] Node.js 包管理工具详解npm yarn cnpm npx pnpm
  2. l55f3320-3d linux升级,新年新气象 TCL L55F3320-3D 热销中
  3. SINAMICS DCM 功率单元的动态过载能力
  4. 深度学习最佳图书推荐(2019版)
  5. 一步掌握关键运营数据!金蝶用友标准方案有点东西
  6. ABB操作面板维修panel800按键屏pp846A 3BSE042238R2
  7. 计算机注销命令,如何用DOS命令实现定时自动关机,注销
  8. SQL的基本用法 (select,distinct,where,order by,insert into,update,delete)
  9. 2023年全年放假时间表:日历备忘录随时查看
  10. CAD软件中如何绘制特殊符号?