这些年,互联网热词有很多。大数据绝对排进前三。

就像5G一样,都在说,但都不知道怎么用。大数据也一样。有些数据库从业人员,自己的库1T数据都不到,但在外面说起来,满嘴都是大数据,说的自己就跟专家一样。问他,什么是大数据,除了回答,大还是大之外,蹦不出其他词儿。

用概念解释概念,只会越来越模糊。了解大数据最佳途径之一,就是去拆解每个使用它的团队,做成了什么事。不说找100个案例来分析,只要看懂10个,就应该知晓大数据在整个数据团队之中的作用。

我已经拆解了5个,今天拆第6个。优酷的OLAP大数据引擎。前面拆解的美团,搜狐,菜鸟,医院,还有制造业大数据应用,围绕着ETL比较多,而今天的优酷OLAP,更多是在数据分析领域。

据个别自媒体发文,都引用马云的话,说,未来数据分析师会失业,但是我却不这么看。未来人人都必须是数据分析师。

言归正传,优酷这样的视频网站,数据分析类工作,必定是数据团队的重器所在。会员的CRM管理服务,视频播放的性能保障以及广告投放的策略分析,都需要数据分析提供决策依据。

所有的数据团队建设,基本都是业务先行,分层,定标准,定指标体系,数据架构跟上,定主题,定事实指标组合,定流量策略。所以,建设数据仓库的第一要事,就是对业务进行摸底和画像。

利用传统的数据仓库技术,为什么不能解决优酷现在遇到的问题?

仅仅从数据量大的角度来分析,原本百万行级数据,进行聚合,比如说要19分钟,通过分库分表或者读写分离,暂时能缓解一部分数据分析压力,但在下一次流量洪峰到来之时,这些架构,就不能100%说可以抵抗住计算需求。

因此,优酷需要更优质的方法,来一劳永逸的解决流量暴涨。与其他团队一样,他们需要借鉴其他公司的做法。

其实,国人做技术的,应该反思,为什么 这类解决方法都只能借鉴社区,而不是自研。大数据的发起者,毫无疑问,是谷歌。为什么谷歌会有这样强大的创新力,是值得深思的事。

优酷借鉴的是 GreenPlum, 一个 MPP 架构的分布式数据库引擎。底层以多个 PostgreSQL 组成。GreenPlum 最大的缺陷,是缺乏对硬件级别的容错。

所有节点都需要参与计算,万一有个别节点故障,本次计算就失败。但优势也很明显,所有节点参与计算,对于即时计算处理,非常有利。

第二个考察的对象是批处理架构,Map Reduce 和 Spark. 并发是加大了,并不需要所有界都参与计算,将任务节点和计算节点解耦,且任务节点会依据策略,分配不同数据的计算几点。

但Map 与 Reduce 先后的计算顺序,会增加节点之间的通信成本,始终阻碍处理速度的提升。而MR与Spark, 都有个共性的优势,故障容错非常好,且性能可以线性提高。遇到业务高峰,通过增加机器,就能解决。

既然,MPP与批处理各自的优势都明显,就融合到一起,对冲各自的劣势。MPP用来即时计算,即分析和实时报表,而批处理架构用来做离线清洗数据。

当然,既然两者架构结合的那么恰到好处,为什么 Greenplum 就不能把底层的 PostgreSQL 换成 HDFS 呢,这样两者就真正的融合,发挥的效能可以达到最高。其实业界也正在做了,MPP On Hadoop.

到了互联网领域,数据量超过一定级别后,多维度计算引擎就会失效。维度建模层面,多维度计算引擎使用的是预计算与存储的方法,就是以空间去换时间。一旦维度模型变了,一切就要重来。这也就是这些多维度计算引擎不灵活的终极原因。

既然不灵活,那么就要考虑替代方法。互联网领域开始了预计算处理的探索,市面上热议的预计算处理引擎有两个:Kylin 和 Druid.

Kylin 的功能,是在指定的多维度数据,进行预计算之后,将结果存储到HBase, 比如计算维度A的某个指标M,得到结果后,以KV的形式存储到 HBase. 但分析一项业务,并不仅仅使用维度A,还要兼顾维度B,C,D,这样的维度组合,对Kylin来说,是不堪重负的。
因此 Druid 自带有上卷功能的预计算就比Kylin要先进很多。老读者肯定都知道,之前我克服报表耗时15分钟的技巧,就是简单的SQL重写,使用 Group By Cube 的语法。这里的 Druid就好比 Group By Cube, 对维度进行灵活的交叉聚合,方便业务分析时,因为临时增加维度,而不能有效使用 Kylin。

市面上,所有的OLAP技术,基于两套方案实现:
1) MPP 和批处理
2) 预计算
MPP和批处理,会有很多组合,比如之前美团使用的就是Doris, 属于MPP一种。而批处理,Spark, MapR, 都是。预计算,传统的Cube和Kylin就是。

事情到这里,还没完。互联网业务之所以复杂,更在于实时性数据处理需求更旺盛。优酷在实时数据分析领域也遇到很多技术瓶颈。以上谈论的方法,应付离线的,准实时的BI报表,数据分析,还绰绰有余,但对于实时的报表就无能为力了。
因此,优酷在实时数据分析上,采用了自研的方法。自研并不是自己研发语言,框架之类的,而是采用开源工具,搭建自己的预计算系统。

当然,实时报表,用商业工具如FineReport也是可以做到的。

阿里的数据分析技术有多强?从优酷的大数据架构中,我学到了这些相关推荐

  1. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  2. 【转载】不是技术也能看懂云计算,大数据,人工智能

    (点击上方公众号,可快速关注) 作者: 刘超 www.cnblogs.com/popsuper1982/p/8505203.html 原标题:不是技术也能看懂云计算,大数据,人工智能 我今天要讲这三个 ...

  3. 看看华为、阿里大数据架构师的必备技能!

    嘘,我们只偷偷地告诉你一个人! 这个秘密职业就是 数据架构师 在国内大数据行业大概有以下几种岗位:数据架构师.数据分析师.数据挖掘工程师.数据算法工程师和数据产品经理. 接下来我们介绍第二种岗位 让我 ...

  4. 阿里云发布新一代CDN 6.0 主打云与大数据融合

    3月18日,阿里云发布极速CDN 6.0版,在业界首次提出Cloud Delivery Network(云分发网络)理念.新版CDN融合云计算和大数据技术,涵盖视频和移动两个解决方案以及大数据分析.H ...

  5. 小米宋强:生态化大数据平台的深度应用实践

    小米宋强:生态化大数据平台的深度应用实践 大数据 机器学习 点击预估 小米科技 算法 阅读1148  时下大数据市场越发火爆,各行各业趋之若鹜投入其中.然而随之产生的问题也越来越多,除去数据清洗.整理 ...

  6. 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

  7. 《大数据架构和算法实现之路:电商系统的技术实战》——1.5 相关软件:R和Mahout...

    本节书摘来自华章计算机<大数据架构和算法实现之路:电商系统的技术实战>一书中的第1章,第1.5节,作者 黄 申,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  8. 从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!

    大数据被称为新时代的黄金和石油,相关技术发展迅猛,所应用的行业也非常广泛,从传统行业如医疗.教育.金融.旅游,到新兴产业如电商.计算广告.可穿戴设备.机器人等.大数据技术更是国家科技发展和智慧城市建设 ...

  9. 瓜子大数据架构首曝光:掩藏在“二手车”背后的技术思考

    提起 车好多集团,可能有些人会感到陌生,但提起瓜子二手车.毛豆新车,想必都十分熟悉,脍炙人口的广告语使得大家忽视了这家公司的技术能力.车好多集团旗下拥有瓜子二手车.毛豆新车.车速拍与瓜子养车四大品牌, ...

最新文章

  1. pring Boot与MyBatista的集成
  2. P2502 [HAOI2006]旅行
  3. 空间连接时计算总和_【数据技术】城市功能混合程度计算
  4. usb接口电路_RS232接口与RS485的不同之处
  5. 01 前端篇(标签)
  6. JZOJ 4822. 【NOIP2016提高A组集训第1场10.29】完美标号
  7. 安防监控工程中该如何选择光端机?
  8. fastjson 1.2 版本之前的bug, 反序列化时自动排序,导致签名不过
  9. pythonfor循环列表排序_Python使用for循环对列表内元素进行排序方法
  10. java dispatchevent_java事件处理机制
  11. 解决main No MyBatis mapper was found in 的警告
  12. vb mysql边记录边统计_VB与Access连接,检索、核对、处理数据
  13. [转载] 七龙珠第一部——第072话 恶魔的厕所
  14. 每日算法系列【LeetCode 881】救生艇
  15. SAP 标准TCODE ME2L ME2N VL31等设置清单范围默认值(ME2L默认ALV显示)
  16. android vlc m3u8,Exoplayer播放m3u8文件Android
  17. 泛泰 A870 TWRP Recovery En英/Cn简/Tw繁
  18. 计算机毕业设计Django毕业设计论文源代码服装展示平台电商商城购物系统
  19. 服务器硬盘选金盘好吗,硬盘怎么选?NAS 盘、监控盘、企业级盘区别?
  20. 微信公众号怎么生成带粉丝关注统计的渠道二维码

热门文章

  1. 电商浪潮过后,无人零售会引领新零售的爆发吗
  2. 现代服务业行业税收筹划,信息技术公司节税方案
  3. 应用程序如何使用驱动程序
  4. Excel使用---excel2016___一般操作(搬,侵删)
  5. FOne easyModelVerifier™ 模型/代码Back-to-Back自动化验证工具
  6. python学习笔记---函数【廖雪峰】
  7. 拉勾课程--性能优化记录
  8. Python吴恩达深度学习作业13 -- Keras教程
  9. [19保研]清华大学交叉信息研究院优秀大学生夏令营
  10. 【华为OD机试 2023】完美走位(C++ Java JavaScript Python 100%)