2019独角兽企业重金招聘Python工程师标准>>>

最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。

以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。

1、1.0(2012.07)

1.1 数据:

1. 以支持用户报表需求为主

2. 初步沉淀出了一些底层模型

3. 模型计算程序以python为主

1.2 架构:

1. 存储和计算都在GreenPlum

2. GreenPlum采用双集群热备,一大一小,部分关键报表数据同时在两个集群存储、计算。

3.传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输程序每天凌晨解析落地的文件,然后将数据load到greenplum

4.调度:使用Quartz框架,依赖关系存放到表中,将依赖检查做成一个脚本,下游job 调用方法check上游任务是否完成

5.监控:用户程序自主判断异常,邮件、手机报警。

1.3 数据应用:

1.报表数据以邮件的形式发送给用户

2.用户可以使用自定义sql的web查询工具主动查询数据

2、2.0(2013.04)

2.1 数据:

1. 有了明确的模型分层:

 a) ODS:存放从原系统采集来的原始数据

b) DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需要

c) DM: 数据集市。基于部门或某一特定分析主题需要

d) RPT:直接面向用户的报表

2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

3. 基于volocity开发了canaan计算框架。

4. 开发了一些自定义的UDF

2.2 架构:

1. 存储和计算都基于HIVE

2. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储。

3. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖。

4. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互。

5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。

6. 传输:

a)参考阿里DataX的设计,实现了点评的异构数据离线传输工具wormhole

b)可视化界面,用户通过界面操作,方便的将数据导入导出数据

c)和调度、主数据等系统打通

7. 监控:由于任务数量增长较快(2000+),运维已经是个问题此外,因此,我们花了较大精力做了可视化的工作:

2.3 数据应用

1. 运营工具:用户自定义SQL,存储基于HIVE

2. 指标(KPI):用户自定义SQL,计算基于HIVE,结果放到GREENPLUM中,用户可以根据指标通过时间拼接成报表

3. HIVE WEB:非常便捷的HIVE WEB工具,可用性可以甩hive原生的web界面HWI几条街了

3、3.0(2013.12)

3.1 数据:

1. 有了明确的上层数据集市,各层数据集市打通,例如团购数据和流量数据打通

2. 形成了用户集市、商户集市两大主题

3. 和算法团队合作建设推荐系统

4. 提供框架和工具支持,引入外部数据开发者

3.2 架构:

1. 引入mysql、hbase,支持线上服务

2. 数据访问接口支持:API、Query Engine、RPC Service

3. 引入shark支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离

4. 数据质量:用户指定以条件,对计算结果做检查

3.3 数据产品:

支持DashBoard

4、4.0(2014.12)

4.1 数据:

1. 持续扩充/完善数据模型
2. 数据规范化,主要包括:APP日志、渠道
3. 完善数据开发平台,其他部门数据开发者100+

4.2 架构:

1. 建设Redis Cluster,支持实时推荐、用户画像等服务
2. Hadoop升级到YARN
3. 引入Storm支持实时计算
4. 推出类Kafka的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入
5. 建设元数据中心

4.3 数据产品:

推出专有数据产品,包括:运营效果评估、流量分析产品等。

Refer:

[1] 大众点评数据平台架构变迁

http://dwz.cn/28oSBm

[2] 饿了么数据仓库治理及数据使用

http://www.infoq.com/cn/presentations/data-warehouse-management-and-data-use-of-eleme

[3] 记录一下互联网日志实时收集和实时计算的简单方案

http://dwz.cn/2gq4dp

转载于:https://my.oschina.net/weiweiblog/blog/1558937

大众点评数据平台架构变迁相关推荐

  1. 大众点评网平台架构组高级工程师 hadoop 应用案例

    大数据 hadoop 应用案例 大众点评 =========================================================== 大众点评网从2011年中开始使用Had ...

  2. “大众点评开发者平台”正式上线

    1月21日,大众点评正式推出开放平台,国内首个O2O开发者平台--"大众点评开发者平台"正式上线.(大众点评开发者平台 http://developer.dianping.com/ ...

  3. 大众点评 数据爬取 (字体反爬)

    大众点评 数据爬取 (字体反爬) 项目描述 在码市的平台上看到的一个项目:现在已经能爬取到需要的数据,但是在爬取的效率和反爬措施上还需要加强. 项目分析 1.打开大众点评的首页'http://www. ...

  4. kettle全量抽数据_漫谈数据平台架构的演化和应用

    随着科技的发展,数据在当代社会中所起的作用越来越大.阿里巴巴集团创始人马云在2014年提出了DT(Data Technology)的概念:"人类正从IT时代走向DT时代".DT的核 ...

  5. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  6. 软件架构设计原则和大数据平台架构层

    1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

  7. clickhouse hbase性能对比_QQ音乐PB级ClickHouse实时数据平台架构演进之路

    OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...

  8. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  9. 多图技术贴:深入浅出解析大数据平台架构

    目录: 什么是大数据 Hadoop介绍-HDFS.MR.Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构 "就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在 ...

最新文章

  1. 运动目标跟踪__kalman
  2. 《深入理解Java虚拟机》笔记6——高效并发
  3. java jps监控_记录java虚拟机性能监控工具(jps与jstat)的使用
  4. 如何用C#检查硬盘是否是固态硬盘SSD
  5. mysql填写账户远程_如何开启MySQL的远程帐号
  6. 个人信息管理系统代码_Thymeleaf+SpringBoot+Mybatis实现的易游网旅游信息管理系统...
  7. 实验7 寻址方式在结构化数据访问总的应用
  8. LB负载均衡集群--LVS
  9. C++——《算法分析》实验叁——贪心算法与回溯法
  10. 基于JAVA+SpringBoot+Mybatis+Vue+MYSQL的在线考试系统
  11. linux 集群服务器设置,Zookeeper集群配置
  12. chm sharp安卓版_CHM Sharp(CHM阅读器)
  13. 每日excel学习之分类汇总和数据有效性
  14. 【译文】利用STAN做贝叶斯回归分析:Part 1 正态回归
  15. 乘车码来了,地铁公交都可以刷微信了
  16. 个人建设网站流程解说,手把手教你如何在阿里云上搭建自己的网站
  17. 2022道路运输企业主要负责人考试练习题及在线模拟考试
  18. 高光谱学习(一):高光谱遥感基础知识
  19. vs2019 中文离线安装包下载,类似ISO
  20. D-MNSV6-X8|D-MNSV7-X16磁导航传感器RS232/RS485(MODBUS-RTU)通讯协议说明

热门文章

  1. 【FFmpeg】结构体详解(二):AVStream、AVPacket、AVOutputFormat
  2. 慈溪计算机编程培训,慈溪Python编程培训
  3. jsp java数据,jsp怎么遍历数据
  4. javascript乘法和加法_JavaScript大数相加相乘的实现方法实例
  5. Java项目:在线拍卖竞价系统(java+SpringBoot+FreeMarker+Mysql+redis)
  6. 田忌赛马贪心算法_田忌赛马 贪心算法
  7. 【matlab】2019.5.10第一节上机课练习
  8. echarts X轴 或者 Y轴 添加标识线
  9. Spark的安装和使用
  10. * core-js/modules/es6.array.fill in ./node_modules/_cache-loader@2.0.1@cache-loader/dist/cjs.js??ref