云时代架构之微店大数据开发平台架构演进
微店大数据开发平台架构演进
为什么需要大数据开发平台?
微店在16年4月份之前,数据开发流程基本是这样的:
开发人员通过公共账号登录安装了Hive、Hadoop客户端的gateway机器;编写自己的脚本,调试代码,完成后通过crontab配置脚本定时执行;为了防止脚本被其他同事修改,一些谨慎的同事会在每次开发完自己的脚本后同步一份到本机,后面为了实现版本控制,把脚本同步到了git;这存在诸多问题:如:效率低下;脚本或代码没有版本控制,开发人员想回滚到以前的版本很不方便等。为此,开发一个大数据开发平台,提高大数据开发的效率,为线上每天调度的任务保驾护航已迫在眉睫。
大数据开发平台建立在HDFS、YARN、HiveMeta的基础服务之上,目前支持通过Hive、Kylin查找数据,后面所有的数据查询入口将都集成在这里,包括:ES、Redis、Hades等,大数据平台目前支持Shell、Hive、MR、Spark四种任务类型。
大数据平台从数据层面来说,包括数据本身和元数据;从业务层面来说,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提高其分析、挖掘效率;从管理角度来说,为了提升开发效率,需要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。
在此基础上,一个完善的大数据架构,至少包括三个方面:
1,开发组件管理平台:用于搭建和管理大数据开发组件,如etl、hdfs、hbase、presto、kerbose等;
2,数据资产(元数据)管理平台:元数据采集、元数据管理、血缘分析、数据质量、数据标准、数据指标、数据生命周期管理等。
3,开发运维平台:数据脱敏、权限管理、调度管理、开发管理、发布管理、运维监控与预警等等。
遗留问题:
检测未跑任务。master挂掉或部署过程中的定时任务不会被触发,需要有机制发现这种任务。重新部署后,正在运行的任务会重新跑。正在运行的任务会被master取消掉,重新分配执行,如果任务执行需要较长的时间,这样做就是无法接受的。检测数据质量。目前输出表仅简单的检测了数据浮动(即数据大小),对于表中的数据内容需要进一步检测,以保证数据产出的合法性。
后续发展方向
资源账单。规范用户Hadoop资源使用。数据地图。方便用户找数据。血缘关系。方便用户追溯数据来源。数据流动。方便数据互通。
因此,我认为大数据架构设计需要兼顾不同需求,根据不同的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不同的平台方案。对于大数据架构师,不仅要熟悉各种组件的使用及其适用场景,还需要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,能否提高数据分析效率,能否提高数据挖掘的效率,能否保证数据质量,能否打通整个数据链条等。
文章来源:
https://mp.weixin.qq.com/s?__biz=MzIzMDEyNzM4NQ==&mid=2650956332&idx=1&sn=9fe0952942de8f96d9a1d12f66dcd462&chksm=f34ee05ac439694cb02b8e389f35e201aafea966f51c3a594dacdd29a4d22cde32954bd5bfc4&scene=21#wechat_redirect
转载于:https://www.cnblogs.com/news1997/p/11021883.html
云时代架构之微店大数据开发平台架构演进相关推荐
- 《微店大数据开发平台架构演进》阅读有感
<微店大数据开发平台架构演进>阅读有感 一.为什么需要大数据开发平台 微店在16年4月份之前,数据开发流程基本是这样的: 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gat ...
- 《微店大数据开发平台架构演进》读后感
<微店大数据开发平台架构演进>读后感 <微店大数据开发平台架构演进>这篇文章向我们介绍了八个问题,其中对Mars大数据平台构成.Mars系统架构设计.分布式系统架构.定时.依赖 ...
- 《微店大数据开发平台架构演讲》读后感
微店很熟悉的一个词汇,微店在16年4月之前,数据开发流程和现在是有很多的差异的; 在16年4月前:数据的开发流程: 1.开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器: ...
- 微店大数据开发平台架构演进 1
<论语·卫灵公>有云:"工欲善其事,必先利其器." 意欲警示世人:要做好一件事,准备工作非常重要.简单来说,与其着急忙慌的开始做一件事,不如沉下心来仔细思考下如何做这件 ...
- 微店大数据开发平台架构演进
一.为什么需要大数据开发平台 传统的数据开发流程 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器: 编写自己的脚本,调试代码,完成后通过crontab配置脚本定时执行: ...
- 从 Airflow 到 Apache DolphinScheduler,有赞大数据开发平台的调度系统演进
点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统 ...
- 普元王葱权:数字化时代需要新一代的大数据应用平台架构
记者 | 杨丽 出品 | AI 科技大本营(rgznai100) 2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技 ...
- 集成开发环境-大数据开发平台的门户
什么是集成开发环境 这一篇,来谈一下大数据开发平台的门面,集成开发环境.什么是集成开发环境?顾名思义,就是IDE,哪个码农不知道IDE的,有胆你站出来! 不过IDE这个词也太普通了,在那些大厂玩大数据 ...
- 贝壳一站式大数据开发平台实践
分享嘉宾:仰宗强 编辑整理:刘春龙 出品平台:DataFunTalk 导读:本次分享嘉宾是来自贝壳大数据部门的仰宗强,详细介绍了针对贝壳的业务数据与需求的增长,逐步升级数据开发平台的探索实践过程,包括 ...
最新文章
- ArcEngine对Blob字段赋值的方法
- Java虚拟机工作原理详解
- mysql metadata lock(一)
- KlayGE中的FXAA已经完成
- 聊聊高并发(十七)解析java.util.concurrent各个组件(一) 了解sun.misc.Unsafe类
- 蓝桥杯2017年第八届C/C++省赛B组第三题-承压计算
- 一篇文章搞定Python多进程
- python中rawinput用法_Python 中 input()用法 以及与raw_input() 的区别
- eclipse git 上传工程 提交项目到 github
- 经典算法-(一)汉诺塔(河内之塔)
- 〖文字素材】 比 较 全 的 血 族 资 料
- 为什么Java编程语言用一种咖啡名做名字
- Linux查看目录busy,linux umount 提示"device is busy" 终极解决
- 全国省市县三级数据库
- spring加载流程之AnnotatedBeanDefinitionReader
- GPIF II designer使用说明+CYUSB3014芯片基本信息介绍——英文文档学习记录
- 从斗鱼Android开发二面被刷,到VR微创公司收留,我的NDK开发梦究竟缺了什么
- 从零配置专属neovim - 1.配置设计概述
- 抖音账号和视频都没有问题,为什么我的流量还是不好?丨国仁网络资讯
- 【五一专属活动】向所有热爱分享的“技术劳动者”致敬