微店大数据开发平台架构演进

  为什么需要大数据开发平台?

  微店在16年4月份之前,数据开发流程基本是这样的:

  开发人员通过公共账号登录安装了Hive、Hadoop客户端的gateway机器;编写自己的脚本,调试代码,完成后通过crontab配置脚本定时执行;为了防止脚本被其他同事修改,一些谨慎的同事会在每次开发完自己的脚本后同步一份到本机,后面为了实现版本控制,把脚本同步到了git;这存在诸多问题:如:效率低下;脚本或代码没有版本控制,开发人员想回滚到以前的版本很不方便等。为此,开发一个大数据开发平台,提高大数据开发的效率,为线上每天调度的任务保驾护航已迫在眉睫。

  大数据开发平台建立在HDFS、YARN、HiveMeta的基础服务之上,目前支持通过Hive、Kylin查找数据,后面所有的数据查询入口将都集成在这里,包括:ES、Redis、Hades等,大数据平台目前支持Shell、Hive、MR、Spark四种任务类型。

  大数据平台从数据层面来说,包括数据本身和元数据;从业务层面来说,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提高其分析、挖掘效率;从管理角度来说,为了提升开发效率,需要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。

在此基础上,一个完善的大数据架构,至少包括三个方面:

1,开发组件管理平台:用于搭建和管理大数据开发组件,如etl、hdfs、hbase、presto、kerbose等;

2,数据资产(元数据)管理平台:元数据采集、元数据管理、血缘分析、数据质量、数据标准、数据指标、数据生命周期管理等。

3,开发运维平台:数据脱敏、权限管理、调度管理、开发管理、发布管理、运维监控与预警等等。

  遗留问题:

  检测未跑任务。master挂掉或部署过程中的定时任务不会被触发,需要有机制发现这种任务。重新部署后,正在运行的任务会重新跑。正在运行的任务会被master取消掉,重新分配执行,如果任务执行需要较长的时间,这样做就是无法接受的。检测数据质量。目前输出表仅简单的检测了数据浮动(即数据大小),对于表中的数据内容需要进一步检测,以保证数据产出的合法性。

后续发展方向

  资源账单。规范用户Hadoop资源使用。数据地图。方便用户找数据。血缘关系。方便用户追溯数据来源。数据流动。方便数据互通。

因此,我认为大数据架构设计需要兼顾不同需求,根据不同的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不同的平台方案。对于大数据架构师,不仅要熟悉各种组件的使用及其适用场景,还需要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,能否提高数据分析效率,能否提高数据挖掘的效率,能否保证数据质量,能否打通整个数据链条等。

文章来源:

https://mp.weixin.qq.com/s?__biz=MzIzMDEyNzM4NQ==&mid=2650956332&idx=1&sn=9fe0952942de8f96d9a1d12f66dcd462&chksm=f34ee05ac439694cb02b8e389f35e201aafea966f51c3a594dacdd29a4d22cde32954bd5bfc4&scene=21#wechat_redirect

转载于:https://www.cnblogs.com/news1997/p/11021883.html

云时代架构之微店大数据开发平台架构演进相关推荐

  1. 《微店大数据开发平台架构演进》阅读有感

    <微店大数据开发平台架构演进>阅读有感 一.为什么需要大数据开发平台 微店在16年4月份之前,数据开发流程基本是这样的: 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gat ...

  2. 《微店大数据开发平台架构演进》读后感

    <微店大数据开发平台架构演进>读后感 <微店大数据开发平台架构演进>这篇文章向我们介绍了八个问题,其中对Mars大数据平台构成.Mars系统架构设计.分布式系统架构.定时.依赖 ...

  3. 《微店大数据开发平台架构演讲》读后感

    微店很熟悉的一个词汇,微店在16年4月之前,数据开发流程和现在是有很多的差异的; 在16年4月前:数据的开发流程: 1.开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器: ...

  4. 微店大数据开发平台架构演进 1

    <论语·卫灵公>有云:"工欲善其事,必先利其器." 意欲警示世人:要做好一件事,准备工作非常重要.简单来说,与其着急忙慌的开始做一件事,不如沉下心来仔细思考下如何做这件 ...

  5. 微店大数据开发平台架构演进

    一.为什么需要大数据开发平台 传统的数据开发流程 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器: 编写自己的脚本,调试代码,完成后通过crontab配置脚本定时执行: ...

  6. 从 Airflow 到 Apache DolphinScheduler,有赞大数据开发平台的调度系统演进

    点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统 ...

  7. 普元王葱权:数字化时代需要新一代的大数据应用平台架构

    记者 | 杨丽 出品 | AI 科技大本营(rgznai100) 2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技 ...

  8. 集成开发环境-大数据开发平台的门户

    什么是集成开发环境 这一篇,来谈一下大数据开发平台的门面,集成开发环境.什么是集成开发环境?顾名思义,就是IDE,哪个码农不知道IDE的,有胆你站出来! 不过IDE这个词也太普通了,在那些大厂玩大数据 ...

  9. 贝壳一站式大数据开发平台实践

    分享嘉宾:仰宗强 编辑整理:刘春龙 出品平台:DataFunTalk 导读:本次分享嘉宾是来自贝壳大数据部门的仰宗强,详细介绍了针对贝壳的业务数据与需求的增长,逐步升级数据开发平台的探索实践过程,包括 ...

最新文章

  1. ArcEngine对Blob字段赋值的方法
  2. Java虚拟机工作原理详解
  3. mysql metadata lock(一)
  4. KlayGE中的FXAA已经完成
  5. 聊聊高并发(十七)解析java.util.concurrent各个组件(一) 了解sun.misc.Unsafe类
  6. 蓝桥杯2017年第八届C/C++省赛B组第三题-承压计算
  7. 一篇文章搞定Python多进程
  8. python中rawinput用法_Python 中 input()用法 以及与raw_input() 的区别
  9. eclipse git 上传工程 提交项目到 github
  10. 经典算法-(一)汉诺塔(河内之塔)
  11. 〖文字素材】 比 较 全 的 血 族 资 料
  12. 为什么Java编程语言用一种咖啡名做名字
  13. Linux查看目录busy,linux umount 提示"device is busy" 终极解决
  14. 全国省市县三级数据库
  15. spring加载流程之AnnotatedBeanDefinitionReader
  16. GPIF II designer使用说明+CYUSB3014芯片基本信息介绍——英文文档学习记录
  17. 从斗鱼Android开发二面被刷,到VR微创公司收留,我的NDK开发梦究竟缺了什么
  18. 从零配置专属neovim - 1.配置设计概述
  19. 抖音账号和视频都没有问题,为什么我的流量还是不好?丨国仁网络资讯
  20. 【五一专属活动】向所有热爱分享的“技术劳动者”致敬

热门文章

  1. 液晶显示器HSYNC、VSYNC、DE、CLK关系
  2. location对象常见属性
  3. 小米小爱鼠标升级失败解决办法
  4. 前沿进展:宏观麦克斯韦妖背后的热力学几何原理
  5. 快餐店运行模拟C++程序源码代写
  6. 11.10②3D建模
  7. ps 历史记录画笔工具 实现抠图效果 实例 利用蒙版工具
  8. 申通快递:核心业务系统云原生化上云技术详解
  9. 全自主8K专业摄像机即将到来
  10. PS修改透明图片上的文字