一、为什么需要大数据开发平台

传统的数据开发流程

开发人员通过公共账号登录安装了Hive、Hadoop客户端的gateway机器;

编写自己的脚本,调试代码,完成后通过crontab配置脚本定时执行;

为了防止脚本被其他同事修改,一些谨慎的同事会在每次开发完自己的脚本后同步一份到本机,后面为了实现版本控制,把脚本同步到了git;

传统的开发流程面临的问题

效率低下。

脚本或代码没有版本控制,开发人员想回滚到以前的版本很不方便。

若开发人员疏忽,添加新的需求后未经过调试,将可能会影响生成的数据,进而影响线上业务。

任务缺乏权限控制,可登陆gateway的任何人都可修改、运行脚本。

对于脚本中依赖的表,只能预估它每天产生的时间,一旦它产出延迟,将影响数据的产出。

任务失败无任何报警,只能依靠人工发现。

任务失败重新恢复后无法自动通知依赖下游重新生成。

任务失败要逐层向上游查找最源头的任务失败原因,排查异常繁琐。

一旦gateway机器故障,所有的任务都将灰飞烟灭,毫无疑问这将是一场灾难。

二、大数据开发平台应具备的功能特征

Mars具备的功能特性:

引入版本控制,方便开发人员回滚到之前版本,快速恢复线上调度的任务。

规范大数据开发、测试、上线的流程。

权限控制,任务的所有人、管理员才可以操作任务。

依赖调度,所有依赖的任务执行成功,自动触发自身执行。

任务执行失败,发送执行失败消息给任务所有人,人工介入。

手动恢复任务,恢复成功后,自动通知下游的任务重新执行。

任务依赖图谱,成功失败用不同颜色区分,失败源头一目了然。

任务信息存储在数据库,Mars机器采用分布式系统架构,即使单台机器故障也不会影响使用。

输入输出检测,判断输入表是否准备好,检测输出表数据是否完整。

合理使用Hadoop资源。用户只能使用所属团队指定的hadoop队列。

本文参考链接:https://mp.weixin.qq.com/s?__biz=MzIzMDEyNzM4NQ==&mid=2650956332&idx=1&sn=9fe0952942de8f96d9a1d12f66dcd462&chksm=f34ee05ac439694cb02b8e389f35e201aafea966f51c3a594dacdd29a4d22cde32954bd5bfc4&scene=21#wechat_redirect

转载于:https://www.cnblogs.com/zyt-bg/p/10989282.html

微店大数据开发平台架构演进相关推荐

  1. 《微店大数据开发平台架构演进》阅读有感

    <微店大数据开发平台架构演进>阅读有感 一.为什么需要大数据开发平台 微店在16年4月份之前,数据开发流程基本是这样的: 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gat ...

  2. 《微店大数据开发平台架构演进》读后感

    <微店大数据开发平台架构演进>读后感 <微店大数据开发平台架构演进>这篇文章向我们介绍了八个问题,其中对Mars大数据平台构成.Mars系统架构设计.分布式系统架构.定时.依赖 ...

  3. 云时代架构之微店大数据开发平台架构演进

    微店大数据开发平台架构演进 为什么需要大数据开发平台? 微店在16年4月份之前,数据开发流程基本是这样的: 开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器:编写自己的脚 ...

  4. 微店大数据开发平台架构演进 1

    <论语·卫灵公>有云:"工欲善其事,必先利其器." 意欲警示世人:要做好一件事,准备工作非常重要.简单来说,与其着急忙慌的开始做一件事,不如沉下心来仔细思考下如何做这件 ...

  5. 《微店大数据开发平台架构演讲》读后感

    微店很熟悉的一个词汇,微店在16年4月之前,数据开发流程和现在是有很多的差异的; 在16年4月前:数据的开发流程: 1.开发人员通过公共账号登录安装了Hive.Hadoop客户端的gateway机器: ...

  6. 贝壳大数据OLAP平台架构演进

    分享嘉宾:肖赞 贝壳 资深工程师 编辑整理:赵冬生 出品平台:DataFunTalk 导读:随着大数据的持续发展及数字化转型的兴起,大数据OLAP分析需求越来越迫切,不论是大型互联网企业,还是中小型传 ...

  7. 从 Airflow 到 Apache DolphinScheduler,有赞大数据开发平台的调度系统演进

    点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统 ...

  8. 普元王葱权:数字化时代需要新一代的大数据应用平台架构

    记者 | 杨丽 出品 | AI 科技大本营(rgznai100) 2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技 ...

  9. 贝壳一站式大数据开发平台实践

    分享嘉宾:仰宗强 编辑整理:刘春龙 出品平台:DataFunTalk 导读:本次分享嘉宾是来自贝壳大数据部门的仰宗强,详细介绍了针对贝壳的业务数据与需求的增长,逐步升级数据开发平台的探索实践过程,包括 ...

最新文章

  1. 北京赛区总结,以及。。。
  2. jitwatch查看JIT后的汇编码
  3. ubuntu11.10+git+svn works
  4. bat 服务启动脚本
  5. spring boot部署war包打包插件配置
  6. 这位挪威博士是如何成为阿里云PolarDB资深架构师的?
  7. javascript document.cookie
  8. 使用计算机仓储管理,计算机在医药仓库管理中的应用
  9. w3school和w3cschool两个网站有什么关系和区别?
  10. 车辆工程计算机发展前景,车辆工程专业就业方向有哪些 就业前景怎么样
  11. 企微主页_企业微信名片对外怎么显示官网和小程序?
  12. 基于python分析微信好友的性别分布,区域分布,词云分析,头像拼接
  13. H3C 无线优化经验
  14. 运放-环路控制系统-零点、极点、频宽、波特图、二阶、RC概念
  15. 数据禾|甘肃省国家湿地公园功能区划数据
  16. 创宇区块链|Inverse Finance 安全事件分析
  17. A - 可以教学姐画画嘛QAQ
  18. 拉肚子差评回复模板_女子吃外卖烧烤后拉肚子给差评,老板电话骂人后还说“欧耶”...
  19. 关于Attention的超详细讲解
  20. 车道线识别之——增强黄色车道线

热门文章

  1. iOS开发 - 微信扫描二维码登录网页的原理
  2. 贷款那些事之还款方式折扣还款(六)
  3. .NET Core StackExchange.Redis使用方法
  4. 多网卡电脑野外作业建议
  5. PDF文件被加密不能复制打印,一个方法教你解除
  6. 打印出指定的“钻石”图案。
  7. getSupportFragmentManager().beginTransaction().add方法报错
  8. 力扣每日一题 到达终点数字
  9. 服务器端提供ios图形验证码,iOS 生成图片验证码(实用功能)
  10. Emscripten 单词_雅思课堂|6大方法,让你高效记单词