很久没有更新博客了,今天主要是想谈一谈自己工作几年总结的心得。

1.浅尝辄止

数据库:基于mysql,oracle来实现数据库分析(存储在数据库,使用数据库语言直接分析,最后成报表形式)。
数仓&大数据平台;随着数据量暴增,业务复杂度增高,以及烟囱式开发的弊端(导致了数据不互通、重复造轮子、研发效率低的问题,相似的数据产品也有非常多,占用了大量的存储和计算资源,数据口径也无法对齐,内部沟通和管理成本变得很高),追求时效性等,采用大数据hadoop平台组件hdfs做存储,以hive为主的数仓体系,大数据计算引擎(一代是mapreduce,二代是tez,三代是spark),依据公司的适用性,会采用其他的计算引擎,比如MPP计算引擎架构(impala,presto,click house等),注重时效性,会采用实时组件,flink、spark streaming等,存储非关系性数据,采用no_sql组件,redis、hbase、mongondb、log4j等,构建一套完整数据仓库,对外提供出即席查询、报表开发、多维分析的能力。
数据中台:在大数据平台基础套了个数据服务的马甲。以数据中台组件化、智能化的方式,将通用的数据开发场景和工具进行沉淀,来提升开发效率,再通过数据的资产化、服务化的方式提升业务数据使用效率,让业务更加聚焦在数据应用和业务创新上,而不是花费大量的精力进行数据能力的重复建设。

补充说明:
关于批处理和MPP架构的不同:
相同点:
批处理架构与MPP架构都是分布式并行处理,将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。

不同点:
批处理架构和MPP架构的不同点可以举例来说:我们执行一个任务,首先这个任务会被分成多个task执行,对于MapReduce来说,这些tasks被随机的分配在空闲的Executor上;而对于MPP架构的引擎来说,每个处理数据的task被绑定到持有该数据切片的指定Executor上。

正是由于以上的不同,使得两种架构有各自优势也有各自缺陷:

批处理的优势:
对于批处理架构来说,如果某个Executor执行过慢,那么这个Executor会慢慢分配到更少的task执行,批处理架构有个推测执行策略,推测出某个Executor执行过慢或者有故障,则在接下来分配task时就会较少的分配给它或者直接不分配,这样就不会因为某个节点出现问题而导致集群的性能受限。

批处理的缺陷:
任何事情都是有代价的,对于批处理而言,它的优势也造成了它的缺点,会将中间结果写入到磁盘中,这严重限制了处理数据的性能。

MPP的优势:
MPP架构不需要将中间数据写入磁盘,因为一个单一的Executor只处理一个单一的task,因此可以简单直接将数据stream到下一个执行阶段。这个过程称为pipelining,它提供了很大的性能提升。

MPP的缺陷:
对于MPP架构来说,因为task和Executor是绑定的,如果某个Executor执行过慢或故障,将会导致整个集群的性能就会受限于这个故障节点的执行速度(所谓木桶的短板效应),所以MPP架构的最大缺陷就是——短板效应。另一点,集群中的节点越多,则某个节点出现问题的概率越大,而一旦有节点出现问题,对于MPP架构来说,将导致整个集群性能受限,所以一般实际生产中MPP架构的集群节点不易过多。

2.不想当将军的士兵不是一个好士兵

怎么做好一个数仓团队
1.人员配置
2.技术选型
3.领导决策

1.人员配置,至少一个有经验的高级开发leader,在搭配几个合格的开发人员组成
2.技术选型,开源/阿里+华为
3.领导决策,一个好的团队,需要一个掌控全局,带领团队的好领导

for me:
业务调研:去业务区实地参考业务流程,了解业务具体操作,了解系统
需求调研:带着需求与业务沟通,明确业务具体的目的,避免理解错误,导致返工,基础要打好
规范流程:制定适合的开发流程,测试到生产环境的流程,需求到上线的流程,BA-开发-测试-业务的流程
开发规范:表命名,字段命名,存储格式,建表方法,开发脚本规范,数据字典记录
架构设计:数仓分层设计,数据建模设计,数据开发,调度流程,脚本优化,数据治理

具体每个部分都可以开展详细细节描述,需要每个人自己根据个人情况展开,这里只能提供大纲思路。

浅尝辄止:数据库--数仓大数据平台--数据中台相关推荐

  1. 谈笑间学会数仓—大数据建模过程

    谈笑间学会数仓-大数据建模过程 首先我们先来了解一下,大数据建模都需要遵循哪些原则呢?先来列举一下 建模原则 高内聚和低辑合 将业务相近或者相关.粒度相同的数据设计为一个逻辑或者物理模型:将高概率同 ...

  2. 数据中台 第7章 数据体系建设:数仓分层设计、数据建模

    数据中台数据体系是在全域原始数据的基础上,进行标准定义及分层建模,数据体系建设最终呈现的结果是一套完整.规范.准确的数据体系,可以方便支撑数据应用. 中台数据体系应具备以下特征: ·覆盖全域数据:数据 ...

  3. 千字搞定数据产品选型!报表、BI、大数据平台、中台都在这了

    来吧,废话不多说,直接上干货! 到现在还在做报表的,已经很少了.上面三家都是中国主流报表厂商.不过在国外BI厂商的市场压力面前,也都做了BI套件.主流的就帆软,水晶报表最近见的少了. 普通小厂,1.2 ...

  4. 数据仓库(9)数仓缓慢变化维度数据的处理

      数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一.缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快 ...

  5. 【数字化】分享整理-数据中台=大数据平台+数据资产管理平台+数据服务平台

    导读:数据中台需要采集数据作为原材料进行数据加工.数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速. 目录 1.数据中台的功能架构概览 ...

  6. 大数据24小时:众安推出汽车大数据平台“数据魔方”,国内首个新能源大数据线下创新园区落户青海

    [数据猿导读] DeepMind开发新款人工智能产品,可用于诊断眼底疾病:众安保险推出汽车大数据平台"数据魔方":国内首个新能源大数据线下创新园区在青海开园--以下为您奉上更多大数 ...

  7. 大数据平台数据治理体系建设和管理方案

    1. 范围 1 2. 规范性引用文件 1 3. 术语.定义和缩略语 5 4. 总体说明 8 4.1. 概述 8 4.2. 目标 9 4.3. 原则 9 5. 数据治理体系 10 5.1. 总体框架 1 ...

  8. 300页超全大数据平台数据治理规划方案模板

    大数据时代的安全与传统信息安全相比,变得更加错综复杂,大量的数据汇集,包括大量的企业运营数据.客户信息.个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险.大数据的安全保护对数据完整 ...

  9. Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas企业开发架构技术选型和设计方案

    基于Spring Cloud Alibaba 分布式微服务高并发数据平台化(中台)思想+多租户saas设计的企业开发架构,支持源码二次开发.支持其他业务系统集成.集中式应用权限管理.支持拓展其他任意子 ...

最新文章

  1. 推荐系统正成为所有领域的一种标配
  2. 安卓2.2刷机包_老用户福音 努比亚为红魔电竞手机和Z17用户更新安卓9.0
  3. pygame 文字输入交互_pygame能接收用户的文本输入吗?
  4. IntelliJ IDEA修改项目的包名_修改包名
  5. centos 无法连接网络
  6. centos7 配置http服务器
  7. easyui 图标_logo设计和图标设计有哪些不同?
  8. CentOS7下使用yum快速安装配置oracle数据库
  9. 福利 | 简历模板大放送
  10. 大型分布式Java项目--宜立方商城
  11. freemarker 标签循环list 以及获取下标值
  12. 管理感悟:承认错误,善于总结
  13. unique path 阶梯
  14. STM32/STM8+DMX512协议
  15. 百度地图设置卫星地图显示图文教程
  16. PremierePR2019CC Beat Edit 安装好之后打不开?Pr下载模板安装后不能使用?Pr全屏预览?此效果需要GPU加速?小清新lut?
  17. CST Studio Suite 2020 安装教程
  18. Xman pwn level2 writeup
  19. c语言switch例题注释,switch语句例子大全 C语言switch语句例题
  20. 视频转GIF+GIF录制

热门文章

  1. php模拟表单,上传文件,解决php对接接口上传图片问题。
  2. 入学年份(year)
  3. 河南公考计算机知识,河南省公务员计算机知识考核复习题非专业类
  4. MPEG2相关原理概述
  5. 数字图像处理 实验指导书
  6. 功能更强的手机-Symbian OS手机(转)
  7. 我们所以为的“云计算”
  8. 女神节,致敬善良又可爱的妳们
  9. 【CSS】CSS元素显示模式display + 网页单行文字垂直居中小技巧
  10. 哇嘎显示等待无服务器,vagaa不能用了【处理技巧】