一 数据开发规范

  • 命名标准

这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外部互联网的一条用于监控的每日更新的日志表HLW_JK_LOG_RT,不过具体命名以实际业务来定,唯一需要认真的就是无论是表,项目,还是作业资源这一类的命名都要统一一致,方便后续开发以及管理

  • 脚本规范
  1. •脚本命名由阿拉伯数字(0~9)、字母(a~z、A~Z)、下划线(_)组成,并以字母开头,其中字母应全部为小写
  2. •{分区}_{功能简述},如:贴源区数据同步的shell脚本,ty_sjtb.sh;
  3. •需要有规范的脚本描述(头部)
  4. •需要有整齐的缩进格式
  5. •脚本里面有详细的注释

举例说明

#!/bin/bash
################################################################################
# SCRIPT_NAME     : xxxx_commit_combine.sh
#
# CREATE_TIME     : 2018/04/10
# AUTHOR          : Mochou_liqb
#
# DESCRIBETION    : get create_table_sql
# PARAMETER       : 1 baseConf, such as XX
# EXAMPLE         : ./xxxx_commit_combine.sh XX TABLE_NAME 20181212
#
# UPDATE_RECORD   : change comments from Chinese to English and kill some bugs
#
# DATE      OPERATION       CZR         DESCRIBETION
# ________  _____________   ________    __________________________________
#
# 2018/12/11  UPDATE Mochou_liqb
################################################################################

  • 目录规范

目录是广泛定义下的目录,包含作业,脚本,资源等,目录设置的要求需要按层级按分类逐级增加,理应有正文目录和备份目录,目录命名应简洁清晰统一,便于管理规范

  • 数据开发标准规范

代码对照映射:根据业务整理规范得出,如果是该系统独有的代码表,则特殊处理进行标准
非空字段处理:设置默认值.对于日期、字符类型数据项,暂不做处理,对于数值型字段设置为0
代码引用字段:对于不能为空的代码字段实际值为空的代码引用字段,默认填写“;对于标准化映射,根据代码对照映射关系,                             查找到当前字段对应的标准代码表,根据原码值和标准码值的对应关系,用标准码值替换原码值
日期时间字段:对于字段只需具体到天,其他统一各系统日期/时间字段的格式,在源库找出所有时间字段DATE,TIMESTAMP,
                         式为'YAN-MM-DDHH:MISS,对于不符合格式的字段,使用日期时间函数转换
数值数目字段:统一各系统数字格式,对于金額类型的数据,统一格式为保两位小数;对于利率类统一用小数表示

二 平台标准规范

平台规范主要包含

  1. 数据类型规范:主要是平台与数据库之间的数据类型映射规范,这个按照每个数据库系统实际规范来规范
  2. 实体命名规范:项目,表,文件夹,资源等,参考前面介绍
  3. 作业调度规范:规范和控制作业之间前后依赖关系,从而保证数据按照设计流程进行准确加工;通过虚拟节点进行分级分类,方便作业控制与管理;虚拟节点命名规则:xnjd_etl_{虚拟节点类型};物理节点命名规则:参考数据层命名规范中的作业命名规范;
  4. 权限管理规范:权限严格控制,开发,生产项目权限保持界限

三 流计算规范

流计算由于其数据应用的特殊性,是不走大数据平台的而是有自己的一套采集,规范,开发,应用的流程,这一套流程分别对应不同的工具,平台和数据库,由于各大云平台和云生态,其架构不完全统一,故这方面的规范可实际参考前两者,逐一标准

四 运维规范

实施运维

  1. 建立运维机制,每天定时检测平台流程,包括大数据平台,数据库,流计算等并输出运维文档每日提交
  2. 新增数据源依据需求在业务低峰期添加,尽量选择新增作业,做到不影响其他作业运行
  3. 流程出现问题及时实施处理,总结汇报,评估代价,并告知下游

监控表格

由实际业务制定并分发遵循

大数据之路之平台数据开发规范相关推荐

  1. 数据之路 - Python爬虫 - 数据存储

    一.文件存储 1.文件打开方式 文件打开方式 说明 r 以只读方式打开文件.文件的指针将会放在文件的开头.这是默认模式 rb 以二进制只读方式打开一个文件.文件指针将会放在文件的开头 r+ 以读写方式 ...

  2. 跳过数据准备,下秒数据让飞书维格表

    随着业务场景的多元化发展,消费者需求的个性化,海量数据暴增.数字化时代,传统的生产工具已经无法跟上时代的步伐,传统办公软件也无法满足企业的多元化需求,能够提升业务效率的软件产品成了企业数智化转型的首选 ...

  3. 跳过数据准备,下秒数据让飞书维格表数据应用更高效

    跳过数据准备,下秒数据让飞书&维格表数据应用更高效 随着业务场景的多元化发展,消费者需求的个性化,海量数据暴增.数字化时代,传统的生产工具已经无法跟上时代的步伐,传统办公软件也无法满足企业的多 ...

  4. 来公司必须了解的编码开发规范

    编码开发规范 目  录 1.引言... 1 1.1  编写目的... 1 1.2  使用范围... 1 1.3  术语与缩略语... 1 1.4  参考资料... 2 2............... ...

  5. 大数据平台的开发与思考一:

    注:本文只做简单科普,具体的内容后续会慢慢展开,本文提到的相关内容,各自的官网基本都有详细介绍. 大数据以及大数据技术发展历程 大数据 首先大数据平台是随着大数据的产生而产生的,那首先肯定要搞清楚什么 ...

  6. 大数据开发平台-数据同步服务

    什么是数据同步服务?顾名思义,就是在不同的系统之间同步数据.根据具体业务目的和应用场景的不同,各种数据同步服务框架的功能侧重点往往不尽相同,因而大家也会用各种大同小异的名称来称呼这类服务,比如数据传输 ...

  7. 【数仓】离线和实时数据开发-《大数据之路》读书笔记

      今天更新<大数据之路>第 4 章和第 5 章,离线数据开发以及实时技术.关注公众号回复 802 获取 pdf.其他章节更新中.可以点击这里查看其他章节.   前面的文章讲述了日志文件和 ...

  8. 物联网大数据平台软件开发架构案例解析

    物联网大数据平台软件开发架构案例解析 有人说物联网是引领信息技术的第三次浪潮. 第一次浪潮是个人电脑的出现,开创了信息时代的第一次革命,此次浪潮成就了微软.IBM等巨头. 第二次浪潮是以信息传输为特征 ...

  9. 大数据平台应用开发的痛点有哪些

    随着数据利用率的提高和数据共享行为变得频繁,对于大数据平台应用开发来说,如何进行数据交换是每个平台组件都绕不过去的问题.目前大数据平台应用开发的痛点围绕在如下五点: 1.随着大数据平台数据来源的增多, ...

最新文章

  1. DPDK之makefile编译选项修改和gdb调试(三)
  2. java读取json数据并解析输出对象
  3. 欧洲顶级云数据中心着火,损失惨重!筑牢数据中心“防火墙”,可靠才是王道!...
  4. C#中使用DLL相关问题
  5. Golang的模板与渲染
  6. ARMCM3汇编指令
  7. 并发译文翻译计划(二)
  8. turtle库基础练习
  9. 广州交警发布路考秘籍 科目三扣分点近80项
  10. 大型网站系统的特点和架构设计
  11. 3-8:常见任务和主要工具之格式化输出
  12. Ubuntu 16.04 安装CUDA8.0+Cudnn6.0+TensorFlow+Caffe安装
  13. mongodb慢查询记录
  14. java 文件内容读取到字符串中,从文本文件中将字符串值读取到Java中的Jav...
  15. 程序员“放弃” Python!?发生了啥?
  16. Grafana实现zabbix数据可视化展示
  17. 值得推荐的WEB版报表工具-报表设计器
  18. Oracle根底数据标准存储名目浅析(三)——日期标准(三)
  19. 如何在同一Linux服务器上创建多站点
  20. 浙江计算机二级c语言考试,浙江计算机二级考试(C语言)上机试题

热门文章

  1. 实习报告大盘点 【建议收藏】
  2. 外箱条码标签如何用条码标签编辑软件制作?
  3. VMware DHCP Service服务启动时报错:错误1068 依存服务或组无法启动
  4. Beam Failure Detection
  5. 怕你不信,100行极简原生html现实3D雪花飘飘动效
  6. matlab+GMT 画图操作——在画图区域-R外进行图例文字标注
  7. python-docx设置文字突出显示,即高亮
  8. USB-C接口 OTG协议芯片 支持同时传输数据充电
  9. 将BMP 格式图片转换为 JPEG 格式【c语言】
  10. Word图片上传控件(WordPaster)更新-2.0.15版本