数据标准化总结

  • 数据标准化总结
    • 元数据管理
      • 目录式实现 VS 词素管理
      • 应对策略
    • 数据字典方法论
      • 基本概念
      • 数据标准的小例子
      • 数据标准化实施步骤
        • 1. 标准化对象收集
        • 2. 词素拆分
        • 3/4.标准单词、标准用户定义
      • 基础数据与指标数据标准化
      • QA
    • 指标数据标准化
    • 数据治理的一些链接

数据标准化总结

元数据管理

目录式实现 VS 词素管理

目前各个公司或多或少都存在数据标准问题,英文名称中后缀相同,中文名称不同;英文……而且随着业务数据的增加,数据标准问题会像滚雪球一样越积越多。
基于越来越多的数据标准问题,目录式管理元数据(IBM目前就是目录式的),元数据语义层和数据模型建模的关联很弱。
我们想,在一般的目录式整理规范 很难将越来越多的业务数据标准化时,是否能够找出一种新的方法将业务数据一一规范起来。

应对策略

后面,我们发现很多东西实现原子化之后就很好解决,比如,在规范业务术语时,将业务术语用词素拆分的方式拆分成一个个原子化单词,在一个企业中真正原子化的业务术语是非常非常少的,将这些未数不多的原子化的单词进行定义之后,我们可以组合出更多的业务术语。

但是,要对业务数据进行统一标准化,必须制定数据字典,从标准化开始做起,在这里标准化,第一个是将业务术语分解成词素,从词素种提取出原子化的标准单词。第二对单词进行定义。一个单词只能有一种业务含义,这样一一对应,英文单词也只有一个。
最后用标准单词组成业务术语的标准名称。

数据字典方法论

基本概念


数据标准的小例子

数据标准化实施步骤

1. 标准化对象收集

2. 词素拆分

词素拆分通常会在excel模板中进行,首先为参与人员讲解如何判别词素,之后由人员分工操作,分别进行词素的拆分,之后大家分工的词素拆分结果合并在一起进行整合,再讨论和确认。

3/4.标准单词、标准用户定义

基础数据与指标数据标准化

QA

  • 词素拆分的理解,词素拆分这样的话有个延伸问题,词素拆分这样的方式是中国创造的还是来源于国外?
    词素拆分的来源:词素拆分的做法来源于东亚的做法。IBM在美国不拆,因为他们只用英语。 而且,对元数据的理念是不同的。IBM实现的效果是目录式的,元数据语义层和数据模型建模的关联很弱。
  • 词素拆分的出发点:
    词素拆分,以中文还是英文为基础出发?必须以中文为基础。
  • 词素和标准单词的区别
    词素和标准单词的区别是,标准单词是从词素中筛选出来的一部分。 词素是标准化项目实施的开始阶段的产物,但是得到标准单词之后就不再需要了。
    词素中的一部分,变成了同义词、也就是非标准单词;还有一部分,可以在项目中被判定永久弃用——例如一些业务对象的旧称谓、已经从业务上永远过时不再使用了,就可以不再去转变为标准单词了。 像我以前的项目中,一些老的系统还有“传呼号码”这样的业务名称,但是客户确认之后,说传呼以后再也不会使用了,就可以在词素工作阶段直接抛弃了。
  • 状态在数据字典中是否可以作为一个标准用语?
    状态是一个词素,但是不能是一个标准用语。状态在不同的业务里代表不同的含义,比如在考试业务里,可以表示为考试状态(考试开始,上传,考试结束)。比如在设备使用业务里,可以表示为使用状态(闲置,使用中,报废)。所以在设计表及列的时候用根据业务在状态前加业务前缀。

指标数据标准化

数据指标体系是数仓建模的核心,也是多维分析的基础,构建一个合理完善的指标体系,数仓才能更好的提供数据、输出价值,使用数据指导业务的效率也会成倍提高。
指标体系就是将各类数据指标维度成体系的关联起来,按照具体的业务板块与业务过程,将指标按照不同的特点、属性及维度进行分类分层。
数据指标常用于指导运营决策、评价产品业务的优劣。通过对数据指标的拆解能够得出产品、策略、运营等各方面目前存在的问题以及优点,从而得出改进的方向。
非体系化的指标通常是单点分析,无法将更多关联指标联系起来做全局的分析,而体系化的指标则可以将不同的指标维度综合起来起来进行全面的分析,会更快的发现目前产品和业务流程存在的问题。

数据治理的一些链接

链接: link.
学而思网校数据指标体系建设实践.
【袋鼠云数据】数据中台专栏(三):数据质量分析及提升.
数据中台的质量管理.
l数据质量检查.
普元数据】企业数据标准规划、建设和应用1.
普元数据企业数据质量管理核心要素和技术原则.
普元数据数据标准在管理信息系统中的应用.
普元数据数字化转型下的自动化大数据治理.
【物流IT圈】大数据平台下的数据治理链接.

数据标准化方法论思考总结相关推荐

  1. 美团住宿业务数据治理体系化思考与实践

    全网最全大数据面试提升手册! 一.序言 二.背景介绍 三.治理体系化思考 3.1 什么是数据治理体系化? 3.2 数据治理体系化如何解决目前治理存在的问题? 3.3 业务数据管治体系框架如何建设? 3 ...

  2. 数据治理体系化思考与实践

    一.序言 美团住宿数据治理团队通过多年数仓建设及数据治理的经验沉淀,并结合业务发展阶段对于数据治理的诉求,将治理的思路逐步从专项.表象.问题驱动的治理,转变为自动化.体系化的治理,并从标准化.数字化. ...

  3. 近期活动盘点:数据标准化及治理大会、IBM苏中讲座、产业创新交流会、企业走访和数据法学征稿(11.6-11.12)

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 清华大学iCenter产业创新交流会 2017年11月6日 活动简介: 本次活动结合iCenter在智能制造.大数据.数字现实技术.人工智 ...

  4. 【机器学习基础】机器学习模型什么时候需要做数据标准化?

    机器学习 Author:louwill Machine Learning Lab 一直都有朋友在做机器学习模型时有疑问:我的数据要不要做标准化处理? 这个问题笔者也思考过,只不过不够系统,观点也比较单 ...

  5. 什么时候需要coinitialize_机器学习模型什么时候需要做数据标准化?

    机器学习 Author:louwill Machine Learning Lab 一直都有朋友在做机器学习模型时有疑问:我的数据要不要做标准化处理? 这个问题笔者也思考过,只不过不够系统,观点也比较单 ...

  6. 机器学习模型什么时候需要做数据标准化?

    机器学习 Author:louwill Machine Learning Lab 一直都有朋友在做机器学习模型时有疑问:我的数据要不要做标准化处理? 这个问题笔者也思考过,只不过不够系统,观点也比较单 ...

  7. 神经网络模型无法正常工作时我们应该做什么(系列)——数据标准化处理(Normalize)

    欢迎访问我的个人博客:zengzeyu.com   前言 当你进入深度学习领域,准备好深度神经网络,开始进行训练时,遇到这样一个大部分新手都会遇到的问题:你的神经网络没法正常工作,而你不知道该如何去修 ...

  8. 对地理信息标准化的思考

    Viky 目录 一.    概述 为何要关注地理信息标准化? 二.    若无标准化 生活中 地理信息中 三.    地理信息标准化的基本内容 What(什么是地理信息标准化) Who(现在都有哪些机 ...

  9. 网易数帆数据生产力方法论

    导读: 2021年,网易数帆大数据团队正式提出数据生产力的理念,数据生产力从广义上讲,是指"通过使用数据,带来组织生产力的提升":从狭义上讲,是指"数据采集.清洗.加工. ...

最新文章

  1. php 英文小写变大写,PHP英文字母大小写转换函数
  2. UbuntuKylin技巧
  3. OTSU算法对图像二值化
  4. WPF基础入门3 - Panel和 Canvas基本使用
  5. python日志内容存储到文件里_Python中如何实现将logging日志保存到文件中
  6. Lua coroutine vs Java wait/notify
  7. java 使用apollo,Springboot apollo原理及使用方法详解
  8. 数据库设计精选视频_11种精选工具和服务,可改善您的设计工作
  9. 调试中除了在URL上加时间戳外,如何避免js、css被返回304状态?
  10. python 列表 extend append_Python中list操作之append、extend
  11. matlab单项pwm整流电流内环pr控制仿真,基于PR的单相PWM整流器电流控制研究
  12. [blender]图片模糊不清楚怎么变清晰
  13. 连接共享打印机提示没有权限使用网络资源
  14. android res编辑器,Android Apk编辑器(ApkModifier) V3.6.0
  15. 试用LibreOffice对VBA的支持
  16. HPE MSA存储的高性能连接解决方案
  17. 适合Java初学入门的几本图书
  18. tplink作为无线交换机使用
  19. 银监会出贷后管理新规 防资金空转
  20. Nginx 1.9 安装 ngx_pagespeed 模块

热门文章

  1. 微信公众号开发-素材/消息管理接口
  2. ai在计算机教学中的应用,浅谈人工智能在教育中的应用
  3. 什么是happens-before原则?
  4. linux rm 命令详解,Linux rm命令使用指南
  5. rm 输入/输出错误
  6. C语言课程训练系统题-二维数组cqupt
  7. 没有钱该怎么创业?没钱创业依旧可以赚钱
  8. 腾讯云存储产品介绍第四章-云存储计费方案
  9. Mix-land拓荒的星际勇者 | 实验
  10. mojito-cli-start_语言学 | 终于蹲来了Mojito发音的正确解释