数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。

可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则。

一、所有的可规模化系统,都必须自动进行绝大多数的操作。

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。

四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

本文转自d1net(转载)

打破数据统一的七大原则相关推荐

  1. 深入浅出精讲面向对象设计七大原则,彻底领悟设计背后思想

    深入浅出精讲面向对象设计七大原则,彻底领悟设计背后思想 欢迎阅读 一.面向对象设计原则提出背景 二.面向对象设计七大原则总览 三.单一职责原则(SRP) 3.1定义: 3.2分析: 3.3举例: 四. ...

  2. 必备 | 人工智能和数据科学的七大 Python 库

    来源:新智元 本文约3100字,建议阅读10+分钟. 本文汇总了2018年针对数据科学家/AI的最佳库.repos.包和工具. [ 导读 ]作者根据每周发布总结的系列文章,汇总了2018年针对数据科学 ...

  3. 腾讯大数据回答2019:鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙

    乾明 发自 腾讯汇  量子位 报道 | 公众号 QbitAI 开源,开源,开源. 这就是腾讯2019年技术领域最直观的变化. 最新代表事件,来自于腾讯首个开源的AI项目Angel,完成3.0版本进化后 ...

  4. 鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙

    开源,开源,开源. 这就是腾讯2019年技术领域最直观的变化. 最新代表事件,来自于腾讯首个开源的AI项目Angel,完成3.0版本进化后,得到全球技术专家认可,从开源基金会LF AI毕业,成为业内顶 ...

  5. 云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

    简介: 数据湖是以集中.统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在 ...

  6. 【2017年第3期】从点状应用到大数据统一平台

    钱岭,孙少陵,石在辉 中移(苏州)软件技术有限公司,江苏 苏州 215163 摘要:企业在大数据引入过程中,由于平台技术不成熟.缺乏统一技术架构.组织架构不适应等问题,形成了应用竖井和复杂的系统混搭结 ...

  7. 面试官问你如何进行程序设计?——设计模式之七大原则——接口隔离、合成复用、迪米特法则以及C++设计实现

    设计模式的设计原则之2.0 七大原则 5.接口隔离(InterfaceSegregation Principle,ISP) 5.1.背景 5.2.定义 5.3.特征 5.4.应用 6.迪米特原则(La ...

  8. 设计模式中的七大原则(代码 + 图解)

    文中涉及的代码:链接:提取码:tqjq 文章目录 设计模式 1. 目的 2. 分类 3. 原则 3.1单一职责原则 3.2 接口隔离原则 3.3 依赖倒转原则 3.4 里氏替换原则 3.5 开闭原则 ...

  9. 商业智能BI:打破数据孤岛,打造企业数字化转型新引擎

    如今,企业数字化转型已经从一个火热的概念化构想转变为了全球大多数企业的实际行动,不管企业规模是大是小.是民企还是国企,数字化转型都已成为了他们为之奋斗的目标. 商业智能BI的应用 而在数字化转型过程中 ...

最新文章

  1. siamese网络_CVPR 2019手写签名认证的逆鉴别网络
  2. IIS7.0 网站发布页面显示 500 - 内部服务器错误。您要查找的资源有问题,无法显示...
  3. mp4box 封装H265码流
  4. eclips mysql jndi_Eclipse +Tomcat配置JNDI数据源
  5. twitter批量取消关注_如何在Twitter上取消阻止“潜在敏感内容”
  6. .NET LINQ分析AWS ELB日志避免996
  7. NA-NP-IE系列实验28:HDLC 和PPP 封装
  8. 2018深圳云栖拉开帷幕,飞天技术汇五大专场邀你参加~
  9. k8s从入门到放弃--使用kubeadm快速安装kubernetes
  10. 韩立刚老师 《计算机网络》视频课程目录
  11. 氨基化氧化石墨烯PEG修饰/氨基化氧化石墨烯PEI修饰/Nanoinnova还原石墨烯(各种解说)
  12. 服务器网站5m带宽可以同时在线多少人?
  13. VR和AR的区别是什么?-粤嵌教育
  14. 关于2022年国外广告联盟emu还能做吗?还赚钱不
  15. 初识html及工具的使用
  16. spring boot新闻管理系统毕业设计源码211113
  17. iOS开发-调用手机浏览器打开网址
  18. 黄油相机如何为视频添加贴纸 黄油相机为视频新增贴纸方法
  19. 阿里云ECS服务器实例是什么?关于实例的介绍
  20. 实用:python网络开发中多人聊天室的实现(socketserver)

热门文章

  1. 每个人应该知道的NVelocity用法
  2. GameByro渲染系统剖析
  3. 查看 SQL Server 2000 中数据表所占用的磁盘空间
  4. MODE —— 输入一个数字,求从1加到该数的和(知识点:for循环嵌套while循环)
  5. C#:Guid.NewGuid()和DateTime.Now该选择哪个???
  6. CTF的一道安卓逆向
  7. 如何在MFC中调用CUDA
  8. 8个应该了解的CSS3技术
  9. WinFormsUI(转xiaisidinen)
  10. 高性能IO -Reactor模式的实现