数据完整性是在数据生命周期中(从记录数据到销毁数据)整个过程中数据准确性和一致性的保证。简单来说,数据完整性意味着您已经按预期记录了数据,并且在整个生命周期中都没有意外出现。这个概念很简单,但实践却并非如此,数据完整性是任何大数据系统的重要关节之一。

数据完整性的重要性

数据完整性非常重要,因为几乎每个关键业务决策都基于公司的数据。凭借良好的数据完整性,您可以分析公司的数据来回答以下问题:您的业务成长怎么样?您的业务成本是多少?您在不同地区的销售情况如何?您的业务中有哪些是入不敷出的?企业不同部门的效率是多少?您的企业是否达到基准目标?很显然,面对这些综合性问题如果没有完整的数据我们很难回答。

数据完整性面临的挑战

数据完整性面临的挑战分为两大类:

物理容灾

存放数据的物理系统可能会遭受任何物理破坏:火灾,洪水,爆炸,极端温度,辐射,腐蚀以及任何可能影响物理结构的自然灾害都可能影响您的物理数据完整性。

人为操作错误

软件由人写,被人用,人比机器更容易出错,所以当人力介入到数据系统时,就可能破坏数据的逻辑完整性。除了人为操作不当外还有以下几种可能:

  • 软件的设计未能包含适当的约束

  • 软件错误允许将不正确的数据引入系统或从系统中删除

  • 数据传输时可能会发生传输错误,包括在从一台设备传输到另一台设备的过程中发生意外更改或数据泄露

  • 数据修改可能是蓄意恶意的,例如黑客入侵,或者是病毒和恶意软件

如何维护数据完整性

物理数据完整性

部署可水平扩展的系统,设置至少3个分区备份,以便在一个系统发生故障时可以使用备份系统。我们建议最好交给云厂商处理,如阿里云,亚马逊等。如果您需要维护自己的机器,您需要保证电源,配置防辐射芯片,例行检查防火,防盗系统。

非物理数据完整性

维护数据的完整性可能涉及多个系统和步骤。您需要计划完整性检测方案,被检测区域包括:输入系统,存储系统以及所有数据消费端。由于大多数公司数据存储在数据仓库或数据库中,技术团队需要定期检查所有成员和部门的数据权限和数据与数据之间的约束力。

数据的来源越多,您引入错误的可能性就越大。如果您的数据大部分都在云上,通常物理部分可以忽略,视为已经解决的问题,但是如何保证非物理数据的完整性挑战仍然不小。通常,企业会自己组建团队完成自己的数据集成,但是我们会发现这样做出错的几率很高,因为技术团队要写很多代码来完成众多数据源的集成,每一行代码带来价值的同时可能也产生了bug,从而破坏数据完整性,对此我们在之前的文章里有更详细的介绍《数据管道: 从一个脚本到数据管道路上的坑》

数据传输完整性_数据集成:什么是数据完整性?相关推荐

  1. 数据传输完整性_卫星导航定位服务系统数据传输安全性探究

    引文格式:马雷,韩菲. 卫星导航定位服务系统数据传输安全性研探究[J]. 导航定位学报, 2020, 8(3): 105-109.(MA Lei,HAN Fei. Probe into data tr ...

  2. java数据集成是什么_数据集成 - BlueDavy之技术Blog - BlogJava

    数据集成 数据集成领域方面的相关文章. 阅读全文 posted @ 2007-08-19 02:27 BlueDavy 阅读(5817) | 评论 (0)  编辑 阅读全文 posted @ 2007 ...

  3. 数据传输完整性_生产系统数据完整性事件常见指标(下)

    PharmaGMP微信公众号 2020年原创解读的040篇 继续生产系统数据完整性常见的指标的分享: 7. ERP和MES系统间的接口问题导致的数据错误指标 这里的接口是指系统间的接口,之前在什么叫M ...

  4. 数据传输完整性_制造系统数据完整性的特殊性(二)

    PharmaGMP微信公众号 2020年原创解读的009篇 继续分享制造系统数据完整性的特点之二: Multiple Components and Multiple Suppliers, Suppor ...

  5. 数据传输完整性_电缆监测数据传输系统分析与设计

    电缆线路是重要的输电方式,对电缆线路进行监测是保证电缆线路正常工作的重要的条件,研究人员利用嵌入式系统设计了电缆监测数据传输系统.该系统以CAN通信和嵌入式以太网络技术为核心,实现了对电缆及其沟道的实 ...

  6. 数据传输完整性_基于IBIS模型的FPGA信号完整性仿真验证方法

    人工智能与深度学习等领域的快速发展,使得FPGA等器件应用范围愈加广泛,同时也要求器件的开关速率加快.引脚数量增多.但陡峭的时钟边沿和增加的引脚数使得杂散.耦合.寄生电容电感会对器件产生诸多信号完整性 ...

  7. 三甲医院his系统源码_南京同行交流 | 三甲医院医疗大数据集成平台建设及打造可持续发展的数字底座架构设计...

    当前,我国大部分三甲医院普遍都在加速向智慧医疗转型,医疗数据加速互联互通.共享与分析,各种业务系统有望更好进行协同与运营,以及精细化服务能力得到进一步提升.医院之所以在当前加速智慧医疗的建设,主要是因 ...

  8. java etl 工具有哪些_常用的数据集成ETL工具有哪些?

    常用的数据集成ETL工具有哪些?ETL工具用于将异构数据转换为同类数据,然后由数据科学家用于从数据中获得有价值的数据,常用的ETL工具有Microsoft-SQL Server集成服务.AWS Glu ...

  9. teradata查看正在运行的进程_使用 Oracle GoldenGate 进行实时数据集成

    使用 Oracle GoldenGate 进行实时数据集成 了解如何安装.设置和配置 Oracle GoldenGate 以轻松实现 Oracle Database 10g 和 11g 之间数据的无缝 ...

  10. 数据集成-5-批数据集成

    批数据集成 1. 批数据集成简介 1.1. 批数据集成 批数据集成 静态数据集 数据被组织成"批"地(时间窗口) 周期性的迁移到另一个系统(专门的数据端) 抽取.转换.集成为通用数 ...

最新文章

  1. 多视图立体匹配论文分享:P-MVSNet
  2. DataWorks 安装手册
  3. 深入理解幂等性及Restful风格API的幂等性问题详解
  4. TabLayout和ViewPager
  5. 应用层勾子IAT HOOK(源码)
  6. 整型数组中三个数的最大乘积
  7. python捕获全局异常统一管理_python中如何用sys.excepthook来对全局异常进行捕获、显示及输出到error日志中...
  8. kotlin半生对象_Kotlin程序| 随播对象特征
  9. python网站有中文界面吗_手把手教你用python开发界面程序
  10. mysql连表删除语句_MySQL中联表更新与删除的语法介绍
  11. JavaScript面向对象 - 严格模式
  12. http中get和post详解
  13. 网络工程师_记录的一些真题_2017上半年上午
  14. 阅读野火stm32代码思考
  15. python 存根_pyi文件是干吗的?(一文读懂Python的存根文件和类型检查)
  16. 【前端技术】一篇文章搞掂:WeX5
  17. 黑客用我们服务器挖矿了
  18. 形式语言与自动机——第四章 图灵机
  19. 开源问答社区软件Answer
  20. python怎么统计多少字符_python统计中文字符数量的两种方法

热门文章

  1. 如何用虚拟机VMware和Linux路由器搭建一个虚拟网络
  2. r语言把两个折线图图像放到一个图里_OpenCV计算机视觉学习(10)——图像变换(傅里叶变换,高通滤波,低通滤波)...
  3. vue项目总使用高德API的轨迹展示巡航
  4. AssertionError: 1 columns passed, passed data had 5 columns错误解决
  5. ios13一直在估算剩余时间怎么办
  6. 嘀嘀的费用是优步的两倍?
  7. python 运行报错 Process finished with exit code -1073740791 (0xC0000409)
  8. 神经网络模拟化学反应?道翰天琼认知智能机器人平台API接口大脑为您揭秘。
  9. 【Unity】Unity寻路系统讲解及Navigation实际应用
  10. 【员工端】OA办公系统移动端高保真Axure原型模板