数据归档

在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据。但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题。与传统的数据备份和数据归档不同的是,大数据时代的数据归档更需要关注数据选择性恢复的功能。
        在大数据的正常运行过程中,热数据到温数据、温数据到冷数据的转换可以认为是归档的过程。在这个过程中,数据根据热度的变化,从高价的设备上逐步转移到低价的设备上,其它访问性逐步降低,但仍然具有可访问性。
        哪些数据需要归档?主要与监管法规的要求及企业的战略有关。传统的数据归档主要依据数据的数龄,在大数据时代,可依据数据的热度或者依据数据的价值。企业根据监管法规的要求及企业的策略,明确热数据、温数据和冷数据之间的界限,确定企业的数据归档策略,并依据该策略对数据进行归档处理。
        不同的数据有不同的归档场景,制定某种数据的归档策略时,应该对数据使用的需求进行分析,根据分析的结果,结合法规、风险、策略、访问成本,以及数据价值等方面,梳理数据的规范场景。数据归档实际上也是一个ETL的过程,为了保证归档后数据的可访问性,在归档时需要考虑数据的存储、检索与恢复。
        归档过程中,需要考虑数据压缩与格式转换的问题,在数据热度很低的情况下,从成本的角度,应该考虑对于数据进行压缩。压缩可以通过手工,也可以通过一些数据库层级或者硬件层级的工具进行。数据压缩会导致访问困难。因此企业在明确哪些数据可以压缩的时候,必须要有明确的策略。随着技术的发展,压缩的技术应尽量选择可选择性恢复的数据压缩方案。

非结构化数据的归档,主要应该关注向数据注入有序的和结构化的信息,以方便数据的检索和选择性恢复。

数据销毁

随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度。以及数据价值的角度上讲,谁也无法预料未来会使用到什么数据。但随着数据量的急剧增长,从价值成本分析的角度,存储超出业务需求的数据未必是一个好的选择。有时候一些历史数据也会导致企业的法律风险,因此数据的销毁还是很多企业应该考虑的选项。
        对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格的数据销毁检查表。只有通过检查表检查,并通过流程审批的数据,才可以被销毁。

数据治理-数据生命周期管理-大数据归档与销毁相关推荐

  1. 医疗数据治理——构建高质量医疗大数据智能分析数据基础

    医疗数据治理--构建高质量医疗大数据智能分析数据基础 阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237   摘要:以专病真实世界研究为背景,分析了医疗数据治理和数据可用性 ...

  2. 数据治理和合规性:如何确保大数据应用遵守法规和标准

    第一章:引言 在数字时代,大数据的应用日益普遍,对企业和组织的决策.运营和创新产生了深远的影响.然而,随着数据规模的不断增长,以及数据泄露和滥用事件的频繁发生,数据治理和合规性问题愈发突显.企业和组织 ...

  3. 数据治理-数据生命周期管理-大数据采集

    大数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次. 第一层次,业务电子化.为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并 ...

  4. es对日志数据进行索引生命周期管理

    前言 在采用ELK分布式日志采集平台的时候,一般都会采用ES来存储采集的日志信息.日志信息一般都是持续增长的,是典型的时序数据. 如果不对采集的日志数据做生命周期管理,很容易导致单个索引体积持续增长. ...

  5. 基于AIPL体系的用户生命周期管理—阿里数据银行指标体系

    数据银行的定义:消费者资产管理中心 1.销售管理:消费者→P 2.会员管理:消费者→P→L 3.消费者分层管理:AIPL 4.消费者资产管理: F:品牌认知度 A:运营效率 S:品牌忠诚度 T:消费者 ...

  6. 从全生命周期管理角度看大数据安全技术研究

    从全生命周期管理角度看大数据安全技术研究 李树栋1,2, 贾焰2, 吴晓波3, 李爱平2, 杨小东4, 赵大伟5 1. 广州大学网络空间先进技术研究院,广东 广州 510006 2. 国防科技大学计算 ...

  7. 数据API开发如何快速上手:先了解什么是数据API生命周期管理

    任何事务都有一个生命周期,数据API也不例外.上一段视频,我们解释了什么是数据API?.这段视频,我们来了解一下数据API的生命周期管理. 我们把每个数据API生命周期,划分为API规划.API开发. ...

  8. 号脉数据中心全生命周期,业务永续从细节做起

    看什么看,快点蓝字关注我! 阿里巴巴将数据中心建到千岛湖旁边,腾讯将数据中心深藏在山洞中,如今的数据中心除了不能上天,这下水入地似乎无所不能.这虽然是句玩笑话,但也反映出随着规模化.集约化.绿色化等理 ...

  9. 什么是管理大数据技术

    企业,归根结底,就是聚集在一起的人们的共同想象体,企业对员工最大的约束,就是存在于人人脑海中的制度,制定一套良好的管理制度,企业整体就能进入良性循环,为社会贡献更多利益,一旦制度出了问题,企业就会出现 ...

最新文章

  1. ios学习记录 UITextField输入return键监听
  2. 一个SQL Server Sa密码破解的存储过程
  3. [转]opensuse 更新源
  4. 干货丨你知道Python中a += b和a = a + b的结果是不一样的吗?
  5. linux中here文档,Linux下Bash Heredoc(Here document)的用法及基本示例
  6. 转 Celery 使用
  7. android自定义表盘部件,Android自定义view仿支付宝芝麻信用表盘
  8. Linux 权限、磁盘操作命令-Linux基础环境命令学习笔记
  9. bzoj 3749: [POI2015]Łasuchy
  10. c语言 约分最简分式
  11. 数据库expecting ''', found 'EOF'异常——原载于我的百度空间
  12. 数据库作业——汽车租赁系统
  13. 数据结构中的“阴”和“阳”
  14. 体脂秤方案开发脂肪秤方案设计
  15. ListIterator
  16. 拼多多资深程序员带你了解 ”砍一刀“的设计与实现
  17. 荣耀6plus android6.0,荣耀6PLUS升级安卓6.0(emui4.0)感受
  18. 六级考研单词之路-四十八
  19. python 开源cms内容管理系统_30 个很棒的 PHP 开源 CMS 内容管理系统
  20. KDB_Database_Link 使用介绍

热门文章

  1. 【百问网7天物联网智能家居】训练营学习笔记(七)
  2. algorithm介绍
  3. how velero works
  4. vue computed 与mounted 区别
  5. FSM-Golang
  6. Android Zxing集成
  7. Windows10 LTSC 64位企业版
  8. 微信支付SDK接入流程梳理
  9. PHP 抽奖概率计算(经典)
  10. java文件打成jar包