数据科学家和权威专家维克托·迈尔·舍恩伯格在其《大数据时代》中指出“虽然大数据还没有被列入企业的资产负债表,但这只是一个时间问题。”

与此同时,随着数据爆发式的增长,越来越多企业认识到数据的重要性,把数据当作数据资产。但数据不等于数据资产,数据必须以合理、易用、安全和易于理解的方式组织起来,能为业务注入有效的价值才能作为数据资产。

数据变成数据资产的前提是有着完整的数据标准管理、数据质量管理、数据安全管理、易于使用的元数据管理和持续产生数据价值管理的从数据产生到销毁的数据全生命周期管理体系。今天小亿就来为大家分享如何从数据生命周期的角度做好数据资产管理?

一、什么数据生命周期管理?

1.数据生命周期

数据的生命周期是指某个集合的数据从产生或获取到销毁的过程。数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。在数据的生命周期中,数据价值决定着数据生命周期的长度,并且数据价值会随着时间的变化而递减。

2.数据生命周期管理

数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到它过时被删除或销毁。

数据生命周期管理的目标主要有4点:

①通过规范数据的生命周期管理,提高数据的整体管理水平,满足监管要求;

②优化存储结构,有效控制在在线数据规模,提高生产数据访问效率;

③提高系统资源使用效率,确保系统安全、稳定、高效运行;

④做好历史数据管理,为用户的客户服务和经营分析提供数据支撑。

这里需要注意的是,数据的采集粒度与时效性、存储方式、整合状况、可视化程序、分析的深度和应用衔接的程序,都会对数据价值的体现产生影响。所以需针对数据生命周期各个阶段的特点采取不同的管理方式和控制手段。总之,在成本可控、可量化、可管理的前提下,从数据中挖掘出更多有效的数据价值。

与此同时,数据全生命周期管理与企业数据战略也是密不可分的。数据战略决定了数据采集策略和范围、存储和计算资源投入、数据整合能力、可视化的程序和分析的广度与深度等资源投入。

二、常见的数据生命周期管理模型

数据生命周期管理模型定义了一个宏观的框架,它是从生产阶段到消亡阶段的数据生命的全景视图。但是,因为数据有很多自身的特点,又不完全相同,因此,在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据生命周期管理模型,如下图所示:

许多模型都是为解决数据管理中的一个特定问题或特定目的而设计的,通过对比分析可以发现有些阶段是每个模型共同的,比如数据创建/接收,有些阶段则是独有的,比如数据可视化。而数据归档和销毁很少有模型涉及,这说明很多模型并没有把数据当作资产来看待,并没有考虑数据管理的效益最大化。

而如今数据是一种重要的资源,已经成为一种社会生产要素,被提升为和劳动、土地和资本同等重要的地位,因此建立数据资产生命周期管理模型是非常有必要的,它能帮助企业推动数据生产、使用、治理、实现企业数字化转型及效益最大化。

三、数据资产生命周期管理模型

如图所示,根据对数据生命周期管理模型包含阶段的统计分析,结合大数据的特点以及企业实践经验,数据资产生命周期模型包含11个阶段的,分别是计划、定义、创建/接收、处理、集成、存储、运维、共享、发现、使用和复用、归档&销毁,旨在消除企业或组织在为任何新项目设计新模型时的认知差异和浪费。这里,我们把数据资产生命周期的11阶段可以划分为4大阶段。

1.“入”期

不仅仅指数据的创建与接收,有效的数据资产管理始于数据的产生之前开始。首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生,从源头抓起。在大数据时代,数据不仅来源于企业内部,更多的是需要采集外部数据,但是需要在法律法规允许框架下,根据数据战略来定义数据采集范围和采集策略。

2.“存”期

需要对结构化、半结构和非结构化多样化的数据结构,批数据和流数据多种数据形式进行存储和处理。面对不同数据结构、数据形式、时效性与性能要求和存储与计算成本等因素考虑,应该使用适合的存储形式与计算引擎。

但数据容量的急剧扩大,这对于数据存储和计算成本带来极大挑战。而应针对不同热度数据采用不同存储和计算资源,以优化存储和处理成本并提升可用性。

数据鸿沟、数据孤岛的普遍存在需要“集成”来进行连接打通,数据只有集成起来才能发挥更大的价值。只有实现了数据集成,数据仓库才能称之为数据仓库,否则即使把数据集中起来存储,也只能叫做数据垃圾堆。

3.“用”期

是数据真正产生价值的周期,其他周期都是成本,数据因使用而升值,用处越多价值越大。在“用”这个期间要特别强调“数据复用”这个阶段,时下比较流行的数据中台架构,最大的一个价值就是数据复用和服务复用,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品值不值得开发很重要的一个指标应该看能不能复用。

4.“出”期

也非常重要,是将那些生命周期步入尾声的数据保存到低性能廉价的存储介质或直接销毁,是数据生命周期管理必不可少的步骤。虽然现在存储的价格越来越低,但是如果不加以管理也会产生很大的负担,对于数据资产整体效益不利。

另外,如不加以区分,本该归档或者清除的冷/冰数据和活跃的热/温数据存放在一起,将严重影响系统与业务效率。对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

最后在整个过程中,数据运维提供保障,主要负责对数据库进行日常维护,对数据进行备份、恢复。确保数据完整性、一致性、及时性,保证数据质量。除此之外,还需要提供数据安全方面的防护,进行用户授权、身份认证和访问行为监控等,并保密级别较高的数据进行数据加密、脱敏、匿名化等操作。

四、传统企业如何做好数据资产生命周期管理?

传统企业的数据资产生命周期管理需要有持续的信息化、数字化投入打基础,整体策略是统筹推动,以用促建、急用先行。

1.业务数字化是数据资产管理的前提

企业要持续进行业务对象数字化、业务规则数字化和业务过程数字化,解决数据有源的问题。业务数字化通常由业务部门驱动,IT使能部门协同推进。

2.数据汇聚入湖是建设数据资产的基础

企业可以从逻辑上汇聚内外部、结构化/非结构化等异构多源数据,为数据中台提供完整、清洁的原始数据,数据入湖需遵循相关标准(明确数据Owner,做到责任到位、发布数据标准,形成企业统一语言、认证数据源,保证数据有源一致性、定义数据密级,在安全的前提下实现数据共享、评估数据质量,让数据可信可用、注册元数据,形成数据资产地图,方便用户找到所需资产),最终实现数据找得到、可理解、可信任、可消费。

3.数据中台是建设数据资产的重点

通过业务和数据双驱动,做厚数据中台,重点建设五类数据中台资产,做好数据主题联接,支撑数据消费,核心是将数据按业务流(如合同、销售订单等)、业务对象(如客户、供应商等)、标签(员工、用户画像等)、指标数据(原子指标数据、复合指标等)与算法(机会点挖掘等)进行整合联接,确保数据集成、透明,形成数据主题资产(如客户主题等),支撑自助分析、业务过程可视、智能决策、风险预警和控制、经营与运营报告等数据消费场景。

4.做好数据资产生命周期管理是核心

持续做好元数据管理、数据质量管理,并加强数据安全与个人隐私保护、数据血缘、数据生态能力。基于数据资产,通过数据服务满足数据消费是关键。通过数据分析平台,以API形式将数据服务开放给数据消费者,满足实时可视、风险预警、智能决策等场景下的数据消费需求。

业务数字化实现了数据有源;建设数据底座,实现数据汇聚和数据资产管理;开发数据服务,减少重复投资,在保障数据安全的前提下满足多场景的数据资产消费。

五、数据资产生命周期管理的实践价值

第一,使企业降低成本。数据成本和效率之间本身存在矛盾,很多公司在做大数据时会用空间换时间,随着数据的增长,如不及时进行管理和存储最终会影响到计算效率,导致成本既存储空间不断增长。

第二,规避风险。在对数据进行监管和审计是会对相关数据进行保留,在客户丢失个人信息时,可以进行全程追溯,做到风险规避。

第三,提高数据质量。数据管理的重要目标之一就是提升数据的质量,不通过全生命周期管理数据很难保证数据整体的质量水平,在系统前期建设和开发过程中需要指定完善的业务规则和标准,保证得到高质量的数据。

第四,价值最大化。不做全生命周期管理则无法从数据上着眼价值和利益的最大化,企业在投资项目前可以通过数据看到产品背后的成本和预期收益,从而对投资是否合理做出判断。

六、小结

企业数据资产生命周期管理的基础是,企业首先应树立数据资产的意识形态,只有真正把数据当做资产看待的时候才会通过数据看到产品的收益和价值,并在后续产品开发之前提前指定数据资产生命周期管理方案。

其次,数据资产建立之前需要统一的数据标准描述资产模型和收集信息的维度,例如通过用户ID打通信息孤岛,获取手机、邮箱、身份证等信息,进行数据资产的统一建模。

最后,需要对数据资产的处理历史进行跟踪,将数据资产从产生到内部业务集成、数仓、应用的全过程打通,通过精细化的管理,为数据成本核算、收集投资收益等信息建立良好基础。

当前企业数据资产全生命周期管理存在一些问题,比如数据组织方面,很多企业也缺乏专业的数据资产管理组织;数据管控流程方面,跨域跨专业数据管控流程尚未建立、跨域数据管理技术手段尚不完善;IT架构方面,采用烟囱式的传统IT架构,使得企业在进行数据资产管理时会遇到数据分散、规模大、种类多、质量差的问题,导致了数据变现的困难。同时在数据安全方面,很多企业没有进行数据密级的控制,使企业在做数据分享时会遇到不知道该不该给、该给多少的问题,存在数据安全问题。

如何从数据生命周期的角度做好数据资产管理?相关推荐

  1. 基于数据生命周期的安全防护

    前几篇写到关于数据安全治理相关内容,数据安全治理是一项非常庞大的工程,包含管理.运维.风险管控.技术支撑.标准化等一系列内容,数据治理及安全治理,是当企业发展一定程度(既有业务层的深度,又有产品线的广 ...

  2. 从全生命周期管理角度看大数据安全技术研究

    从全生命周期管理角度看大数据安全技术研究 李树栋1,2, 贾焰2, 吴晓波3, 李爱平2, 杨小东4, 赵大伟5 1. 广州大学网络空间先进技术研究院,广东 广州 510006 2. 国防科技大学计算 ...

  3. 基于生命周期理论的农业科学数据中心化管理模式

    基于生命周期理论的农业科学数据中心化管理模式 高飞1,2, 周国民2,3, 满芮2,4 1 中国农业科学院作物科学研究所,北京 100081 2 国家农业科学数据中心,北京 100081 3 中国农业 ...

  4. 埋点是什么意思_掌握数据生命周期:初识数据埋点

    谈到数据驱动业务,离不开数据是怎么来的,数据收集是整个数据生命周期的初始环节. 数据生命周期的大体介绍,在过去的一篇文章中有提到.虽然文章的部分内容我准备重新构造,但是对于这部分的基础环节,并没有太多 ...

  5. ios无痕埋点_掌握数据生命周期:初识数据埋点

    谈到数据驱动业务,离不开数据是怎么来的,数据收集是整个数据生命周期的初始环节. 数据生命周期的大体介绍,在过去的一篇文章中有提到.虽然文章的部分内容我准备重新构造,但是对于这部分的基础环节,并没有太多 ...

  6. [1183]Clickhouse数据表数据分区partition数据生命周期操作

    文章目录 表操作 创建数据库 创建表 删除表 清空表 删除表某个分区 重命名或移动数据表 表字段column操作 添加字段 删除字段 修改字段 修改字段名称 数据分区partition的基本操作 查询 ...

  7. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期

    前言 数据生命周期 网上有许多版本,各行各业的.各类应用场景的:下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激. 1.数据全生命周期管理模型 请参考原创:https://www.zh ...

  8. 数据生命周期管理的初步实现

    这是学习笔记的第 2013 篇文章 最近几天在整理数据生命周期的一些东东,也码了几篇文章. 开始的调研只是验证了这个可行性,当然也是想的过于乐观,导致在实现的时候翻车. 就好比我要榨果汁,本来是用火龙 ...

  9. 数据生命周期 - 分区

    SQL Server 技术文章 技术评论员:Grant Dickinson.Dave Wickert.Len Wyatt 和 Stuart Ozer 适用于:SQL Server 2005 本页内容 ...

最新文章

  1. 极限学习机的matlab程序_新程序员七宗罪,新手别踩雷
  2. RN 与原生通信(Android篇)
  3. python pip 安装与使用_Python pip 安装与使用(安装、更新、删除)
  4. 服务器账户登录监控系统,服务器账户登录监控系统
  5. python学习-defaultdict
  6. LWIP初体验-修改ST官方demo
  7. easymock接口模拟_EasyMock模拟异常
  8. Latex 图像、表格编号的字体问题
  9. XNA中的中文输入(一)
  10. 300+篇CVPR 2020代码开源的论文(转载)
  11. 由对称性知定点一定在x轴上_2021版江苏高考数学一轮复习讲义:第8章 第10节 圆锥曲线中的证明、探索性问题 Word版含答案...
  12. web服务器基于那个协议,网页浏览服务基于什么协议 Web服务器是基于什么协议...
  13. 【MATLAB】一个宝藏博主公开的代码,给它加个速——水晶爱心模块
  14. guava-Primitives
  15. iOS开发:图标生成器Prepo 的使用,讲的明明白白
  16. 水晶报表使用经验总结
  17. NYOJ-975 关于521
  18. vue 首屏优化的解决方案
  19. Inno Setup 常用代码
  20. css 滚动公告,用DIV+CSS布局,怎么做滚动的公告栏?

热门文章

  1. 如何实现产销平衡_做好生产计划和控制的核心步骤(8)产销协同
  2. 小米笔记本Air 13.3 熄屏 大概率无法唤醒问题
  3. 《史记》中最精妙的一篇文章,贡献三句经典名言,影响世人两千年!
  4. JAVA学习日记(18)——反射和枚举
  5. 托管与云托管以及两者如何比较?
  6. React学习笔记(五)之父子组件传递参数
  7. 英特尔支持虚拟化技术处理器列表
  8. 阿里巴巴达摩院通义千问【附申请链接】阿里版ChatGPT
  9. 【前端】-【node.js基础】-学习笔记
  10. SQL:计算某列累加合计