1 数据溯源综述

1.1 概念和定义

数据溯源(data provenance)是一个新兴的研究领域,诞生于 20 世纪 90 年代。当初,某些文献将其称为数据志或数据档案,后来,大部分文献将其命名为数据起源,有追踪数据的起源和重现数据的历史状态之意。本文称其为数据溯源,从应用的角度出发,强调追踪的过程和方法。

目前,数据溯源还没有公认的定义,因应用领域不同而定义各异。我们参考一些学者给出的定义:

1、将数据溯源定义为从源数据到数据产品的衍生过程信息;

2、在数据库领域将其定义为“数据及其在数据库间运动的起源”;

3、数据溯源是对目标数据衍生前的原始数据以及演变过程的描述;

4、数据溯源是一种元数据,用来记录工作流演变过程、标注信息以及实验过程等信息。

在其它一些领域中还有其它一些叫法: 如数据族系( Data Lineage) 、数据系谱( Data Pedigree) 、数据来源( Data Origin) 、数据世系等。

数据溯源定义为记录原始数据在整个生命周期内( 从产生、传播到消亡)的演变信息和演变处理内容。我们认为,Data Provenance 应该翻译成“数据溯源”,强调的是一种溯本追源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。

1.2 数据溯源模型

建立一个数据模型是数据溯源的关键技术。根据模型可以初步确定数据溯源的大体步骤和基本思路。

从数据溯源信息管理的角度出发,提出异构数据的数据溯源概念。即采用横轴表示时间(t)、纵轴表示过程(p)、z轴表示数据的异构分布特性。将数据溯源信息保存到不同的数据库中,形成携带溯源信息的异构数据库。通过数据库接口以及数据转换工具汇聚成目标数据库。这个过程的逆过程所经历的路径能够实现数据溯源的各种操作,如:数据追踪、信息评估、过程重现等,从而完成数据溯源任务。

1.3 几种主要的数据溯源模型

目前,数据溯源模型主要有:流溯源信息模型、时间-值中心溯源模型、四维溯源模型、开放的数据溯源模型、Provenir数据溯源模型、数据溯源安全模型,PrInt 数据溯源模型等,这些模型都建立在不同领域、不同行业。

1、流溯源信息模型由 6 个相关实体构成,主要包括流实体(变化事件实体、元数据实体和查询输入实体) 和查询实体(变化事件实体、接收查询输入实体,包括元数据实体)。实体间关系密切,通过这种密切的关系可以根据数据的溯源时间来推断数据溯源。

2、Bow ers S 提出的

Time-Value Centric ( TVC ) 模型又称时间-值中心溯源模型,是一种简单有效的溯源模型。由于过去的溯源模型无论是基于标注的还是基于过程的溯源模型都用于面向交易的系统中,并不适合高容量特定需求以及连续的医疗流。于是,提出支持医疗领域数据源特点的 TVC 模型专门处理医疗事件流的溯源信息。根据数据中的时间戳和流 ID 号来推断医疗事件的序列和原始数据的痕迹。

3、四维溯源模型是由 Yogesh L.

Simmhan 等人提出。此模型将溯源看成一系列离散的活动集,这些活动发生在整个工作流生命周期中,并由四个维度(

时间、空间、层和数据流分布) 组成。四维溯源模型通过时间维区分标注链中处于不同活动层中的多个活动,进而通过追踪发生在不同工作流组件中的活动,捕获工作流溯源和支持工作流执行的数据溯源。

4、开放的数据溯源模型 OPM,在首届

International Provenance and Annotation Workshop( IPAW) 会议中,与会者对数据溯源的描述产生了一些共同的观念,并提出了一种原始的数据模型。后来,南安普顿大学等组织整理了会议的主要思想并发表了题为“The Open Provenance Model”文章,文中提及的模型基本形成业界信息交换标准,定义一些具体的格式和协议就能应用到实际当中。

5、Provenir数据溯源。模型2008年,在由Freire和Moreau组织的第二届

IPAW 会议中,Sahoo 等人提出了Provenir 数据溯源模型,该模型使用W3C 标准对模型加以逻辑描述,考虑了数据库和工作流两个领域的具体细节,从模型、存储到应用等方面形成了一个完整的体系,成为首个完整的数据溯源管理系统。用分类的方式阐明它们之间的相互关系.

该模型提供对数据产生历史的元数据、原数据、修改元数据等功能,并使用物化视图的方法有效解决了数据溯源的存储问题.

6、数据溯源安全模型。数据溯源技术能够溯本追源,通过其起源链的记录信息来实现追源的目的,但是记录信息本身也是数据。因此,同样存在安全隐患,为了防止有人恶意篡改数据溯源中起源链的相关信息,李秀美等 2010 年研究了数据溯源的安全模型,利用密钥树再生成的方法并引入时间戳参数,有效地防止某人恶意篡改溯源链中的溯源记录,对数据对象在生命周期内修改行为的记录按时间先后组成溯源链,用文档来记载数据的修改行为,当进行各种操作时,文档随着数据的演变而更新其内容,通过对文档添加一些无法修改的参数比如: 时间戳、加密密钥、校验和等来限制操作权限,保护溯源链的安全。

7、PrInt数据溯源模型。PrInt是一种支持实例级数据一体化进程的数据溯源模型。该模型主要集中解决一体化进程系统中不允许用户直接更新异构数据源而导致数据不一致的问题。由 PrInt提供的再现性是基于日志记录的,并将数据溯源纳入一体化进程。

以上七种模型是比较经典的模型,其中,对于前三种模型而言,流模型和时间-值模型没有明确指出对 W7 模式的支持,只有四维模型支持动态构建数据溯源图,能根据一系列溯源事件以及数据结点和服务结点所构成的数据流边来构建。存在的不足之处在于形成过程不直接,难于理解。后面几种模型是从不同的角度,不同层次,针对数据溯源的某种特性而建立起来的模型。随着时间的推移,数据溯源模型会越来越多。

1.4 数据溯源方法

目前,数据溯源追踪的主要方法有标注法和反向查询法。除此之外,还有通 用的数据追踪方法,双向指针追踪法,利用图论思想和专用查询语言追踪法,以及文献提出以位向量存储定位等方法。

标注法是一种简单且有效的数据溯源方法,使用非常广泛。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。Sudha等人提出的7W模型,就是采用标注法,事先标记并携带溯源信息完成数据溯源的模型,被称为eager方法。采用标注法来进行数据溯源虽然简单,但存储标注信息需要额外的存储空间。反向查询法,有的文献也称逆置函数法。由于标注法并不适合细粒度数据,特别是大数据集中的数据溯源,于是,提出了逆置函数反向查询法,此方法是通过逆向查询或构造逆向函数对查询求逆,或者说根据转换过程反向推导,由结果追溯到原数据的过程。这种方法是在需要时才计算所以又叫lazzy方法。反向查询法关键是要构造出逆向函数,逆向函数构造的好与坏直接影响查询的效果以及算法的性能,与标注法相比,它比较复杂,但需要的存储空间比标注法要小。

1.5 数据溯源的应用

数据溯源最早仅用于数据库、数据仓库系统中,后来发展到对数据真实性要求比较高的各个领域: 如生物、历史、考古、天文、医学等。随着互联网的迅猛发展以及网络欺骗行为的频繁发生,人们越来越怀疑数据的真伪,对数据的真实性要求越来越高。数据溯源成为考究数据真假的有效途径,掀起了一波数据溯源研究的热潮,因此,数据溯源追踪逐渐扩展到计算机各行各业。目前,研究领域已经覆盖到地理信息系统( GIS) 、云计算、网格计算、普适计算、无线传感器网络和语义网络等。其中,数据溯源在数据库和工作流领域的研究最为流行。

原理 数据溯源_什么是数据溯源?相关推荐

  1. 深度学习数据自动编码器_如何学习数据科学编码

    深度学习数据自动编码器 意见 (Opinion) When I first wanted to learn programming, I coded along to a 4 hour long Yo ...

  2. excel导入数据校验_使用Excel数据验证限制日期范围

    excel导入数据校验 Yesterday, one of my clients emailed to let me know that she was having trouble entering ...

  3. 深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景

    深度学习数据更换背景 数据科学教育 (DATA SCIENCE EDUCATION) 目录 (Table of Contents) The Importance of Context Knowledg ...

  4. 查询数据库中有多少个数据表_您的数据中有多少汁?

    查询数据库中有多少个数据表 97%. That's the percentage of data that sits unused by organizations according to Gart ...

  5. 前置交换机数据交换_我们的数据科学交换所

    前置交换机数据交换 The DNC Data Science team builds and manages dozens of models that support a broad range o ...

  6. python爬取淘宝数据魔方_淘宝数据魔方技术架构解析

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业 ...

  7. 蓝牙广播数据包_蓝牙BLE数据包格式汇总

    以蓝牙4.0为例说明: BLE包格式有:广播包.扫描包.初始化连接包.链路层控制包(LL层数据包).逻辑链路控制和自适应协议数据包(即L2CAP数据包)等: 其中广播包又分为:定向广播包和非定向广播包 ...

  8. rdd数据存内存 数据量_「大数据」(七十七) Spark之IO机制

    [导读:数据是二十一世纪的石油,蕴含巨大价值,这是·情报通·大数据技术系列第[77]篇文章,欢迎阅读和收藏] 1 基本概念 与传统的 IO 相比, Spark IO 有很大区别.传统的数据存在单个计算 ...

  9. python查看数据大小_科多大数据带你看Python可以列为最值得学习的编程语言

    原标题:科多大数据带你看Python可以列为最值得学习的编程语言 不知道从什么时候开始,这句话开始流行.不过也从侧面反映出 Python 语言的特点:简单.高效. 从近期代表技术趋势的业界报告以及编程 ...

最新文章

  1. idea ssm框架 mysql_idea搭建简单ssm框架的最详细教程(新)
  2. Nodejs的http模块
  3. asp.net数据格式的Format-- DataFormatString
  4. Linux jdk配置
  5. oracle数据库空间估算
  6. 安卓开发.四大组件.activity.1
  7. Qt文档阅读笔记-QML RotationAnimation官方解析及实例
  8. HDU 5045 Contest
  9. 发布锁定表头的一个思路
  10. 常用的python模块
  11. 20210314:力扣第 232 场周赛
  12. 无需搭建和训练模型,87行代码搞定文章摘要生成
  13. 基于DEAP库的python进化算法--遗传算法实践--配词问题
  14. Ubuntu下lamp(PHP+Mysql+Apache)搭建+完全卸载卸载方法
  15. 2021年认证杯SPSSPRO杯数学建模B题(第一阶段)依巴谷星表中的毕星团求解全过程文档及程序
  16. 2016hctf writeup
  17. druid数据库连接池 数据库配置密码加密
  18. 计算机金融学校排名2015,金融学院2015级各专业排名情况统计表
  19. 「现场参会攻略」| 2018AI in China之智能制造数据驱动产业变革高峰论坛
  20. gophp解释器_golang底层用什么语言实现的

热门文章

  1. MySQL8.0.12 安装及配置
  2. 关于JAVA中的IO模型
  3. 【实战】轻轻松松使用StyleGAN(七):用StyleGAN Encoder为女朋友制作美丽头像
  4. Golang 安装 Redis
  5. 浙江交通用大数据预测堵车 告诉你如何跑的快
  6. 美若黎明-我的2016
  7. futter 通过判定输入框组件是否都有值,对按钮进行禁用/启用。
  8. vue-draggable-resizable 拖拽缩放插件
  9. CEMAPI实战攻略(四)——发送短消息(转自http://blog.csdn.net/depraved_survival/archive/2009/03/11/3980446.aspx)
  10. 春运里的“车轮战”:每天60多道工序保养轮对