主题词

数据产品;盒装数据;产品形态;数据市场

近年来,国内数据交易机构探索通过数据交易方式实现大数据流通的机制和可行路径,但在未能明确数据产品形态的情况下,数据的计量计价机制难以形成,数据交易面临难以开展数据交易业务的困境,亟需设计一个可计量的标准数据产品形态。复旦大学的朱扬勇教授团队在《大数据》预出版论文“盒装数据:一种基于数据盒的数据产品形态”,基于数据盒模型,探索设计了一种数据产品的基础标准形态——盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分。盒装数据旨在为数据要素市场提供一个可计量计价的标准数据产品形态。

题目:盒装数据:一种基于数据盒的数据产品形态

作者:叶雅珍,朱扬勇

单位:复旦大学计算机科学技术学院,上海市数据科学重点实验室

引用格式:叶雅珍, 朱扬勇. 盒装数据: 一种基于数据盒的数据产品形态[J]. 大数据, 2022, 8(3). doi:10.11959/j.issn.2096-0271.2022030

YE Y Z, ZHU Y Y, et al. BoxedData: a data product form based on databox[J]. Big Data Research, 2022, 8(3). doi:10.11959/j.issn.2096-0271.2022030

01

数据产品面临哪些问题

作为一类新型产品,数据产品与其他产品一样,要想实现在数据市场中有效交易和流通,就需要能对其开展可靠地计量,而数据产品计量要有可用可见的数据产品形态。

(1)数据产品的计量问题。①随着时间的推移,所积累的数据类别、形式越来越多样,复杂度越来越高,对由多种数据组成、类型多样、规模庞大的大数据集进行可靠计量挑战巨大。②另外,数据的信息属性使得数据产品的价值因人而异、存在相对性,这也给数据产品计价带来很大的技术挑战。

(2)不同类别的数据难以有统一的标准,这对设计统一的数据产品形态造成了极大困难。①数据产品形式统一困难。数据产品形式可以是由单一类别数据组成的形式,亦可是由多种不同类别的数据构成的形式。如何对这些不同类型的数据进行统一管理是一个难题。②数据产品规模统一困难。数据产品的数据类别形式多样且复杂,使得数据产品规模难以有固定大小的基本量。使用多大规模作为数据产品的衡量标准也是一个极具挑战的难题。

02

什么是盒装数据

一个盒装数据产品包括盒内数据、盒外包装两部分。

(1)盒内数据是指“时间+空间+内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种数据类型。①内容维度,是指数据集中每个数据对象的内容,即数据对象有哪些属性。如图1所示,内容维度有开盘价、收盘价、最高价、最低价。②时间维度,是指每个数据对象的时间覆盖范围,即数据对象在不同时间上的值。如图1所示,时间维度为每个交易日。③空间维度,是指符合数据产品描述的数据对象的空间覆盖范围,即满足数据产品描述的数据对象全体。如图1所示,空间维度为所有在时间维度上在某证券交易所挂牌的股票。对于多类型的数据产品,可以用数据盒的组合形式来表示,即将多个数据盒装入一个大的数据盒中,形成复合型盒装数据产品。

图1 “某证券交易所2020年挂牌股票的行情数据集”盒装数据产品

(2)盒外包装包括产品登记证书,以及产品说明书、质量证书、合规证书等内容。①盒装数据产品登记证书是拥有者对相关数据产品权属的声明,是对盒内数据的概述性介绍,由专门的数据产品登记主管部门审核发放。只有登记后的盒装数据产品才具有合法性,才被允许在数据市场上进行流通和交易,并受法律保护。盒装数据产品登记证书主要包含产品名称、产品登记号、数据盒标牌等内容,以及产品说明书、质量证书、合规证书等附件(表1)。②产品说明书包括数据产品内容说明、生产方式/著作方式说明(被加工数据来源的合法性证明)和使用说明等。③盒装数据的质量证书就是盒装数据中的数据集达到相应质量标准和要求的证明性文件,是其开展交易流通的重要凭证。质量证书的相关内容可以作为判断盒装数据价值高低的依据。④盒内数据必须合法合规,即符合国家相关法律规定。盒装数据的合规证书主要用于承诺盒内数据符合《数据安全法》《网络安全法》《个人信息保护法》等国家有关法律要求。

表1 盒装数据产品登记证书

03

盒装数据如何计量

参照图书的做法,设计一个标准化的盒装数据产品的基础规模和内容。盒装数据的最小规模设定为1 GB,内容应至少包括图像、图形、音频、视频、结构化数据、文本等两种以上数据类型,这兼顾了市场需求和监管需求。与“达到49页的规模才能构成一本图书”类似,“达到1 GB的数据规模才能构成一个盒装数据”也是一个认定的规模数值,不是一个科学的界定,具体的标准规模还有待于未来实践总结和完善。

更多技术细节请阅读原文:

http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2022030

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-81055307

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容

新文速递 | 盒装数据:一种基于数据盒的数据产品形态相关推荐

  1. 新文速递 | 数商:数据商品、数据商人和数据商业

    主题词 数商:数据商品:数据商人:数据商业 随着数据要素市场建设的推进,"数商"的概念越来越得到广泛关注.当前数商生态加速成势,数据价值持续释放,数字经济蓬勃兴起.首届2022全球 ...

  2. power bi 雷达图_星载雷达与C波段地基雷达数据一致性个例分析 | 新文速递

    点击蓝字 关注我们 摘 要 为提高单部雷达与多部雷达组网探测降水的精度,对地基雷达进行了一致性定标.星载雷达作为标准参考源已应用于S波段天气雷达的一致性定标,但对于C波段天气雷达的适用性仍有待研究.为 ...

  3. vs打开sln是空白_周末惊喜版块 | 新文速递 强推全息网游无限流鬼怪文/软妹身大佬心锦鲤女主VS阴郁暴躁倒霉蛋男主【言情】01.20...

    点点关注,本萝莉就亲亲你目录 <无限求生>作者:轻云淡 [红金] [强推全息网游无限流鬼怪文] <娇宠天成(重生)>作者:沈青鲤 [金] <(仙侠)我是系统>作者: ...

  4. 【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据三维定位方法

    [论文速递]ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法 [论文原文]:A novel solution for stereo three-dimensional ...

  5. 判断作弊 牛客 编程_牛客企业服务产品-新功能速递-第5期

    <牛客企业服务产品功能速递> 栏目,旨在帮 助企业用户及时了解牛客企业服务产品功能更新/新增,让用户第一时间了解和使用我们的新产品/功能.锁定<牛客企业服务产品新功能速递>,我 ...

  6. Vue实现仿音乐播放器6-实现新歌速递与swiper轮播图切换

    前言 前面在首页已经完成今日推荐以及访问百度API获取数据,现在继续来完善home主页. 效果 新歌速递 swiper实现轮播图 实现 实现新歌速递 在components下新建新歌速递组件News_ ...

  7. 抖音火爆的早安推送在线版,新功能速递,支持推送时间自定义,添加生日日期计算

    抖音火爆的早安推送在线版,新功能速递,支持推送时间自定义,添加生日日期计算 传送门 问题咨询:1319723770@qq.com 新功能一:支持推送时间自定义 操作路径 消息推送列表界面,找到需要修改 ...

  8. 基于python的分布式扫描器_一种基于python的大数据分布式任务处理装置的制作方法...

    本发明涉及数据处理技术,具体是一种基于python的大数据分布式任务处理装置. 背景技术: 本发明提供一种分布式队列任务处理方案和装置,该方法可以提供分布式处理python任务,任务类型包括爬虫及其他 ...

  9. 一种基于三代PacBio测序数据的补洞方法

    一种基于三代PacBio测序数据的补洞方法 技术领域 本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法,它使用三代PacBio 测序数据来进行基因组数据的补洞. 背景技术 三代PacBio测序 ...

最新文章

  1. 飞桨博士会第三期来啦!中国深度学习技术俱乐部诚邀您加入
  2. 实践浅解free的具体作用(C语言)
  3. Oracle-Materialized View解读
  4. Linux系统下 Apache+PHP 环境安装搭建
  5. php -- 取整数
  6. 04-1.jQuery事件与补充each/data
  7. mysql创建数据库没有默认值报错_详解Mysql数据库date, datetime类型设置0000-00-00默认值(default)报错问题...
  8. Spring 实践 -拾遗
  9. 深度学习之主流数据库 | MySQL基础
  10. oracle及mysql错误记录
  11. CardView完全解析和使用
  12. c语言 x%2 什么意思,《X》歌词 printf((x%2)?**%d:##%d\n,x);是什么意思?
  13. Starbound正式版的Mod制作(三)简…
  14. David P.Williams论文系列 SAS图像分辨率与目标检测性能的关系
  15. 颓废的人怎样振奋精神_5个令人振奋的行业,从事数据科学家在科技行业以外的工作...
  16. 三叶草新冠候选疫苗在全球2/3期临床试验结果显示对德尔塔变异株的保护效力为79%...
  17. OSI 七层模型和TCP/IP模型及对应协议
  18. 微信小程序实现watch属性监听数据变化
  19. 好久不见我亲爱的东东了
  20. u盘中的android文件夹图标不显示,U盘中文件夹怎么设置自定义图标而不变样

热门文章

  1. $ajax({}).done 和 $ajax({}) success 区别
  2. Java static 静态代码块、代码块
  3. 基于RAF的一个小动画框
  4. GL 与 CV 管线 (pipeline) 比较与相互转换
  5. 【android】ActivityGroup初体验
  6. C# Replace函数与JS replace函数
  7. 基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - 对象控制反转
  8. BCB线程的互斥与同步
  9. python3 os模块相关方法
  10. 最小生成树构造算法--Prim算法,Kruskal算法(C语言)