3.5 交流融合

商界、政界和学术界的正式和非正式交流活动正日益融合。企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网、社交网络、博客、微博和视频频道上进行宣传。传统意义上,政府必须为省会城市的居民和个别社区提供服务。随着电子政务的发展,政府也必须在网上提供24/7的公共服务。同样,除了领域内文献之外,学者还可以通过网页、预印服务器、数据档案、机构知识库、幻灯片和图表、博客和微博、社交网络及其发明的其他媒介来发挥影响力。新技术加速了新通信方式的产生,但也破坏了现有模式的稳定性。在将旧模式映射为新模式的过程中,数据隐喻成为压垮旧模式的最后一根稻草。

3.5.1 数据隐喻

“数据发表”(data publication)和“发表数据”(publishing data)等隐喻,混淆了出版物和数据在学术交流中的作用。正如第三项挑战阐述的那样,这些隐喻简化的假设前提对新型学术交流模式构成了一定风险。
从严格意义上来讲,发表(publishing)的含义是“使公之于众”(to make public)。因此,其包括多种行为。但是,学术界的发表一般有三个功能:(1)合法化,(2)传播,(3)获取、保存和监护(Borgman 2007)。第一个功能往往通过同行评审完成。记录文件是典型的固定出版物,这类出版物展示了合法化过程,即把同行认可的质量和信任标记授予出版物。引文是合法研究记录的重要组成部分。传播功能的重要性不言而喻。因为只有与其他人交流成果时,研究才真实存在(Meadows 1974,1998)。出版商通过期刊、书籍、会议论文以及其他形式传播研究。作者则通过向同事分发、发布和在会谈、博客、社交网络中提及出版物等方式传播自身作品。第三个功能使作品易获取、易发现,同时确保备份,而且往往还要确保监护副本以供长期使用。后者往往由作者、出版商和图书馆共同负责。由于出版物是招聘、晋升等奖励认可的主要形式,所以学者具备发表作品的动机。
与期刊、图书发表类似,数据发表这一隐喻只有在狭义情况下才有意义。例如,经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)发表了GDP、就业、收入、人口、劳动力、教育、贸易、金融、价格等大量国内和国际统计数据。各种政府机构都会发表普查数据等类似统计数据。学术领域之外的数据发表的含义有所不同,其可以指对包含列表、事实或广告的文档进行分发。自1986年以来,名字含有“数据发表”字样的公司都一直从事于当地电话号码和类似信息的目录编制工作(Data Publishing 2013)。
数据发表这一隐喻在广义范围内并不成立。一般而言,它可以指发表与某篇独立期刊论文相关的数据集。数据可能附属于文章,但很少有单独面向数据的同行评审,因为很难对数据进行评估。如果从这种意义上对数据发表进行理解,那么数据通常归档存储并链接到文章,而非独立的发表单元。我们可以发现或监护数据集,但无法将其作为独立实体进行分发,其本身也无法像期刊论文那样实现自描述。数据发表也包括将数据发表在作者的个人主页上。这种情况下的数据发表并没有发挥出上述“发表”三个功能中的任何一个。某些情况下,该术语也指采集、归档数据并供其他人访问(PANGEA:Data Publisher for Earth & Environmental Science 2013)。我们可以进行数据发现和监护工作,但同行评审和传播都不是大多数数据存档的核心工作。
支持该隐喻的论据是熟练度,即学者均明白如何进行文章的发表和引用。此论据意味着,学者的熟练度将推动数据发表的进一步发展(Crosas et al. 2013;Klump et al.2006;Lawrence et al. 2011;Murphy 2013;Parsons and Fox 2013)。虽然人们经常将这种观点作为事实进行阐述,但却很难找出数据引用推动数据发表的论据。现在有很多出版商对数据进行包装,并将其作为独立单元进行传播。数据发表的隐喻也引起了这些出版商的兴趣,从而进一步扩展了当前的商业模式。
该隐喻的负面论据也很多且依旧存在。呼吁每篇期刊论文都发表数据有一定风险,因为这种情况下的文章和数据集之间建立了二元链接。某些领域存在二元关系且论文可通过数据集进行再现,这些领域的二元映射将进一步服务于社区发展。但就像在第9章中讨论的那样,这样的领域很少且彼此之间相距甚远。庞大知识基础设施是提升这种一一映射方式效率的必备条件,具体包括数据集的同行评审、可用知识库、构建链接的期刊政策和技术、访问所需的软硬件以及重现所需的其他设备。
期刊论文和数据集之间的一一映射关系只是多种可能的关系之一。二者之间的关系一般都是多对多。目前,我们仍然无法在给定出版物的条件下,明确其相关的所有数据和信息资源。从某种程度上来看,直接链接在发现和重现过程中发挥着重要作用。但如果出于其他目的,需要对数据进行挖掘和重用,那么一对一的链接体系结构就会成为重要的限制因素。开放数据运动以多源数据的集成和比较为基础,而这一切都需要开放技术。
帕森斯(Parsons)和福克斯(Fox)(2013)提出了数据管理五大隐喻,他们认为这五个隐喻都存在一定问题且并不完整。“数据发表”就是第一个隐喻。第二个隐喻是“大数据”(big data)或“巨铁”(big iron),指天文学、气候科学和高能物理学等类似领域中,与数据相关的工业生产和工程文化。该隐喻与质量保证、数据简化、版本问题、数据和元数据标准以及高吞吐量等问题相关。“科学支持”(science support)是第三个隐喻,在野外生态学等领域中,存在科学很难从数据中分离出来或者数据采集者很难从数据保管者中分离出来的现象。“地图制作”(map making)是第四个隐喻,具体指地理空间数据,这些数据对气候模型、土地利用、调查等问题的研究非常重要。研究人员最终将这些数据集成在图层中,以地图而非文章或论文的形式进行发表。
“链接数据”(linked data)是最后一个隐喻。其是数据集和出版物的一种链接方式。但同时也是一个更宏大运动的组成部分,该运动将有关联的数据单元、出版物和文档聚集起来。链接数据的概念是语义网的基础。为提高效率,链接数据需要基于组织的图模型展开,同时需要在本体和标准问题上达成一致。相比于数据保存、监护和质量保证,开放数据才是这个观念的核心。

3.5.2 数据单元

数据隐喻对数据传播、引用、使用及监护的单元进行了合理的简化假设。数据的表示单元大小不一,如像素、光子、字符、笔画、字母、单词、电子表的单元格、数据集或者数据档案等。甚至数据集(dataset)这一术语的含义也尚未确定,其常见的主题至少有四个,即聚集、内容、相关性和目标。每个主题之下还包括多种类别(Renear,Sacchi, and Wickett 2010)。数据集的大小从几个比特到多个TB不等,但均可看作独立对象。数据的使用目标决定了数据单元是否合适。有时,聚合多个数据单元有助于数据比较和挖掘工作,但有时候,从大量资源中进行抽样提取反而更有帮助。
印制品是书和期刊论文唯一便捷的交流单元,但现在可以将其分解为更小的单元。编辑人员认真对多篇文章进行集成,从而形成以期为单位的期刊。搜索引擎将文章作为独立实体进行检索,而非某期杂志的一部分。这些文章中的每个表、图和数据集都有标识符,因此,我们可以在研究方法、理论和结论等背景环境之外,对其进行独立检索。书籍、期刊论文以及其他形式的文本可以作为独立数据单元或数据进行聚合,通过词、短语或字符串进行搜索。
随着学术研究内容的不断细化和数据范围的不断扩大,出版等正式交流方式和演讲、会谈等非正式交流方式之间的界限越来越模糊。期刊论文、预印本、手稿、博客帖子、幻灯片、表格、数字、会议视频演示、推文、Facebook和LinkedIn帖子等实体可以独立分发。幻灯片和图片等公开知识库虽然要付费使用,但由于其易存储易获取且含有其他地方很少发布的对象,所以这些知识库依旧十分风靡。数字对象的使用和链接都很灵活,从而推动产生了新型交流方式。例如,当期刊以出版彩色图表(甚至只有电子档)为由索取大量版面费时,作者可以考虑只在期刊上发表黑白版论文,同时通过其他途径存储或发表全彩图片。因为彩图是解释研究发现必不可少的部分,所以,作者们选择了一种可负担得起的方式来满足读者需求。这种做法至少在短期内依旧可行。但单独发布的图表很难进行长期保存,而且图表和论文之间的对应关系也很容易丢失。
上述图表和论文之间对应关系丢失的问题又叫解聚(disaggregation)问题,解决这种问题的一般方法是内容重聚(reaggregation),具体包括重建各部分之间的原始关系以及创建新型聚合关系两方面。可以使用链接数据的方法重构学术价值链,其可以链接文章、数据、文档、协议、预印本、演示文稿等其他单元。这种方法适用于易联网的单元,但并非资源跨系统、跨服务链接的通用方法(Bechhofer et al. 2013;Goble,De Roure,and Bechhofer 2013;Pepe et al. 2010;Van de Sompel et al. 2012)。同理,开放文献的数据挖掘可以识别文本、表格和图片中的数据,却不能识别补充材料或档案中的数据。单一方法不能同时解决解聚、重聚、引用和出版单元等问题(Bourne et al. 2011;Parsons and Fox 2013;Uhlir 2012)。

3.5.3 记录文件

因为学术交流可以分散进行,可以传播,也可以按照新方式重新聚合,所以很难对论据型记录进行维护。参考对象不复存在,实体间的链接断开,搜索算法的发展更具有专有性和机密性。由于同一数据在不同环境中发挥着不同作用,所以数据的稳定性甚至不如出版物。即使经过长期发展,在特定地点和特定时间条件下,出版物依旧是固定单元。作品出版时,都会获得数字对象标识符(Digital Object Identifiers,DOI)、卷期号、页码,以及其他注册号等唯一、稳定的标识符。数据单元获得持久标识符的前提是,在特定时间、版本和格式条件下的含义保持不变。各个具体单元共同构成了庞大的论据链。
文件版本激增并非新问题。《纽约时报》等各大报纸一天就发布多个版本。印刷时代的记录文件是“城市晚报”(the late city edition)。在数字化时代,《纽约时报》面向当地、全国和全球不同读者,同时发布印刷版和电子版。每篇文章的不同版本会有所调整。
印刷时代的记录文件通常比较明确。期刊、会议、出版的图书等都是记录文件。文件一旦以印刷形式出版,就会永久处于已出版状态。参考文献的引文中需要标出所引作品的版本号。读者通过参考文献可以理解作品思想和论据的发展过程。多年之后,他们甚至依旧可以从图书馆、同事或书店那里获得所需作品的稳定副本。现在,如果期刊论文有印刷版的话,那么在印刷版发布前几周或几个月,网上都会有电子版发布。网上的电子版(在线版,online vision)至今还被认为是预览品,而印刷版才是真正的参考文献记录文件。在线版已逐步成为记录文件,DOI正快速取代卷期号和引文所在页码。
数据可以以表征其动态特征的方式进行传播,也可以通过期刊论文等静态形式进行传播,但前者更具优势。例如,《可视化实验期刊》在通过视频展示实验操作的同时,发布同行评审对该实验的评审报告(JoVE: Peer Reviewed Scientific Video Journal 2013)。作者通过3D PDF等交互可视化方式来增强出版物的感染力,使读者在文章中就能旋转天文数据模型(Goodman et al. 2009)。还有很多类似实验正在进行中(De La Flor et al. 2010;Dutton and Jeffreys 2010;Wouters et al. 2012)。
除了期刊、书籍等正式出版物外,研究方法和研究结果也可以通过其他手段进行传播。例如,短视频就是一种展示实验技术的通用方式。其他概念可以通过图纸和旁白进行说明。搜索关于蛋白质组学、微分方程、计量经济学或文本互涉的视频网站时,系统会产生多条免费记录,而且部分记录已被访问过约50万次。作者正通过社交媒体宣传其作品,读者也正使用社交媒体学习新想法、新发现和新技能。推文和博客帖子为学术内容提供了重要的提醒服务。《科学》举办了一个广受欢迎的年度比赛“与PhD共舞”(Dance Your PhD),博士生通过在比赛中提交简短的音乐视频来展示其论文(Bohannon 2013a)。虽然这些资源目前可能仍处于学术发表的边缘,但它们在学者们赖以生存的知识基础设施中正发挥着越来越重要的作用。

《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合相关推荐

  1. 《大数据、小数据、无数据:网络世界的数据学术》一 导读

    前 言| 在"大数据"风靡的当代,学术研究中的"小数据"依旧不容小觑.随着绝对数据量的增加,学者们进行个体研究的能力却不断退化.因为他们从未距离研究对象如此遥远 ...

  2. 《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术

    3.4 开放学术 随着开放获取.开放资源.开放数据.开放标准.开放知识库.开放网络.开放书目.开放注解等专业词汇的出现,"开放"列表依旧不断增加.正如第1章介绍的那样,开放获取运动 ...

  3. linux网络协议栈之数据包处理过程,Linux网络协议栈之数据包处理过程

    这篇文档是基于 x86 体系结构和转发 IP 分组的. 数据包在 Linux 内核链路层路径 接收分组 1 接收中断 如果网卡收到一个和自己 MAC 地址匹配或链路层广播的以太网帧,它就会产生一个中断 ...

  4. Python学习笔记——数据分析之数据可视化工具实战案例:世界高峰数据可视化

    世界高峰数据可视化 (World's Highest Mountains) 参考:https://www.kaggle.com/alex64/d/abcsds/highest-mountains/le ...

  5. 读书笔记 1.数据包分析技术与网络基础 Wireshark数据包分析实战 第3版

    1.数据包分析技术与网络基础 1.2.1 协议 发起连接 :是由客户端还是服务器发起连接?在真正通信之前必须要交换哪些信息? 协商连接参数 :通信需要进行协议加密吗?加密密钥如何在通信双方进行传输? ...

  6. 上市公司共同机构所有权数据-附顶刊《管理世界》数据应用示例

    1.数据来源:见数据说明文件 2.时间跨度:2003-2020 3.区域范围:所有上海.深圳证券交易所A股主板.中小企业板.科创板.创业板上市公司 4.指标说明: 具体计算方式详见分享文件夹文本文档 ...

  7. 《大数据、小数据、无数据:网络世界的数据学术》一 3.3 社会与技术

    3.3 社会与技术 社会与技术之间的密切关系是数据学术的重要组成部分.由于各关系具有反身性且相互作用,因此彼此之间很难进行分割.现有工具使数据创造成为可能,但工具发挥作用的前提是知道采集何种数据.与其 ...

  8. 如何打造智能世界的数据底座?深耕华为云大数据,畅享价值最大化

    随着信息的快速传递,掌控流量和数据成为企业进步的秘诀,想要获得更好的业务发展,当然需要及时掌握信息数据的核心.对于企业而言,如何才能够提升日常报表的处理效率,快速解决各种繁杂的数据呢?华为云大数据的出 ...

  9. 数据包分析技术与网络基础

    1,数据包分析与数据包嗅探器 数据包分析,通常也被称为数据包嗅探或协议分析,指的是捕获和解析网络上在线传输数据的过程. 数据包分析过程通常由数据包嗅探器来执行,而数据包嗅探器则是一种用来在网络媒介上捕 ...

最新文章

  1. win10 输入法不见了、繁体 问题解决
  2. Selenium with Python 001 - 安装篇
  3. 我有一个域名_一个域名可以绑定几个网站?域名解析多少子域名?
  4. 本周任务asp.net 1.1老系统移植升级到asp.net 2.0,又是一个浩大的工程啊?
  5. Java工具包工具类,java.util.concurrent 包下工具类的使用
  6. 大数据之-Hadoop3.x_MapReduce_自定义序列化步骤---大数据之hadoop3.x工作笔记0095
  7. 神经网络建模的基本思想,三维建模神经网络设计
  8. mmsi是代表船舶什么_船舶常见的一些缩写
  9. 每天晚上坚持1500个跳绳,两个月后,身体会有什么变化?
  10. 解决阿里云ECS服务器下载 git 资源慢的问题
  11. 【困难】数字迷宫,找到迷宫中的单词。
  12. dbv数据库乱码_使用DBV进行数据库版本控制
  13. 电路原理 | 二阶动态电路
  14. 携手共进 智享未来丨美格智能2023年代理商合作伙伴大会成功举办
  15. Resilience4j简介
  16. 两台不同的型号的路由器桥接
  17. m2硬盘写入速度测试软件,实测:M2固态硬盘换个插槽传输速度竟然提升了约1000M!...
  18. JVM问题分析调优经验
  19. 虫师 Selenium3 基于Python 生成HTML测试报告误区记录
  20. 广东省汕头市谷歌卫星地图下载

热门文章

  1. jQuery源码研究学习笔记(二)
  2. Tips--开源心音数据库整理(我愿称之为史上最全)
  3. 7-8 菲波那契数列 (15 分)
  4. 计算机网络校园网络设计方案,毕业论文--《计算机网络》校园网设计方案
  5. Ubuntu truffle框架安装
  6. java mysql存储过程_JAVA调用MySQL存储过程
  7. 女生学师范还是计算机,本人专业是计算机科学与技术师范类,女生,不知道是考研还是工作什么的,今年开学大三,希望大家提点意见...
  8. b树c语言,B树——思路、及C语言代码的实现
  9. 使用Gitblit 在windows 上部署你的Git Server
  10. ANDROID调用webservice带soapheader验证