3.4 开放学术

随着开放获取、开放资源、开放数据、开放标准、开放知识库、开放网络、开放书目、开放注解等专业词汇的出现,“开放”列表依旧不断增加。正如第1章介绍的那样,开放获取运动从19世纪70年代进行至今。开放获取研究的发展旨在提高系统、工具和服务之间的互操作性机制。其与分布式计算网络技术的进步以及几乎无所不在的互联网接入,共同成就了今天的知识基础设施,并将进一步推动其发展。
定义开放学术的难度不亚于界定数据学术,开放学术几乎等同于开放科学。为方便讨论,这里的开放学术包括开放获取出版物、开放数据、数据发布和数据共享相关的政策和实践。开放学术的目标是加快研究速度,鼓励提出新问题、推动调查方式创新,减少学术诈欺和不端行为,推动技术和科学劳动力增长,并利用公共投资推动研究和教育事业发展(David,den Besten,and Schroeder 2010;Esanu and Uhlir 2004;Nielsen 2011;Boulton et al. 2012;Uhlir and Schr鰀er 2007)。
但是,开放学术这种单一术语的使用,可能会模糊各开放获取形式间的本质差异。本书的第三项挑战指出,出版物和数据分别在学术活动中发挥着不同作用,以下将进一步阐述。开放获取出版物和开放数据目标相同,即促进信息流动、减少知识资源的使用限制、提高研究实践透明度。二者的学术价值、利益相关者及其跨环境、随时间的可移植性均有所差异。

3.4.1 开放获取研究成果

1665年第一批期刊出现后,学术活动从私人领域的书信和会议形式转变为公开传播方式。读者可以通过图书馆、书商和个人订阅途径获取书籍、期刊和其他出版物。同时,信件、草稿、手稿和预印本的私下交换方式依旧存在。
1991年,随着arXiv的发布,开放获取研究成果取得了巨大飞跃。因为出现在万维网之前,所以arXiv的原始地址为xxx.lanl.gov(Ginsparg 1994,2001)。在此后的20多年间,arXiv已扩展到其他科学领域,从洛斯阿拉莫斯国家实验室搬到康奈尔大学,并得到成员机构的广泛支持。其使用量呈指数形式持续增长。目前,每月有8000多篇论文上传到arXiv,且仅2012年的论文下载量就超过了6000万(ArXiv.org 2013)。
arXiv为今天的开放获取数据提供了三条重要经验。首先,该系统的研究领域为高能物理学,是活跃的预印本交流文化的产物。它建立在支持亲近同事间进行信息交换的知识基础设施之上,这种基础设施叫作无形学院(invisible colleges)(Crane 1972)。
其次,arXiv改变了物理学学术交流中作者、出版商、图书馆和读者等利益相关者之间的关系,从而扰乱了现有知识基础设施。无论国家富裕与否,研究人员和学生都能在官方发布出版物之前获得论文。随着arXiv的快速发展和广泛应用,物理学领域的期刊编辑和出版商除了接受它的存在之外,别无选择。许多期刊之前不考虑在线发布论文,因为这样的发布构成了优先出版(prior publication)。今天,许多领域仍有类似政策。
最后,arXiv的成功并没有很快或很好地迁移到其他领域。虽然其他领域的预印服务器规模和普及量均不断加大,但没有一个像arXiv那样深入学术实践中。arXiv目前已经扩展到物理、数学、天文学以及其他领域,但其并没有深入每个领域的每个方面。在一些研究领域中,arXiv的使用无所不在。但在其他领域,它也只是偶尔发挥作用。
开放获取出版物在早期经验的基础上展开。开放获取虽然是个简单概念,但由于利益相关者之间的竞争性,其很容易被误解。彼得·萨伯(Peter Suber 2012a,4)对该词的定义最为简洁:“开放获取(Open Access,OA)文献具有数字化、在线、免费、大部分无版权和许可限制等特征。”萨伯随后又指出,开放获取研究学术文献和开放获取其他形式内容的操作过程不同。开放获取文献的原则之一为作者拥有作品版权,除非或直到该权利被转移到另一方(如出版商)。另一个原则是,学者写研究论文一般都不是为了获取酬劳。在作品广泛传播的同时,学者自己并不损失任何利益,但大部分其他作者、艺术家和创造者的收益往往会受到影响。学者写研究论文是为了提高影响力,而非收入。因此,他们希望可以尽可能接触更多读者以提高自身利益。学术研究的资金主要来源于学术工资和研究基金。学者的利益与雇佣、资助学者的机构的利益相一致,因为他们的出版物也可以从中提高影响力。
开放获取文献的实现方式多样、监管模式丰富,同时还有很多别称(如绿色、黄金、免费、自由等)。这些模式的共同点是均基于上述两个原则。作者通常会保留公开传播作品的版权或许可和作为作品创作者的其他权利。但一般情况下,对作者有直接收入的学术书籍、教科书和其他作品进行开放获取时,也会考虑一些其他问题(Budapest Open Access Initiative 2002;Directory of Open Access Journals 2013;Howard 2013a;Jacobs2006;Laakso and Bj鰎k 2013;Leptin 2012;Pinter 2012;Research Councils UK 2013;Suber 2012a;Van Noorden 2013b;Wickham and Vincent 2013;Wilbanks 2006;Willinsky 2006)。
大约从2005年以来,全世界越来越多的研究机构对其研究人员的期刊出版物实行开放获取政策,如美国的哈佛大学、麻省理工学院、加利福尼亚理工学院和加利福尼亚大学(Harvard University 2010;MIT Libraries 2009;Caltech2013a;Office of Scholarly Communication 2013)。一般情况下,开放获取政策会授予高校非排他性许可,允许其将研究工作通过公共知识库进行传播。开放获取出版物在2012年和2013年取得重大进展。2012年,英国研究委员会(Research Councils of the United Kingdom,RCUK)宣布,受该机构全部或部分资助的所有同行评审期刊论文和会议论文都将提交到开放获取期刊上。该政策于2013年4月起生效。由于争议很大,因此政策中“开放获取期刊”的定义进行了多次修改和解释。“开放获取期刊”包括专有期、一系列商业模式以及一些临时补贴(Research Councils UK 2012a,2012b)。2013年,美国政府行政部门对受联邦基金资助的出版物宣布了一项类似政策,即一般遵循由美国国家卫生研究院和公共医学中心(the National Institutes of Health and PubMed Central)规定的专有期和政策(Office of Science and Technology Policy 2013;Holdren 2013b)。欧盟、澳大利亚以及其他国家正在商讨类似政策。
各种各样的政策、商业模式和出版物类型使学术期刊文献的公开获取途径更加丰富。考虑到专有期,一年内出版的期刊论文中约一半可以在网上免费获取,而且这一比例将进一步增长(Laakso et al.2011;Van Noorden 2013a)。虽然还有很多细节需要进一步商榷,但开放获取期刊论文正逐渐成为一种制度。然而,利益相关者之间的紧张关系尚未得到缓解。部分作者依旧在网上发布不符合开放获取政策的文章、论文和其他作品,一些出版商对其具有独家版权作品的相关开放获取政策表示不满(Howard 2013b;SHERPA/RoMEO 2014)。

3.4.2 开放获取数据

许多资助机构的开放获取数据政策都与开放获取出版物政策相关。英国的政策对这种关系进行了清晰阐述(Research Councils UK2012b,1):“根据政务透明和开放数据总战略,政府致力于确保已发表的研究成果可以免费获取。”英国研究理事会关于开放获取期刊的政策要求作者说明如何获取出版物相关数据,但同时承认这种做法的复杂性(Research Councils UK2012b,4):“确保研究人员考虑数据获取问题……但是,本政策并不要求所有数据必须公开。声明指出,如果有足够理由(如潜在包含参与者身份信息的数据具有商业机密性和法律敏感性)要求实现数据保护时,可以有例外。”
美国国家卫生研究院(National Institutes of Health,NIH)要求把受其资助的出版物存入公共医学中心(PubMed Central),同时需要在项目申请书中加入数据管理计划(Basken2012;National Institutes of Health 2013;PubMed Central 2009;Zerhouni2006)。美国国家科学基金(National Science Foundation,NSF)对数据管理计划有要求,但对开放获取出版物没有要求。然而,随后美国联邦政府发布的开放获取出版物相关政策将同样适用于NSF、NIH和其他联邦机构。这些机构平均每年在研发上投资1亿多美元。该政策将指导每个机构制定出科学出版物和数字科学数据的开放获取计划(Holdren 2013b;Burwell et al. 2013)。
然而,开放获取期刊论文和开放数据在萨伯(2012a)的两条原则上均不相同。虽然作者至少最初是期刊论文的版权所有者,但该事实并不适用于数据。正如第9章深入探讨的那样,领域内和领域间的数据归属权都是很有争议的话题。该争议一旦解决,作品“作者”就会拥有某些特定权利和责任。大多数合作都未探讨过谁有资格成为数据“作者”这一问题(Wallis 2012)。即使将数据权限分配给个人和社区,数据相关权责依旧不清晰。许多数据形式都是由学者创造和控制的,但是数据所有权却是另一回事。某些数据形式不可能获得版权。研究人员使用的数据多来自于其他利益相关者或公共资源池。人类本身的机密记录等数据由学者控制,而无法进行发布。数据权利相关政策可能因机构、资助机构、合同、管辖权和其他因素而异。
萨伯的第二个原则指出,学者写期刊论文以及其他形式的出版物是为了提高影响力,而非收入。学者及其用人单位和资助者都有尽可能广泛传播出版物的动力。但是,以上两种情况均不适用于大多数数据。期刊论文经处理后传播给受众,但数据却很难从学术工作过程中提取出来。数据发布通常需要大量投入,而且这种投入量超过了研究和撰写出版物的行为成本。数据可以被视为职业生涯中积累的宝贵资产。因此,如果有数据的话,必须谨慎发布。
开放获取数据的治理模式刚刚兴起,本书将在第4章和第10章对此展开更全面的讨论。由第1章中斯托曼的格言可知,英国研究理事会政策中的“freely accessible”一词似乎更偏向于言论自由的意义,而非免费啤酒的意义。解决任何普遍性问题时,都需要考虑公平性、效率性和可持续性(Hess and Ostrom 2007a)。目前,只有部分领域通过使用知识库实现了数据的提炼、监护和访问,解决了公平和效率问题。某些领域中,私人交换就能满足数据需求,而其他领域则求助于研究型图书馆。在上述所有领域中,可持续性问题依旧尚未解决。一些知识库有长期资金支持,而其他的只有短期支持。有些为所有人免费提供数据,而其他的只向为其提供资金的财团成员提供数据。就像第8章讨论的那样,通过私下交易或研究团队网站发布方式进行的数据共享只在短期内有效。
因此,开放数据与开放获取学术文献截然不同。各领域至今尚未就数据“开放”的涵义达成一致。彼得·默里-拉斯特(Peter Murray-Rust)和亨利·热帕(Henry Rzepa)(2004)最早提出的开放数据框架涵括了后来的大多数观点。作为化学家,他们更关注自由访问以及结构化数据的挖掘能力。算法可以通过分子等实体的表示识别出实体结构,当实体用这种方式进行表示时,其就会成为可供挖掘、提取和操纵的数据,也就更有用。当相同分子仅用文本文件中的图像进行表示时,就需要人工识别其结构。在他们看来,开放数据是一种“数据文件”,其作用在于实现数据的机器可读和自由访问。
在开放知识基金会的支持下,默里-拉斯特等人提出了“开放数据”简洁的法律定义:“一段数据或内容开放是指,在只有或至多满足标准和(或)授权要求的条件下,所有人均可免费使用、重用和重新分配它(Open Data Commons 2013)。”商业环境中的“开放数据”定义更模糊:“开放数据—政务数据等机器可读信息以及他人可获得的数据(Manyika et al. 2013)。”《经济合作与发展组织关于公共资金资助的研究数据获取原则与指南》(Organisation for Economic Co-operation and Development 2007)在第13条原则中规定了开放数据的框架,第8章将对这部分进行说明。英国皇家学会的报告《科学:开放的事业》(Boulton et al. 2012,14)将“开放数据”定义为“满足知识开放标准的数据。数据必须具有可获取、可使用、可评估和可识别特征。”生物医学数据开放的含义还包括成本效益权衡、数据发布的触发定时机制、数据质量确保方式、包含的数据范围、保密性、隐私性、安全性、知识产权和管辖权(Boulton et al. 2011)。
开放性可能会加速数据创造。比如,开放获取文本会使文本中的实体成为数据。文本挖掘技术可以对描述特定分子、天体、人、地点、事件或其他实体的所有文章或书籍进行定位。从数据挖掘角度来看,出版物数据库、数据档案和数字书籍集合逐渐趋于相似(Bourne et al. 2011;Bourne 2005;Crane 2006; Murray-Rust et al. 2004)。但是,从知识产权的角度来看,它们却完全不同,具体将在第4章进行探讨。
开放数据还能够将研究对象的表示视为数据,而且与研究对象本身是否公开无关。研究对象的表示是出版物、数据集以及其他内容的公开标签或注释。注释和参考书目给描述对象赋予了价值,使其更容易被发现。共享注释出现于数字化图书馆研究早期。目前,已经产生了多种竞争性的共享注释方法。同时,也有很多学者致力于提升注释系统互操作性的标准化研究(Foster and Moreau 2006;Hunter 2009;Phelps and Wilensky 1997,2000)。ProCite、BiblioLink、RefWorks和EndNote等早期个人参考文献管理工具,都基于本地存储文件为单个作者提供服务。21世纪10年代初,研究人员开始对网站、图像、出版物和数据进行标记和注释,并分享到Delicious和Flickr等社交网络上。到21世纪10年代后期,个人参考文献和开放注释逐步融合。Zotero、Mendeley和LibraryThing等其他工具可以共享参考文献、标签和笔记。由于国家图书馆开始发布开放使用的编目记录(Open Bibliography and Open Bibliographic Data 2013),因此开放参考文献运动获得了巨大飞跃。随着更多参考文献记录逐步公开可用,参考文献记录成为待挖掘的数据之一。注释工具带来了数据类型的与日俱增(Agosti and Ferro2007;Das et al. 2009;Kurtz and Bollen 2010;Renear and Palmer 2009;Rodriguez,Bollen,and Van de Sompel 2007)。

3.4.3 开放技术

40余年来,网络技术逐渐从封闭向开放过渡,而开放学术正是其中一部分。互联网的起源和发展轨迹在整个过渡中最为传奇(Abbate 1999;Goldsmith and Wu2006;Kraut et al. 2002;Levien et al. 2005;MacLean 2004;O’Brien 2004;Odlyzko 2000;National Research Council 2001;Zittrain 2005)。人们普遍认为,计算机网络是政府出于研究和军事目的而资助开发的。从20世纪60年代末的第一次国际网络互联到90年代初的政策变化,互联网仅通过政府合同供研究、学术和军事团队使用。这种网络被称为国家研究和教育网络(National Research and Education Network,NREN)。计算机系统生命周期过程耗资较多,为了通过网络对其实现共享,研究人员对原有的互联网功能进行了扩展,具体包括电子邮件、文件传输以及其他类似功能。为进一步支持商业活动、提供参考文献数据库等新型信息服务,Telenet和Tymnet等并行式商业化分组交换网络开始给私营企业提供商业通信(Borgman,Moghdam,and Corbett 1984;Borgman 2000)。
在国家信息基础设施标准和全球信息基础设施标准影响下,1993~1994年进行的政策调整允许政府和商业机构进行网络互联。从此,商品互联网诞生,通信网络也完成了从国有或受保护系统到商业运营的转变。互联网宣称其为公共和私人实体提供的互联和服务都具有“开放”性。随着万维网的首次展示和第一个浏览器界面的诞生,网络逐渐趋于开放。此后20年中,互联网技术、功能和用户群体均已远远超乎最初设计师的最大想象。但是,新型商业模式、利益相关者之间平衡关系的变迁以及安全和隐私中无法预见的挑战,均正在推动基础设施的再设计(Borgman 2000;Estrin et al. 2010)。
在开放网络中实现数据迁移与使已获取数据可用完全不同。只有特定技术能读取数字数据和数字表示。数字数据集的解释需要以下内容:生成数据的硬件,即传感器网络或实验室机器;数据编码或分析软件,即图像处理工具或统计工具;以及整合以上内容所需的协议和专业知识。技术发展非常迅速,在研究领域中更是如此。许多仪器产生的数据只能用特定软件读取。使用或重用数据时,需要版本正确的软件以及可能的其他仪器。许多分析工具具有专有性,因此数据分析可能产生特定格式的数据集,而这些与数据提取时的开放程度无关。学者们经常自己构建工具,编写代码来解决临时问题。虽然这种做法短期内有效,但本地代码和仪器很难进行长期维护。更何况学者们在解决临时问题时,很少兼顾软件工程的工业标准。本地工具具有灵活性和可适应性,缺点是跨站点和跨情景的可移植性差(Easterbrook and Johns 2009;Edwards et al. 2013;Segal2005,2009)。
数据、标准和技术的开放程度会影响数据在工具、实验室和合作伙伴之间以及随时间的交换能力。标准可能改善社区内的信息流动,但也可能在社区之间形成信息交流障碍。因为标准可能不成熟或不适当,从而形成障碍,进而阻碍创新。长期以来,系统和服务的技术互操作性一直是数字图书馆和软件工程努力追求的目标。互操作性允许部分数据和利益相关者参与其中,而阻止其他对象进入。与技术本身相比,政策、实践、标准、商业模式和既得利益往往是决定互操作性的更重要的因素(Brown and Marsden 2013;Busch 2013;DeNardis 2011;Lampland and Star 2009;Libicki 1995;Palfrey and Gasser 2012)。

《大数据、小数据、无数据:网络世界的数据学术》一 3.4 开放学术相关推荐

  1. 《大数据、小数据、无数据:网络世界的数据学术》一 导读

    前 言| 在"大数据"风靡的当代,学术研究中的"小数据"依旧不容小觑.随着绝对数据量的增加,学者们进行个体研究的能力却不断退化.因为他们从未距离研究对象如此遥远 ...

  2. 《大数据、小数据、无数据:网络世界的数据学术》一 3.5 交流融合

    3.5 交流融合 商界.政界和学术界的正式和非正式交流活动正日益融合.企业在主街道和日报上的广告已无法满足其生存需求,他们还需在万维网.社交网络.博客.微博和视频频道上进行宣传.传统意义上,政府必须为 ...

  3. linux网络协议栈之数据包处理过程,Linux网络协议栈之数据包处理过程

    这篇文档是基于 x86 体系结构和转发 IP 分组的. 数据包在 Linux 内核链路层路径 接收分组 1 接收中断 如果网卡收到一个和自己 MAC 地址匹配或链路层广播的以太网帧,它就会产生一个中断 ...

  4. Python学习笔记——数据分析之数据可视化工具实战案例:世界高峰数据可视化

    世界高峰数据可视化 (World's Highest Mountains) 参考:https://www.kaggle.com/alex64/d/abcsds/highest-mountains/le ...

  5. 读书笔记 1.数据包分析技术与网络基础 Wireshark数据包分析实战 第3版

    1.数据包分析技术与网络基础 1.2.1 协议 发起连接 :是由客户端还是服务器发起连接?在真正通信之前必须要交换哪些信息? 协商连接参数 :通信需要进行协议加密吗?加密密钥如何在通信双方进行传输? ...

  6. 上市公司共同机构所有权数据-附顶刊《管理世界》数据应用示例

    1.数据来源:见数据说明文件 2.时间跨度:2003-2020 3.区域范围:所有上海.深圳证券交易所A股主板.中小企业板.科创板.创业板上市公司 4.指标说明: 具体计算方式详见分享文件夹文本文档 ...

  7. 《大数据、小数据、无数据:网络世界的数据学术》一 3.3 社会与技术

    3.3 社会与技术 社会与技术之间的密切关系是数据学术的重要组成部分.由于各关系具有反身性且相互作用,因此彼此之间很难进行分割.现有工具使数据创造成为可能,但工具发挥作用的前提是知道采集何种数据.与其 ...

  8. 如何打造智能世界的数据底座?深耕华为云大数据,畅享价值最大化

    随着信息的快速传递,掌控流量和数据成为企业进步的秘诀,想要获得更好的业务发展,当然需要及时掌握信息数据的核心.对于企业而言,如何才能够提升日常报表的处理效率,快速解决各种繁杂的数据呢?华为云大数据的出 ...

  9. 数据包分析技术与网络基础

    1,数据包分析与数据包嗅探器 数据包分析,通常也被称为数据包嗅探或协议分析,指的是捕获和解析网络上在线传输数据的过程. 数据包分析过程通常由数据包嗅探器来执行,而数据包嗅探器则是一种用来在网络媒介上捕 ...

最新文章

  1. 查询Oracle中字段名带.的数据
  2. java判断栈空_java中栈的应用-判断分隔符是否合理
  3. 【深度学习】人脸识别和口罩检测的应用
  4. NHibernate.Validator 实体验证框架
  5. Linux reboot指令
  6. linux Figlet 转换字符字
  7. amd服务器有什么优势,服务器市场才是AMD真正想要发挥作用的地方
  8. Html5中的徽章,CSS 常见样式 特殊用法 贯穿线徽章箭头
  9. 虚拟机上搭git服务器,搭建gitlab服务器
  10. 华为鸿蒙os内测,华为“鸿蒙OS”内测信息曝光:界面与EMUI有6个明显不同
  11. 使用SecureCRT在远程主机和本地之间传输文件
  12. 微信小程序-rpx尺寸介绍
  13. Objective-C浅拷贝和深拷贝
  14. error: failed to attach to process ID 0问题解决
  15. 关于炼丹,你是否知道这些细节?
  16. Android高级特性笔记
  17. NVIDIA NCCL 源码学习(四)- 建图过程
  18. DNS基础:域名解析、多重域名解析、特殊域名解析、主从同步设置
  19. 【蓝桥杯单片机国赛 第九届】
  20. extract($_POST, EXTR_SKIP)讲解

热门文章

  1. python画六边形
  2. 关于loader asyncTaskLoader AsyncTask的理解
  3. 解决嵌入式开发过程中开发板与虚拟机的网络通信问题
  4. Blueprint 使用手记
  5. maven 配置篇 之pom.xml
  6. ZK安装、ZK配置、ZK集群部署踩过的大坑
  7. Java语言基础22--访问权限
  8. 信足球vs.信上帝——从全球疯世界杯谈起
  9. Spring Data JPA中文文档[1.4.3] PDF
  10. PayPal 开发详解(六):下载paypal立即付款SDK 并编译打包