开放科研：数据科学场景下如何让研究更加开放？

以“自由、开放、合作、共享”为特征，通过科学资源的开放共享与开放获取，可以提高科学研究的透明度与传播力，实现更多科研合作、促进更多科学发现。

数据驱动的研究不仅需要更完善的学术交流体系，对于共享数据的需求也会更加强烈。数据的聚合应用需要研究者将从不同地方获取到的数据黏合在一起，形成新的数据集，为了避免重复劳动并实现研究项目结束后数据价值的最大程度挖掘，更加广泛的数据资源开放是未来发展的必然趋势。

云计算时代的数据科学协同工具

数据科学场景下的开放科研

近年来，开放科研的学术理念逐渐受到了国内外研究者的欢迎和推崇，2017 年就有一群学者在《自然》杂志上发表了倡导开放科学的“宣言”。开放科研通常包括了开放获取（Open Access, OA）、开放数据（Open Data, OD）、开源运动（Open Source Movement, OSM）等方面。随着信息技术的发展，开放科研更是受到了前所未有的重视，这主要源于数据科学场景下研究的数据驱动的特性。

一方面，开放科研的发展促进了科研成果的共享，尤其是开放数据，有利于发挥科学数据的最大价值。单个的科研项目终会在一个时间点结束，而项目结束后这些数据的去向是研究者一直关注的问题，科研数据包括的信息类和数据项丰富，贯穿于科研的整个周期，通过数据共享基础设施开放和传播将解决当前科研数据的剩余价值流失问题。

另一方面，开放科研可以让更多的人共同参与科学研究工作，为数据驱动的研究提供社会效益的支持。针对类似于大流行病这类相对复杂的问题，开放的科研网络可以为研究提供大规模更结构化的开放数据，减少数据重复生产的同时支持研究高效推进；另外，将模型公开给更多的人使用并收集相关评述，相当于是在完成大规模的“同行评议”，有利于模型成果持续优化，提高研究者的科研产出质量。

然而目前仍存在着许多壁垒阻碍了开放科研的实现。

就数据来说，首先，科研数据的数据源载体多、存储形式多样、数据类型广泛，给科研人员的数据分析、共享及管理过程造成了比较大的麻烦。在数据驱动的研究背景下，海量数据通过多种途径和方式获取，并存储在硬盘、数据库或其他存储介质中，则研究者每次进行数据分析时都要采用不同的方式调取数据分别管理。与此同时，数据共享的方式也比较局限，若是使用网盘共享，数据上传、下载耗时耗力；移动硬盘共享倘若后续发生数据修改也很难再同步给相关共享人；云计算虽然可以调用公开数据，但有些无法提供本地上传数据集的接口，也并不方便。

其次，传统的有限防护机制不一定能保障数据权益和数据安全，数据共享者将面临风险责任与权利受益的矛盾。一方面，科学数据本身具有可复制性，在共享中易被窃取，造成数据贡献者自身产权受到侵犯；另一方面，数据的集中化共享很有可能导致数据使用边界模糊，增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差，即使数据泄露，参与用户也很难追究。

以上这些问题使得对于那些有数据资源的科研机构来说，即使想要将数据公开给非内部人员使用，所能实现的方法也非常局限——要么只能允许内部熟识且有一定信誉度的科研人员拷贝数据，要么就是外部科研人员自行撰写繁复的申请报告，再实地去到机构的机房中完成数据分析。因此，如何在开放的同时管控公众对生产资料获取、使用和保存的权利，可能是科研人员面临的一大难点。

欢迎了解数据科学协同平台 ModelWhale ，进入官网试用选择个人专业版或团队版，免费体验在线分析建模、离线训练、版本管理、协同研究等多种高阶功能。

您可也扫码官网右侧二维码，联系产品顾问 MoMo（移动端点此链接），了解更多数据驱动的研究解决方案，MoMo 有问必答~

解决方案

ModelWhale 为科学研究生产资料及多形态科研成果提供了安全、完善的共享交互和公开机制。

当科研机构基于云端环境搭建起科研数据沙箱后，即可实现数据云端安全公开和调用管理。机构的数据管理员可以通过平台多种方式接入存放在本地、数据库、对象存储以及 NAS 空间的各类数据并进行统一管理，添加数据描述和标签，通过权限系统控制其公开的范围。

管理者可有选择性地将可开放的数据公开至机构的门户页，实现更大范围的数据共享和传播；尚不合适公开的也可以只给到内部的研究人员，支持其在线分析。另外，管理者可以将各个成员的数据需求与其所参与的研究课题、研究进度相结合，进行数据定向分发，保证数据使用权限在机构内部也能保持个体独立。

数据管理员还可以自定义每个数据集访问用户的查看、使用或下载权限，实现数据公开且不落地，并通过平台自动生成“数据账本”，查看数据实时、完整的使用记录，从多个环节有效避免了数据的安全隐患。

另外，ModelWhale 支持为每份数据生成一套 DOI 标识，在认证数据权益的同时，他人也可以通过 DOI 号快速分享或查找到相关数据集，更进一步提升了数据价值利用的科学性和可持续性。

华东师范大学就曾采用这项机制来建设他们的研究数据中台，打造了一个集数据沙箱、数据出版和数据公有链于一体的数据闭环系统。数据沙箱实现的是数据隔离和数据不落地分析，保护数据隐私和数据版权的同时，让研究者可以线上分析数据，最大化地提升了数据的利用率；数据出版实现的是为数据集和数据富媒体绑定 DOI 链接，可以快速跳转并精确定位到相关数据集，在完成数字对象标识的同时可以对数据定位、引证、溯源、故障追踪，以及数据互操作等诸多功能；数据公有链实现的是以区块链的形式记录数据集的使用记录，通过去中心化提升数据集历史使用记录的信用度，研究数据中台还会将日志记录通过区块链算法的加密，然后广播到区块链每一个服务节点。

华东师范大学门户页展示

除了数据之外，ModelWhale 还支持更多类型的成果开放发布，比如研究项目、模型成果等。

科研人员可将优质的数据集和已完成的研究项目一同公开分享或沉淀至机构的门户页，便于他人复现，实现更大范围的共享传播。既能吸引更多研究者在平台上进行相关课题的协同探索，也能在公开的过程中收集公众的反馈，对数据和项目进行检验和完善，形成更多高价值科研成果。

算法模型作为数据驱动的研究中较为独特的要素，ModelWhale 为模型开放也提供了专门设计。对于训练完成的模型，科研人员可以方便地自行完成自动化部署并公开发布，他人则可以通过公开的外部链接直接应用模型，一方面提升了模型的实用性，另一方面，社会面的大规模应用也是检验模型的实际效能的一个过程。研究者可以根据平台记录下的模型被调用的次数、历史、及使用过程等信息，来制定下一步研究计划和优化方向。

开放科研使研究的形态从独立走向聚合，让每一位科研人员既是生产者又是使用者，既是开拓者又是受益者。ModelWhale 持续关注各个科研主体在公开共享过程中的顾虑和诉求，打破基础设施的壁垒，充分释放数据驱动的研究价值。

结束语

随着大规模科学数据的增长，数据驱动的科研协作将成为未来科学发展的必要条件。数字化给每个行业都带来了很大的变化，但科学领域是一定存在其独特性的，在面向未来的科研精神和科研意义之下，数字技术应当为科研工作者的探索持续赋能。

作为数据科学协同平台，ModelWhale 希望能给每一位从事数据驱动的创新研究的开拓者提供支持。ModelWhale 提供了即开即用的云端分析环境，将科研数据管理、建模分析、模型服务、任务及权限管理等功能深度整合，可以使数据驱动的研究更加便捷高效。

过去5年来，清华大学、南开大学、华东师范大学等高等学府，国家气象信息中心、国家人口健康科学数据中心、紫金山实验室等先进科研组织都与 ModelWhale 进行深入合作。未来，ModelWhale 希望与更多高校和机构联手，活用双方所积累的海量数据资源，一同开拓新的研究与应用。ModelWhale 将持续升级产品功能，完善全方位服务体系，欢迎更多组织共同交流沟通。

了解更多科研协同解决方案：

可复现、开放科研、跨学科合作：数据驱动下的科研趋势及应用方案

ModlWhale 同时支持 SaaS 云端使用及本地私有化部署，可满足不同组织需求。

进入ModelWhale.com，申请免费试用（专业版/团队版）。获赠 CPU 和 GPU 算力！

如果你对 ModelWhale 有任何建议或疑问，欢迎扫描官网右侧二维码，【联系MW】（移动端可点此链接），MoMo 有问必答 ~

更多 ModelWhale 资料见：

ModelWhale 产品介绍
ModelWhale 如何助力组织内部协同
ModelWhale 应用案例