以“自由、开放、合作、共享”为特征,通过科学资源的开放共享与开放获取,可以提高科学研究的透明度与传播力,实现更多科研合作、促进更多科学发现。

数据驱动的研究不仅需要更完善的学术交流体系,对于共享数据的需求也会更加强烈。数据的聚合应用需要研究者将从不同地方获取到的数据黏合在一起,形成新的数据集,为了避免重复劳动并实现研究项目结束后数据价值的最大程度挖掘,更加广泛的数据资源开放是未来发展的必然趋势。

云计算时代的数据科学协同工具

数据科学场景下的开放科研

近年来,开放科研的学术理念逐渐受到了国内外研究者的欢迎和推崇,2017 年就有一群学者在《自然》杂志上发表了倡导开放科学的“宣言”。开放科研通常包括了开放获取(Open Access, OA)、开放数据(Open Data, OD)、开源运动(Open Source Movement, OSM)等方面。随着信息技术的发展,开放科研更是受到了前所未有的重视,这主要源于数据科学场景下研究的数据驱动的特性。

一方面,开放科研的发展促进了科研成果的共享,尤其是开放数据,有利于发挥科学数据的最大价值。单个的科研项目终会在一个时间点结束,而项目结束后这些数据的去向是研究者一直关注的问题,科研数据包括的信息类和数据项丰富,贯穿于科研的整个周期,通过数据共享基础设施开放和传播将解决当前科研数据的剩余价值流失问题。

另一方面,开放科研可以让更多的人共同参与科学研究工作,为数据驱动的研究提供社会效益的支持。针对类似于大流行病这类相对复杂的问题,开放的科研网络可以为研究提供大规模更结构化的开放数据,减少数据重复生产的同时支持研究高效推进;另外,将模型公开给更多的人使用并收集相关评述,相当于是在完成大规模的“同行评议”,有利于模型成果持续优化,提高研究者的科研产出质量。

然而目前仍存在着许多壁垒阻碍了开放科研的实现。

就数据来说,首先,科研数据的数据源载体多、存储形式多样、数据类型广泛,给科研人员的数据分析、共享及管理过程造成了比较大的麻烦。在数据驱动的研究背景下,海量数据通过多种途径和方式获取,并存储在硬盘、数据库或其他存储介质中,则研究者每次进行数据分析时都要采用不同的方式调取数据分别管理。与此同时,数据共享的方式也比较局限,若是使用网盘共享,数据上传、下载耗时耗力;移动硬盘共享倘若后续发生数据修改也很难再同步给相关共享人;云计算虽然可以调用公开数据,但有些无法提供本地上传数据集的接口,也并不方便。

其次,传统的有限防护机制不一定能保障数据权益和数据安全,数据共享者将面临风险责任与权利受益的矛盾。一方面,科学数据本身具有可复制性,在共享中易被窃取,造成数据贡献者自身产权受到侵犯;另一方面,数据的集中化共享很有可能导致数据使用边界模糊,增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差,即使数据泄露,参与用户也很难追究。

以上这些问题使得对于那些有数据资源的科研机构来说,即使想要将数据公开给非内部人员使用,所能实现的方法也非常局限——要么只能允许内部熟识且有一定信誉度的科研人员拷贝数据,要么就是外部科研人员自行撰写繁复的申请报告,再实地去到机构的机房中完成数据分析。因此,如何在开放的同时管控公众对生产资料获取、使用和保存的权利,可能是科研人员面临的一大难点。

欢迎了解数据科学协同平台 ModelWhale ,进入官网 试用选择个人专业版或团队版,免费体验在线分析建模、离线训练、版本管理、协同研究等多种高阶功能。

您可也扫码官网右侧二维码,联系产品顾问 MoMo(移动端点此链接),了解更多数据驱动的研究解决方案,MoMo 有问必答~

解决方案

ModelWhale 为科学研究生产资料及多形态科研成果提供了安全、完善的共享交互和公开机制。

当科研机构基于云端环境搭建起科研数据沙箱后,即可实现数据云端安全公开和调用管理。机构的数据管理员可以通过平台多种方式接入存放在本地、数据库、对象存储以及 NAS 空间的各类数据并进行统一管理,添加数据描述和标签,通过权限系统控制其公开的范围。

管理者可有选择性地将可开放的数据公开至机构的门户页,实现更大范围的数据共享和传播;尚不合适公开的也可以只给到内部的研究人员,支持其在线分析。另外,管理者可以将各个成员的数据需求与其所参与的研究课题、研究进度相结合,进行数据定向分发,保证数据使用权限在机构内部也能保持个体独立。

数据管理员还可以自定义每个数据集访问用户的查看、使用或下载权限,实现数据公开且不落地,并通过平台自动生成“数据账本”,查看数据实时、完整的使用记录, 从多个环节有效避免了数据的安全隐患。

另外,ModelWhale 支持为每份数据生成一套 DOI 标识,在认证数据权益的同时,他人也可以通过 DOI 号快速分享或查找到相关数据集,更进一步提升了数据价值利用的科学性和可持续性。

华东师范大学就曾采用这项机制来建设他们的研究数据中台,打造了一个集数据沙箱、数据出版和数据公有链于一体的数据闭环系统。数据沙箱实现的是数据隔离和数据不落地分析,保护数据隐私和数据版权的同时,让研究者可以线上分析数据,最大化地提升了数据的利用率;数据出版实现的是为数据集和数据富媒体绑定 DOI 链接,可以快速跳转并精确定位到相关数据集,在完成数字对象标识的同时可以对数据定位、引证、溯源、故障追踪,以及数据互操作等诸多功能;数据公有链实现的是以区块链的形式记录数据集的使用记录,通过去中心化提升数据集历史使用记录的信用度,研究数据中台还会将日志记录通过区块链算法的加密,然后广播到区块链每一个服务节点。

华东师范大学门户页展示

除了数据之外,ModelWhale 还支持更多类型的成果开放发布,比如研究项目、模型成果等。

科研人员可将优质的数据集和已完成的研究项目一同公开分享或沉淀至机构的门户页,便于他人复现,实现更大范围的共享传播。既能吸引更多研究者在平台上进行相关课题的协同探索,也能在公开的过程中收集公众的反馈,对数据和项目进行检验和完善,形成更多高价值科研成果。

算法模型作为数据驱动的研究中较为独特的要素,ModelWhale 为模型开放也提供了专门设计。对于训练完成的模型,科研人员可以方便地自行完成自动化部署并公开发布,他人则可以通过公开的外部链接直接应用模型,一方面提升了模型的实用性,另一方面,社会面的大规模应用也是检验模型的实际效能的一个过程。研究者可以根据平台记录下的模型被调用的次数、历史、及使用过程等信息,来制定下一步研究计划和优化方向。

开放科研使研究的形态从独立走向聚合,让每一位科研人员既是生产者又是使用者,既是开拓者又是受益者。ModelWhale 持续关注各个科研主体在公开共享过程中的顾虑和诉求,打破基础设施的壁垒,充分释放数据驱动的研究价值。

结束语

随着大规模科学数据的增长,数据驱动的科研协作将成为未来科学发展的必要条件。数字化给每个行业都带来了很大的变化,但科学领域是一定存在其独特性的,在面向未来的科研精神和科研意义之下,数字技术应当为科研工作者的探索持续赋能。

作为数据科学协同平台,ModelWhale 希望能给每一位从事数据驱动的创新研究的开拓者提供支持。ModelWhale 提供了即开即用的云端分析环境,将科研数据管理、建模分析、模型服务、任务及权限管理等功能深度整合,可以使数据驱动的研究更加便捷高效。

过去5年来,清华大学、南开大学、华东师范大学等高等学府,国家气象信息中心、国家人口健康科学数据中心、紫金山实验室等先进科研组织都与 ModelWhale 进行深入合作。未来,ModelWhale 希望与更多高校和机构联手,活用双方所积累的海量数据资源,一同开拓新的研究与应用。ModelWhale 将持续升级产品功能,完善全方位服务体系,欢迎更多组织共同交流沟通。


了解更多科研协同解决方案:

可复现、开放科研、跨学科合作:数据驱动下的科研趋势及应用方案

ModlWhale 同时支持 SaaS 云端使用及本地私有化部署,可满足不同组织需求。

进入ModelWhale.com,申请免费试用(专业版/团队版)。获赠 CPU 和 GPU 算力!

如果你对 ModelWhale 有任何建议或疑问,欢迎扫描官网右侧二维码,【联系MW】(移动端可点此链接),MoMo 有问必答 ~

​​​更多 ModelWhale 资料见:

  • ModelWhale 产品介绍
  • ModelWhale 如何助力组织内部协同
  • ModelWhale 应用案例

开放科研:数据科学场景下如何让研究更加开放?相关推荐

  1. Jupyter Notebook 交互式编程 低代码拖拽式编程 | 数据科学生态下的理想平台

    近几年,Jupyter Notebook 为数据科学家们提供了与数据有效交互的工具.用户可以运行代码.查看结果,然后重复数据之间的循环和迭代.使用 Jupyter Notebook 进行研究成为了数据 ...

  2. vue渲染大量数据如何优化_大数据量场景下的Vue性能优化

    性能优化最常见的落脚点是在网络和dom上,但是在大数据量的场景下,由于Vue本身的特性,可能会造成js运行层面的性能问题,这篇文章讨论的就是针对这一部分的性能优化方案. 模拟一个大数据量的场景 // ...

  3. 先定产权还是先定价格,数据交易场景下的市场设计问题,合作博弈中“沙普利值”

    目录 先定产权还是先定价格 数据交易场景下的市场设计问题 价格是什么呢?

  4. 【数据匮乏场景下采用生成对抗网络的 光伏出力场景预测方法】

    背景介绍 生成对抗网络(GANs)是由两个网络组成的深度神经网络体系结构,它将一个网络与另一个网络相互对立(因此称为"对抗性"). 2014年,Ian Goodfellow和包括Y ...

  5. TID-MOP:面向数据交易所场景下的安全管控综合框架

    摘要 [目的] 为促进数据交易所安全合规发展,本文针对数据交易所场景下的数据交易风险.数据安全风险与基础安全风险,提出兼顾技术路径与机制保障的数据交易安全管控综合框架.[方法] 运用文献调研法,梳理近 ...

  6. 【期刊征稿】1/2区计算机类,影响因子即将突破5分,SCIEI双检,数据科学和电力系统的进展研究,听说有SCI才能毕业?

    1/2区计算机类 [期刊分区]IF:4.5-5.0,JCR1/2区,中科院3区 [检索情况]SCI&EI 双检,正刊 [征稿领域]数据科学在电力系统中的进展研究 包括用于电力系统稳定性分析.控 ...

  7. 姚振宇:在数据科学培养下,我成为了那个不安分的“细菌” | 优秀毕业生专访...

    [ 导读 ] 清华-青岛数据科学研究院(以下简称"数据院")自2014年4月成立以来,秉承"学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟"24字指 ...

  8. 告别AI模型黑盒子:可解释性将是数据科学的下一个“超能力”

    过去几年来,人工智能研究人员在图像识别.自然语言理解和棋类等领域取得了重大突破.但由于缺乏对复杂机器学习模型的真正理解,导致模型在传播时出现了偏见,这种偏见在零售.面部识别和语言理解等领域的应用中出现 ...

  9. 国家精品在线开放课程 | 数据科学与大数据技术专业领域

    转自  数据科学DataScience 重庆芝诺大数据分析有限公司成立于2013年8月,国家级高新技术企业,是中国地区大数据应用实践的先行者和领军者.凭借自有大数据管理平台和工具为政府.企业提供数据采 ...

最新文章

  1. 建设微服务API网关的一些实践
  2. 计算机三维作品说明,计算机三维技术
  3. 转载:如何避免代码中的if嵌套
  4. vue 数据劫持详解
  5. win2003配置apache2.2下,php页面出现乱码的解决方法
  6. 在需要时开启Perl新特性
  7. 2017.9.23 新Nim游戏 失败总结
  8. java窗口添加标签页_在新标签页中打开新窗口
  9. 28. (附加)字符串的组合(C++版本)
  10. java踩坑记-getResourceAsStream
  11. (鬼刀)记一次异步加载Python爬虫分析
  12. 华硕怎么安装linux系统教程,有关华硕电脑无法安装Ubuntu系统的解决方案
  13. throw 关键字,throw 必须写在方法体中,并且 throw new xxxException的话,如果是运行时的异常可以不用管,如果是编译的异常需要进行处理
  14. 远光天擎 | 研发运维一体化智能云平台
  15. 基于树莓派的遥控小车
  16. 东原地产首获“蓝筹地产” 千亿货值业绩增速成亮点
  17. 【三维重建学习之路01】点云ply文件的读写、修改
  18. MySQL的安装教程(嗷嗷详细,包教包会~)
  19. ASP.NET Core中的主机IHostBuilder
  20. 气象数据grib/grib2的处理方法汇总

热门文章

  1. 盘点现在福利多、干货多的前端公众号
  2. 乐趣国学—品读《弟子规》中的“余力学文”之道
  3. 晶振(有源晶振、无源晶振)构造,工作原理。
  4. 第一次通过服务器远程跑代码
  5. 用户角色及权限管理设计实例(基于RBAC模型)
  6. gunicorn + Flask架构中使用多进程全局锁
  7. html设置%3ca%3e的图标,HTML中content表示的特殊字符和图标
  8. 树莓派驱动1.44寸TFT液晶并实时显示摄像头图像
  9. 千万数据去重_基于 Flink 的百亿数据去重实践
  10. kankan转载:anddroid卡牌效果实现