我与 Galaxy Project 的渊源可以追溯到我刚毕业,还在华大实习的那一段时间,这个项目应该是我职业生涯中最重要的一段经历。虽然这么对年以来一直都关注着这个项目,但大多数都是浅尝辄止,对源码层面的理解也缺乏深度。但我依然想给大家介绍一下这个优秀的项目。

背景与简介

Galaxy Project 是由 NSF, NHGRI, The Huck Institutes of the Life Sciences, The Institute for CyberScience at Penn State, and Johns Hopkins University 提供支持,其团队是宾夕法尼亚州比较基因组学和生物信息学中心、约翰·霍普金斯大学生物系以及俄勒冈州健康与科学大学的计算生物学计划的一部分,而 Galaxy 正是由这个团队开发的,并得到了社区的贡献。

关于这个项目的一些背景介绍,可以参考 NIH Grant 2U41HG006620,我这里做了一个简单翻译。

总体而言,高通量数据产生技术,尤其是 "next generation" DNA测序技术,已为生物医学研究带来了数十年来最具颠覆性的变化。要理解由高通量技术产生的大型数据集,就需要复杂的统计和计算方法以及强大的计算能力。这导致了生物医学研究的严重危机,因为未经信息学训练的研究人员试图进行过于依赖于计算的分析。自 2005 年以来,Galaxy 项目一直致力于通过提供一个使非专家可以使用高级计算工具的框架来解决这个问题。Galaxy 试图通过提供基于 Web 的环境,使用户可以执行计算分析并自动跟踪所有详细信息,以供以后检查,发布或重复使用,从而使数据密集型研究更易于访问,透明和可重复。在拟议的项目中,我们将以几种特定方式改进 Galaxy。我们将大大提高 Galaxy 在处理大量数据集方面的可用性。现代实验通常涉及以复杂方式组织的数百个数据集。我们将使分析此类数据变得简单而直观。我们将改善软件工具的开发和分发,使开发人员更容易分发工具并让用户更容易地获取工具,同时又能保留来源。我们将大大改善对各种计算资源(如云计算和高性能群集)的访问,使生物医学研究人员能够使用传统上难以使用的资源。最后,我们将参与培训,外展和传播,包括开发可扩展的培训材料,其他人可用来进行生物医学数据分析培训。

Galaxy Project 的第一个初始版本发布于 15 年前,也就是2005年9月16日。Galaxy 有多种可用方式,尽管大多数 Galaxy 安装都是私有的,但许多团体都以多种不同形式支持 Galaxy 实例,包括可公开访问的服务器,可以轻松地在研究和商业云,容器和虚拟机上启动的 Galaxy 实例。下面是 Galaxy 官方对 2019 年前仅可公开访问的服务器进行了统计的一些信息。


Galaxy Platform

Galaxy Project 在官网 Galaxy Platform Directory: Servers, Clouds, and Deployable Resources 中对我们可以轻松使用或部署自己的 Galaxy Server 平台进行了一个资源汇总。这些资源涵盖了生命科学的各个领域。有关于基因组学(很多),宏基因组学,转录组学,蛋白质组学,药物发现以及甚至某些外部生物学(如自然语言处理(其中的一些))和社会科学的资源。

在 Galaxy 提供的众多服务中,UseGalaxy servers 是一个非常重要且常用的服务。

usegalaxy servers

UseGalaxy 服务器实现了一套通用的工具和参考基因组核心,并且开放给任何人使用。它们还包含每个服务器本地的工具和基因组。每一个都有大量的计算资源作为后盾,它们是开始使用 Galaxy 以及共享和发布结果的绝佳场所。

galaxy main server

Galaxy 的主站点位于 https://usegalaxy.org,自 2007 年以来,该网站已开放,任何人都可以免费分析其数据。该站点提供了大量的 CPU 和磁盘空间,从而可以分析大型数据集。该站点每月支持成千上万的用户和成千上万的工作。该 Galaxy 实例是在国家科学基金会(National Science Foundation)的支持下,利用了得克萨斯州高级计算中心(Texas Advanced Computing Center (TACC) )的 CyVerse 项目慷慨提供的基础架构。


帮助与支持

前期的 Galaxy Project 主要通过邮件聚合的方式进行沟通交流,现在除了推特、Github,Galaxy Project 还搭建专属的帮助论坛 Galaxy Help Forum,同时把基于免费开源即时通讯聊天软件 gitter 进行了整合(Galaxy Help Forum 的帖子会同步到 gitter galaxyproject/Lobby),这一切对于 Galaxy 开发、管理,以及问题反馈等非常有帮助。

Gitter Galaxy Project
  • Query all Galaxy resources with the search function in the top masthead(https://galaxyproject.org/)

  • Galaxy Help

  • Chat

  • Mailing Lists

  • Video Help

  • Galaxy Biostars: retired Q&A archive

学习与贡献

Galaxy Project 是一个跨越全方位的生物医学开源项目,除了 galaxy 本身,还有 training-material,tools-iuc,planemo 等一些优秀的开源项目,这些项目都是基于 Github 平台进行开源的,所有人都可以参与并提交 PR。

Galaxy i18n 国际化

除此以外想要说的是,对于 galaxy 平台项目,它覆盖了从前端到后台,从服务器到集群容器各个方面的知识,平台项目以每年 2 个版本的速度进行更新迭代,每次更新都会或多或少对时下最热最流行的工具进行尝试,如 vue、TypeScript、docker、k8s 等都已经在 galaxy 中进行了集成。

丰富的文档,优秀的社区,与时俱进的技术,使得这一开源项目越来越受欢迎。Bio & IT 本身就是一个跨学科的复杂领域,而 Galaxy Project 作为这一领域中的集大成者,从学习本身而言,它是值得去学习的。

Galaxy Release_20.09 发布,新增多个数据上传组件

2020-11-18

Galaxy Release 20.05 发布,新增多项可视化体验

2020-07-09

Galaxy 生信平台(四):邮件与管理员配置

2020-02-22

Galaxy 生信平台(三):xlsx 上传与识别

2020-01-04

Galaxy 生信平台(二):生产环境部署

2019-11-09

Galaxy 生信平台(一):安装

2019-10-27

本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

Galaxy Project | 生信人最值得学习的开源项目之一相关推荐

  1. go语言值得学习的开源项目推荐

    谷歌官方维护了一个基于go语言的开源项目列表: https://github.com/golang/go/wiki/Projects 其中有非常多的优秀项目值得学习,有几百行代码适合新手阅读的项目,也 ...

  2. J2EE学习中一些值得研究的开源项目(转载天极网)

    J2EE学习中一些值得研究的开源项目 这篇文章写在我研究J2SE.J2EE近三年后.前3年我研究了J2SE的Swing.Applet.Net.RMI.Collections.IO.JNI--研究了J2 ...

  3. J2EE学习中一些值得研究的开源项目

    这篇文章写在我研究J2SE.J2EE近三年后.前3年我研究了J2SE的Swing.Applet.Net.RMI.Collections. IO.JNI--研究了J2EE的JDBC.Sevlet.JSP ...

  4. 生信宝典:生物信息学习系列教程、视频、资源

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  5. desktop docker 无法卸载_docker,生信人的福音!

    docker的原理是什么?我也不知道呀!!! 我只是知道这个东西比虚拟机,conda什么的都要好用. 为什么? 因为它解决了一个对我们这些生信小白和编程小白来说最致命的问题,那就是软件安装的问题(软件 ...

  6. 引用另一模板的宏_生信人值得拥有的编程模板Shell

    前言 "工欲善其事必先利其器",生信工程师每天写代码.搭流程,而且要使用至少三门编程语言,没有个好集成开发环境(IDE,Integrated Development Environ ...

  7. 生信宝典,生物信息学习资源

    内容列表: R语言学习 - 热图简化 R语言学习 - 热图美化 R语言学习 - 基础概念和矩阵操作 R语言学习 - 热图绘制 (heatmap) R语言学习 - 入门环境Rstudio R语言学习 - ...

  8. 生信c语言,生信人的R使用

    接下来介绍R语言: [生信技能树]生信人应该这样学R语言 R语言 在你开始R之旅前,建议你看看下面这两个 1. 介绍R语言及Rstudio 了解R,Rstudio及R包;安装的包在packages中检 ...

  9. 生信人值得拥有的编程模板-Shell

    前言 "工欲善其事必先利其器",生信工程师每天写代码.搭流程,而且要使用至少三门编程语言,没有个好集成开发环境(IDE,Integrated Development Environ ...

最新文章

  1. sqlite 0转换为bit_DA转换实例
  2. HashCode和equal方法
  3. [导入]一再的变故,终于决定何去何从.
  4. Onvif2.6.1命名空间前缀对照
  5. matlab 正则化表达式_MATLAB 正则表达式(一)(转)
  6. php preg_match_all匹配正则,字符串过长时出错
  7. 苹果Mac专业级照片编辑器:RAW Power
  8. 【R爬虫-1】BBC Learning English
  9. 数字藏品APP源码,无加密
  10. SEO 和 SEM 和区别
  11. java学习之springcloud之服务注册与发现篇
  12. 给大家分享一下我的数字化转型研究资料
  13. 1156 Sexy Primes (20 分)(质数 模拟
  14. 哈工大c语言作业,哈工大c语言-练习题
  15. android hook 第三方app_【MiSRC】技术分享-浅谈android hook技术
  16. 推荐一款美观的开源社区系统
  17. 用Rax开发一个联想搜索输入框,内附封装后的npm组件
  18. 支付宝支付异步回调的一些问题
  19. 字符串分割【Java】
  20. 专门替中国人写的英语语法

热门文章

  1. 计算机毕业设计Java房屋出租(源码+系统+mysql数据库+lw文档)
  2. 2016四川省省赛总结
  3. 利用PCL库构建Mesh三维模型
  4. mysql 浮动ip查找方法_浮动ip - CanntBelieve - 博客园
  5. 电子科技大学计算机科学与技术学硕,2021年电子科技大学计算机科学与技术(081200)考研专业目录_硕士研究生考试范围 - 学途吧...
  6. 如何对低代码/无代码平台进行分类?
  7. 一行代码更改网页内容
  8. SQL的CTE递归查询
  9. 刷题日记:Python蓝桥杯--特殊的回文数
  10. 做新时代好老师征文计算机老师,如何做一名新时代的好老师