一)(一)了解生物信息学

生物信息学(Bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。生物信息学典型工作流程

这个过程是由一系列链接的步骤组成,这些步骤将原始输入(测序原始数据RAW)转换为有意义或可解释的输出,例如,高通量测序NGS数据而生成的fastq文件。然后用于基因组序列分析的特定功能方面的特定工具执行。根据执行的分析类型,工作流可以具有可变数量的步骤,因此可以是简单的或复杂的。
生物信息学主要研究方向:DNA/RNA/蛋白质测序,序列比对,基因发现,基因组组装,药物设计,药物发现,蛋白质结构比对和预测,通过使用计算密集型技术(用于模式识别,数据挖掘,机器学习算法和可视化)来加深对生物过程的理解。因此需要配备先进的计算设备和丰富专业的分析软件
(二)生物信息学分析的计算特点
如何选购一个理想的图形工作站硬件配置,可能很多人思考过:
什么是用于生物信息学和计算生物学研究的最佳PC/工作站?
用于生物信息学分析的服务器配置
全基因组序列分析实验室的硬件配置
高通量序列分析服务器有什么要求
下一代测序数据分析硬件配置推荐
用于分析NGS宏基因组学数据的计算机配置?
2.1 生物信息分析的计算特点
生物信息数据分析涉及到基因组学、转录组学、蛋白质组学、宏基因组学、代谢物组学等,下图是全基因组数据分析流程

生物信息学数据分析所涉及的计算主要是De novo的序列组装计算(Assembly)、重测序过程中的序列/映射比对计算(Mapping)
序列组装计算分析:
如果要进行从头组装(例如Velvet),假设一个人的全基因组测序数据,采用二代测序的方法,人的基因组3G,10倍数据30G,那么这30G的碱基,在切成更小的kmer,假设数据增加到了100G,还不算存储序列的一些其他信息,序列拼接的时候必须一次将所有数据同时存入内存,如果内存达不到100G,拼接根本无法完成。
因此,对于大型基因组装而言,需要的硬件资源特别多,不紧cpu要有足够的计算能力,内存在150G以上,但是如细菌基因组,数据集和基因组数据量不太大,内存128GB足够了
序列比对计算分析:
对于使用BWA/Bowtie等程序进行映射读取,对内存RAM要求不高(例如32GB即可),但CPU内核数量(及其频率)将决定计算过程需要多长时间。如果要进行大量对齐和比对(例如使用BWA),那么拥有大量CPU核心比拥有大量内存更为重要。
当然配置规格取决于您的预算和计划进行的分析类型。
RNASeq中计算量较大的就是比对步骤了,而比对往往只需要一次就可以! 一般32核CPU+64GB RAM硬件配置,可以满足对基因组/转录组/虹基因组分析的标准映射(maping)以及下游分析。
为了使NGS(下一代测序)分析的工作负荷最大化,硬件配置三个关键瓶颈:可用的CPU核数、内存容量以及I/O带宽
2.2 生信分析对硬件配置要求
如何处理454和Illumina数据? 全基因组装配/组装?序列拼接?映射读取到参考基因组?
(1)需要多少存储空间才能保持数据实时读取(硬盘容量)?
开发下一代测序(高通量测序)的临床应用的瓶颈是存储和分析所生成的大量数据。应用程序多种多样,但共同的主题在计算和分析上具有挑战性。
(2)要分析的每个文件有多大(RAM容量,硬盘读写速度)?
(3)要使用的软件准备好使用多处理器运行时间是否有要求(CPU核数)?
配置参考:
(1)基于基因组计划的大小

(2)基于课题组研究人员数量

(三)生物信息学分析的硬件配置推荐

上述所有配置,代表最新硬件架构,可提供测试,欢迎交流。

生物信息学软件_基因测序、生物信息分析平台工作站硬件配置探讨2020相关推荐

  1. 基因测序、生物信息分析平台工作站硬件配置推荐2020

    (一)了解生物信息学 生物信息学(Bioinformatics)利用应用数学.信息学.统计学和计算机科学的方法研究生物学的问题.生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机, ...

  2. 生物信息学软件_基因测序,生物信息学分析计算特点及工作站配置探讨202007

    (一)了解生物信息学 生物信息学(Bioinformatics)利用应用数学.信息学.统计学和计算机科学的方法研究生物学的问题.生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机, ...

  3. UltraLAB基因测序、生物信息分析平台高性能工作站/集群最新硬件配置方案

    新冠疫情席卷全球,对于人类而言是前所未有的挑战,迅速找到未知病毒的发源地及特效治疗方案,需要海量检测.基因测序.生物信息分析等研究,对计算机计算能力要求至关重要. 西安坤隆计算机科技有限公司自2020 ...

  4. 做生信分析平台需要什么配置的服务器?生信分析平台服务器配置建议

    做生信分析平台需要什么配置的服务器? 1.CPU 2.内存 3.硬盘 4.显卡 5.不间断电源UPS 6.其它 生物信息学主要研究方向:DNA/RNA/蛋白质测序,序列比对,基因发现,基因组组装,药物 ...

  5. 从MATLAB应用特点详解科学计算工作站硬件配置(依据数据规模大小划分)

    一.MATLAB应用软件介绍 MATLAB是一种科学计算软件,专门以矩阵的形式处理数据.MATLAB将高性能的数值计算和可视化集成在一起,并提供了大量的内置函数,从而被广泛地应用于科学计算.控制系统. ...

  6. 史上最全虚拟现实VR(视景仿真/系统仿真/可视化)工作站硬件配置方案

    主要内容 第一章 虚拟现实(视景仿真.系统仿真.可视化)系统介绍 第二章 虚拟现实系统对硬件技术要求 第三章 行业应用VR工作站配置方案          VR应用1-视景仿真与训练工作站配置方案   ...

  7. 史上最全MatLAB科学计算工作站硬件配置方案

    (一)MATLAB及工具箱计算特点汇总 MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发.数据可视化.数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和 ...

  8. 最合理2019年4K/6K/8K影视后期工作站硬件配置方案

    目录 1)8K视频市场应用前景 2)8K视频无压缩.压缩存储分析 3) 8K视频后期处理计算特点与硬件配置分析 4)8K影视后期处理工作站硬件配置推荐 8K(7680x4320)或8K DCI(819 ...

  9. 2019最快三维CAD设计工作站硬件配置推荐

    市场对产品设计要求越来越高,三维模型精度越来越复杂,使得常规图形工作站设备硬件配置性能明显不够,交互设计环节,模型的移动.转动.缩放.打开都变得卡顿.迟滞,或CAE仿真计算时间太长.三维CAD设计软件 ...

最新文章

  1. 招行java开发面试,面经:Java后台开发-招行网络科技
  2. Calabash探索3-Calabash进阶
  3. 围观阿里云最会赚钱的人!价值2万元邀请码不限量发送
  4. 面试:说说Java中的 volatile 关键词?
  5. 编制一个c语言成绩记录簿_C语言学到什么程度能写推箱子
  6. 肇庆配送启动运营 谋定·农业大健康-李喜贵:共筑湾区“菜篮子”
  7. 医院计算机管理在品管圈中的应用,品管圈在医院管理中怎么用?看完就明白了...
  8. java 连接池技术_java数据库连接池技术原理(浅析)
  9. 计算机编程工程师理论知识,结构工程师基础知识点:程序设计语言
  10. 休眠身份,序列和表(序列)生成器
  11. git merging 怎么处理_如何让 Git 的输出对代码更友好?
  12. __init__.py的作用是什么?
  13. sqlserver的存储过程mysql_mysql,sqlserver存储过程的创建及执行
  14. MySQL WARN: Establishing SSL connection ...... is not recommended.
  15. 1小时教你理解HTTP,TCP,UDP,Socket,WebSocket
  16. [置顶] 【cocos2d-x入门实战】微信飞机大战之三:飞机要起飞了
  17. Androidの矢量图形之VectorDrawable研究
  18. linux该专接本还是工作_先专接本还是先工作?
  19. java 音频波形图_java读取wav文件(波形文件)并绘制波形图的方法
  20. 离散数学中求合取范式析取范式

热门文章

  1. File.separator是什么?
  2. java拼音分词_使用Pinyin4j进行拼音分词的方法
  3. MVC设计模式及Sprint MVC设计模式
  4. 细说http状态码之301,304
  5. 背景的css代码,CSS网页设计实例:设计制作大背景网页_css
  6. 计算机组成原理实验一:全加器实验
  7. 基于Java的网络编程实践
  8. Java实现蓝桥杯模拟元音单词的验证
  9. HTML5 拖放Drag和drop用法以及事件介绍
  10. 张拉拉再获融资,怎么做出一碗资本爱吃的兰州拉面?