生信小白:老板最近说,要搞搞高大上的全基因组测序,让我去做测序数据分析,可我都不懂哇...

生信猿:这不就是生物信息分析嘛,搭建集群,搭建流程,跑跑数据...

生信小白:听说你有一个朋友很厉害,可以让他教教我吗?

生信猿:你说的是西克孚肉吧,他可是生信方面的专家。我把他的名片给你了,你们好好交流吧。

生信小白:肉哥好,能跟我讲讲生信分析到底是个啥玩意儿吗?

西克孚肉:白白好,那我先跟你捋捋如何读取生命的密码吧。且听我慢慢道来...

Q:如何读取生命的密码?

西克孚肉:

DNA序列承载着控制生物性状的遗传信息,DNA是长链大分子,你以看看我身上穿的这件衣服,是一个小的DNA片段。DNA有四种碱基A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)。

人类基因组有30亿个碱基对,可以理解为这是一本由30亿个ATCG字母构成的“书”。

如何从这本书中翻译出生命的奥秘呢?目前主流的方法是使用二代测序来测整个人全基因组。按照经验,一个标准的人全基因组测序原始数据可以达到100GB。

二代测序技术是将DNA的长链分子随机打断,然后用化学方法一批批地将小片段DNA扩增和读取出来。

我们可以这样简单理解:

测序相当于将生命之“书”投进碎纸机,变成了一条条碎纸片段(序列打断),每个片段一般只有几百个字母。由于碎纸片段实在细碎繁多,可能遗漏某些重要片段,所以通常会把碎纸片复印(聚合酶链式反应,PCR)多份,再进行扫描(基于荧光标记dNTP的光学检测),把这些碎纸片段的字母读取出来。

拿到这些扫描后的片段数据(短序列),我们需要用计算机去处理(生物信息分析),尽可能拼回原来完整的书,并寻找书中独特的词(基因变异)。然后去查字典(变异数据库),看看究竟这些词表达什么意思(信息注释)。

典型的生物信息过程包括:首先去掉质量不高、破损严重的短序列数据(质量控制 Quality Control/Filtering),然后完成基因组比对/组装( Mapping/Assembly),进而寻找基因变异(Variant Calling)。

从大体量的数据中,找到基因突变信息,这就是生物信息分析的工作。

生信小白:听你这么一说,我大致明白了生物信息分析是在做什么的了,但我应该如何上手呢?

西克孚肉:别急,一步步来嘛,干我们这行的,没点“家伙”怎么行?

Q:生信分析的工具有哪些?

西克孚肉:

生物信息的工具有很多,主要是:bwa,samtools,picard,GATK,bedtools,bcftools,vcftools,FastQC,MultiQC,VEP等等,GATK是目前被广泛使用和认可的分析软件 。

通常来讲,一个成年人的变异大概有两百多万个,但对于特定的疾病,可能只有几个或几百个有意义的,突变的寻找有如大海捞针。幸运的是,我们并不是漫无目的地寻找,我们可以借助一些公开的数据库,来过滤掉不相关的信息

生信小白:肉哥你这讲解深入浅出,我觉得老板交代给我的任务已经完成了一大半...

西克孚肉:不着急,这只是一个开始噢。我们将在这一系列的连载,来告诉你生信分析需要做些什么。

生信分析是个什么玩意儿?相关推荐

  1. 生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...

    生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百.几千.几万个碱基,这与 ...

  2. 面向生信分析的高性 RStudio 服务器

    因需要超大内存的拼接/比对/表达量计算发愁? 为了使用组里的服务器而被困在实验室? 浪费大量的时间龟速下载 NCBI 的数据? 快来看看云筏 HPC 吧! https://my.cloudraft.c ...

  3. 生信分析流程构建的几大流派

    导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...

  4. 福建农林大学朱方捷组招聘讲师/副教授/助理——生信分析方向

    福建农林大学转录系统生物学课题组招聘(生信分析.组培转化) 工作地点: 福建农林大学海峡联合研究院 薪金: 18-30万 招聘岗位: 讲师/副教授/助理 实验室网址: http://hbmcsysbi ...

  5. 生信分析平台方案推介,助力科研

    生信分析平台方案推介,助力科研 专注 专业 共赢 目前生信分析对计算性能和存储高并发性能都提出来新的要求,例如在基因测序分析中,基因序列数目庞大,对基因进行同源性搜寻.比对.分析.系统发育分析等需要对 ...

  6. 这是入门生信,学习生信分析思路和数据可视化的首选?

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  7. docker卸载命令_使用docker完成生信分析环境搭建

    生信开发人员最头疼的问题,可能就是平台搭建和软件安装了.部署和迁移上要费很大力气.本文讲述使用docker制作一个镜像,后续通过导入自己定制的镜像,复制文件完成分析流程的部署和迁移. 如何使用dock ...

  8. 找不到r低版本_R 语言与数据挖掘直播班开始招生,生信分析帮你发高分文章

    数据单薄很难支撑文章内容?数据有了不知道怎么处理作出高级的图片?这个时候需要的是生信分析--深度的数据挖掘和分析处理,可以帮助临床医生通过数据处理得到自己想要的信息,更快速地发文章. 学习哪种生信分析 ...

  9. 属于服务器端运行的程序_生信分析云平台产品开发 - 5 生信分析pipeline服务器端运行...

    在上文 [生信分析云平台产品开发 - 4 生信分析pipeline的图形化] 讨论了生信分析pipeline的图形化,如何用图形的方式显示生信pipeline,但是pipeline脚本按照变量的形式保 ...

  10. mirna富集分析_经验之谈丨生信分析文章套路原来这么简单!

    近两年,不做实验或者仅需要少量实验的生物信息学分析文章,发表量越来越多.如果利用数据库检索,高效的发出一篇文章.是科研工作者关注的话题,今天我们就用一篇生信分析的文章作为切入点,来谈谈生信分析文章的套 ...

最新文章

  1. 端口号被占用怎么解决
  2. 1小时学会:最简单的iOS直播推流(六)h264、aac、flv介绍
  3. ms SQL Server表自增字段重置
  4. WinForm给ComboBox增加Value(转)
  5. html选择器有哪些child,css3选择器child有哪些?css3选择器child用法详解
  6. win10子系统ubuntu图形界面_win10系统中安装ubuntu子系统及图形界面
  7. java unit test怎么写_Java J Unit Test
  8. 为什么java button 不能用 显示红色_Java中的整型包装类值的比较为什么不能用==比较?原因是因为缓存...
  9. Java中的可变参数方法
  10. Ubuntu系统下如何在不重启的情况下永久修改hostname主机名
  11. 2021年茶艺师(中级)考试及茶艺师(中级)考试题
  12. 下一代 TGW 从13Mpps到50Mpps性能优化之旅
  13. 分类堆叠柱状图顺序排列及其添加合适条块标签
  14. Mac配置maven环境与settings设置
  15. 【优化】py2下hbase的字符串编码问题(\\xe7\\xbc\\x96)
  16. LEA指令和OFFSET指令
  17. [TL-WR841N V5~V9] 无线桥接(WDS)如何设置?
  18. 【中国银联】数据挖掘笔试+三面面经
  19. ICASSP2022论文阅读记录3 - TalkingFlow
  20. 中考大数据大连79_中考大数据 | 2018年大连部分重点高中生源情况汇总!

热门文章

  1. 虚拟机opnsense作为dhcp服务器,在OPNsense中,通过主机名或域名访问内部设备
  2. 小程序 40163_安卓微信登入codebeenused,error40163
  3. 以太坊中nonce深入解读
  4. 马斯洛提出动机理论_动机理论:工作背后的动力机制
  5. DAVE笔记--Micrium uc-Probo Oscilloscope调试
  6. 问题:VBoxManage not found. Make sure VirtualBox is installed and VBoxManage is in the path
  7. Nature综述|整合组学分析护航健康,推动精准医学时代的到来!
  8. 悦box(mt7620a)刷padavan固件
  9. 3D建模场景怎么做?
  10. nodejs实现微博第三方登录