这个文章主要讲一下如何通过实例数据来进行16S测序数据分析的演示。


为什么要自己拿数据练习?
你需要进行大量数据分析的练习,因为生物信息是一项实践性非常强的工作,很多分析只有自己亲自操作一遍才能够掌握这个分析。而且在很多情况下数据分析都不可能达到立竿见影的效果,往往需要反复进行调整,比如选择不同的分析软件,设置不同的显性参数,同一选项设置不同的阈值等,然后比较不能条件下结果的差异。亲自去操作才会发现数据中呈现的细节问题。

去哪里找数据啊?
因为总不能让你自己写数据,所以我们还是要站在巨人的肩膀上,下载别的人的数据来进行练手。有非常多已发表出来的数据可以直接去下载。一般发的出来的测序文章都会给出数据的链接,这个链接一般是NCBI数据库的数据号,你可以直接复制去NCBI数据库进行下载。形如SRR1564122PRJNA024523等。搜索之后下拉页面找到BioProject即可进行数据下载。

除此之外也可以去HMP,EMP等大型网站进行下载。

数据下载

只是练手,所以进行下载,有数据的略过这一步即可。
下载MiSeq的现成数据看这里:数据来源
你可以点击下载部分数据:https://www.mothur.org/w/images/d/d6/MiSeqSOPData.zip
嫌少的话还可以下载这个实验的全部数据:www.mothur.org/MiSeqDevelopmentData/StabilityNoMetaG.tar
下载下来之后打开是这一个样子的,F3D1就是female,day3,女性第三天的取样。M2D165同理,是male,D165,男性第165天的取样结果。

数据质控

数据质控的非常重要的一个环节,如果数据质量不好而又没有做严格的数据质控和过滤而直接拿来做数据分析,这样往往不会得到好结果,有时候甚至会得到错误的结论,所以在数据分析之前一定要对数据进行质控分析,这是一个非常重要的过程。数据控制主要有一下,两个指标,图像可以由fastqc获得。(点击下载fastqc)

碱基含量分布

碱基含量也就是这一数据中四种碱基的分布情况。测序是随机的,所以ATGC剪辑应该满足碱基互补配对原则,A=T,G=CA=T,G=CA=TG=C,并且ATCG碱基含量的比例也应该于基因组中的比例相同。也就是测序数据中这些碱基的含量应该与物种中含量百分比相同,下图中纵坐标为碱基含量百分比,横坐标为位置,下图分割线分隔开两个,是两段从1-90BP的序列,每段序列都是从1-90的碱基。下图中可以看出ACGT都是互补的,两段开头部分波动较大是因为开头部分比较不稳定。
测序数据中有个N碱基,在机器识别不出是ACGT时候就会替换成N,所以N碱基越少越好。如果N碱基在一个位点突然升高,则证明这段碱基出现了问题,导致碱基无法读取,这种情况就需要对这段数据进行处理。

碱基质量分布

评价一个碱基的质量就要看Q值,即quality score(质量分数),简单说就是每个碱基测序正确率,Q值越高,错误率越低。

  • 质量值是Q20,则错误识别的概率是1%,即错误率1%
  • 质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%
  • 质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%

Q20百分比:质量值大于20碱基占总碱基的比例。这个用于评估数据质量。例如实验中采用Q20标准的话,质量值>=Q20则证明该碱基是好碱基,测10w个碱基,有9.5w碱基质量值>=Q20,则证明这个实验中Q20比例为95%。
下图中纵坐标为质量值,横坐标为两个测试位置,每个测试位置1-90碱基。从图中可以看出每个位点碱基质量的分布情况。图中可以看出发部分碱基都在Q20上,则证明这段碱基的质量比较好。


数据处理

再经过数据质控之后,我们就对数据有一个整体的印象,然而发现测试数据有问题之后,不是测试数据质量不好,我们就直接丢掉,而是要对数据进行处理,最大程度的来利用数据,挖掘数据的价值,其实即使是质量好的数据同样还是要进行处理,这一数据处理的过程就是对数据进行一下过滤。

过滤数据

  1. 非“基因组”本身序列

    • adapter接头
    • 测序引物
    • barcode
    • index等
  2. 去除N碱基过多的reads
    例如16S的V4区域,一般长度250BP,如果出现10个N碱基,这些N碱基可能连续也可能不连续,这样就可能达不到97%的比对要求。
  3. 去除低质量
    • 以Q20作为判断标准
    • 低于Q20碱基占一条reads总碱基的比率
    • 例如低于Q20比率占30%
  4. pairend 的reads只要有一个不满足条件;同时去掉两条reads
  5. 出现duplication(两对reads,reads1完全一致,reads2完全一致)在16S中不能去除!!!

数据处理原则

1、不要求100%精确,原则是不影响后续分析
2、可以根据最终结果,重新过滤数据


QIIME安装

官网:http://qiime.org/
官方有英文教程,自己动手。
需要Python环境,记得下个2.7版本以上的Python。

qiime-base安装

qiime-full安装

qiime虚拟机安装

qiime的使用


这一天我回想起来我不是个程序媛,而是一个学生物的小垃圾。

16S rDNA测序数据下载 | Qiime下载安装相关推荐

  1. 如何用16s rRNA测序数据计算特定菌种的相对丰度并比较

    计算特定菌种的相对丰度并比较的一般步骤如下: 序列数据处理: 对16S rRNA测序数据进行去噪.去除低质量.合并重复和去除污染的步骤. 比对和分类: 使用比对工具将序列数据与参考数据库中的基因组进行 ...

  2. NCBI数据库—上传16S rRNA测序数据

    NCBI上传16S rRNA测序数据 1.登陆NCBI官网 NCBI官网链接 2.选择上传序列类型 上传16S rRNA测序数据,直接选16S rRNA就可以,然后弹出上传数据集的类型,选择SRA 3 ...

  3. 微生物16S测序数据的正确打开方式

    16S rRNA基因测序(也称16S rDNA测序)是最常用的菌群多样性分析的手段.对于新手,如果收到一份不讲"人话"的16S测序分析报告,很快就会被各种生态学术语.各种指数.各种 ...

  4. NCBI 数据介绍和下载

    本来打算自己写一个,但是太懒了,感觉别人写的也很详细,我也写不出什么花,就在这直接做一个只是整理: NCBI 扫盲 NCBI上的这些字母都是什么鬼 SRA,GEO,dbSNP,WGS等是什么 NCBI ...

  5. 影响因子14.65:16S全长测序+低丰度简化菌群,提供根腐病防控新视角

    背景介绍 当土壤中病原体入侵时,植物可以动态调节其根际微生物并适应这种生物胁迫.植物招募的保护性微生物群落中通常包含一些低丰度的类群,其作用尚不清楚.本研究首先分析了健康和患病黄芪之间根系微生物群落结 ...

  6. linux下载测序数据,利用SRA号从NCBI下载测序原始数据

    生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里:并在文章末尾标明数据存储位置和登录号,如 The data from this study ...

  7. RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记

    今天学习了如题的一些操作.但是并不算成功.本来打算做到quality control,结果大部分时间卡在了下载测序数据上. 参考网站: 下载参考基因组及基因注释) 1.安装ASPERA 1)wget ...

  8. NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据

    NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据 1. Linux下载安装Aspera软件 2. 下载NCBI中SRR数据 (`目前NCBI上不能用ascp下载sra数据,其 ...

  9. NCBI上测序数据的下载

    在生信分析中,由于论文中提供的数据有限,很多时候需要自己下载论文中的测序数据重新进行分析,从而得到自己想要的数据.而论文中的作者往往会把测序数据上传到NCBI中.因此学会如何从NCBI下载测序数据非常 ...

  10. 第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容

    1 第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析_YoungLeelight的博客-CSDN博客 01-rna-seq从头开始 卖萌哥 Linux生信技能树Linux安装 ...

最新文章

  1. 有趣的计算机课的作文,有趣的电脑课作文500字
  2. 基于架构的上网行为管理产品界面对比
  3. WebX Qamp;A
  4. visual assist破解
  5. Excel信息提取之二
  6. Python编程基础:第二十三节 嵌套函数调用Nested Functions Calls
  7. JS获取当前时间的前n天/后n天
  8. Opencv--IplImage访问图像像素的值
  9. Unity Text 插入超链接
  10. python安装环境配置
  11. 别出心裁的Linux命令学习法
  12. 清理window日志垃圾.bat
  13. (转)开源GIS总结(一)——总结
  14. qemu运行linux内核很慢,bugfix: Qemu 运行 ARM Linux 5.0 必现启动死机
  15. 【深度学习】研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂...
  16. 如何将资源打包成.unity3d文件
  17. 漳州市计算机报名时间,漳州市计算机操作员证怎么考要什么条件考试需要多久...
  18. 海航控股公布重整计划 海航“航”向何方?
  19. CH340在STM32实现一键下载电路的理解
  20. 【高数】两类曲线积分的联系

热门文章

  1. 成长,没你想象的那么迫切!
  2. PS图层模式详细讲解
  3. 收到微软律师函怎么办?当接到微软律师函的处理办法
  4. mysql 查询最多的_mysql查询——查找订单最多的客户
  5. 中国现在小学要求计算机课吗,为什么说刚进学校不要买电脑?是用不到吗?
  6. 微信PC版Hook发送群艾特消息研究
  7. 安卓逆向笔记--爱加密新老对比分析
  8. 第9章 Linux的磁盘管理
  9. 机器学习之从基础数学深入剖析逻辑回归(案例理论相结合)
  10. 编译过程 多个.c文件 . h文件 和main文件的 联系