关于文献中二代测序数据下载(NCBI)的问题

现在二代测序用于生物学研究非常广泛,大部分文章的序列会上传到Sequence Read Archive(SRA)上,这东西也属于NCBI数据库中的吧,我理解是。

怎么从文献中下载这些序列呢?

首先在文章中找到作者提供的SRA号,或者SRP号。有的习惯写在材料方法中,有的习惯写在文章的末尾的Acknowlagements里面。本次的例子写在方法里面,如图。

L. Fernández Bidondo 的Detection of arbuscular mycorrhizal fungi …文章中的截图

打开NCBI官网

NCBI

选择SRA搜索文章中的SRA号

搜索结果

在 SRA 数据库中, 研究课题的检索号以前缀 DRP、ERP或SRP开头。

样本的检索号以前缀 DRS、ERS或SRS开头。

序列及其质量信息在SRA 数据库中以run为单元存储。run的检索号以前缀DRR、ERR或SRR开头。

我们下载序列,所以点击下面的SRR555942

点开SRR555942之后的页面

这里面介绍了它的基本信息,下载只需要点击Data access

Run Browser : Browse : Sequence Read Archive : NCBI/NLM/NIH

Data access页面

大小是63kb,这里面是包含序列信息和质量信息的。右边的链接随便点一个就可以下载了。下载下来之后是这么一个文件。

SRR文件

这个文件是不可以打开的,需要使用官方的fastq-dump将这个文件转换。

官方软件下载

点开之后

Toolkit Documentation : Software : Sequence Read Archive : NCBI/NLM/NIHhttps://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

这里面提供了这么多软件,我们需要的是fastq-dump软件,prefetch这个软件可以直接从网上下载你要的序列,后面我会从视频中介绍。

点击左边的Dowload

如果是Windows用户就下载最下面这个就可以了。

解压

我们别的都不需要,只需要bin文件夹里的东西,把这个文件夹解压到一个你存放软件的地方就可以了。这时候这里面的软件是不能使用的,我们需要设置工作路径,按下面的步骤来做就行。

1

2

3

4

5

6

这时候应该就可以用了。在你刚刚保存SRR文件的路径上面输入CMD。

输入fastq-dump结果如下,说明路径设置成功了。

输入fastq-dump 你的ssr号

我的有188个序列。

生成的是fastq格式的文件,里面是包含序列质量的。

fastq文件

如果不想要序列质量,只想要序列,你可以输入 fastq-dump 你的文件 --fasta

fasta文件

到此,序列下载结束。

后面我会通过视频来介绍如何用Rstudio来配置环境以及应用生物学常用的工具(不能算是软件吧,脚本吧)。

关于文献中二代测序数据下载(NCBI)的问题相关推荐

  1. NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据

    NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据 1. Linux下载安装Aspera软件 2. 下载NCBI中SRR数据 (`目前NCBI上不能用ascp下载sra数据,其 ...

  2. GEO数据库中单细胞测序数据下载

    首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号. 用户 ...

  3. linux上传数据到sra,通过Linux命令行使用Aspera全速上传测序数据到NCBI数据库

    每试错一次,就离本质就更近一步.----小蓝哥 为什么要上传数据 师姐找我帮忙上传宏基因组数据到NCBI,大概是45G.NCBI提供了很多种可供选择的上传方式: 多丰富多彩的上传方式 没有海外节点 + ...

  4. 用GATK进行二代测序数据 SNP Calling 流程:(二)bwa比对和HaplotypeCaller 变异检测

    1. 创建基因组索引 bwa index genome.fa 2. 查看read group信息,按read group分组, 比对.合并,生成gvcf 由于数据太多,无法存储过多的中间文件,因此写了 ...

  5. 二代测序数据统计分析中为什么是负二项分布?

    本文转载自"universebiologygirl",已获授权 1. 转录组数据统计推断的难题 在RNA-seq中进行两组间的差异分析是最正常不过的了 我们在其它实验中同样会遇到类 ...

  6. tensorflow教程中的mnist数据下载脚本

    安利一篇我翻译的国外大牛的神经网络入门文章 阅读tensorflow教程过程中,最初的例子使用mnist,官方提供的下载脚本链接已经失效,从网上一直没有找到正确的input_data.py的脚本,查看 ...

  7. 用GATK进行二代测序数据 SNP Calling 流程:(四)变异过滤

    GATK推荐的最好的过滤方式是用 VQSR功能,它通过机器学习算法来判断SNP的优劣,因此至少需要两个已存在的 SNP 数据集,一个是经过验证的高质量 SNP 数据集作为真集(如 HapMap),还需 ...

  8. NCBI中SRA数据下载

    NCBI中SRA数据下载 hs6605015 2020-08-02 14:35:34  1170  收藏 8 版权 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要 ...

  9. NCBI上测序数据的下载

    在生信分析中,由于论文中提供的数据有限,很多时候需要自己下载论文中的测序数据重新进行分析,从而得到自己想要的数据.而论文中的作者往往会把测序数据上传到NCBI中.因此学会如何从NCBI下载测序数据非常 ...

最新文章

  1. 离散化小记,Acwing802. 区间和
  2. python读取文件第n行-Python读取文件后n行的代码示例
  3. [UE4]C++中extern关键字浅谈
  4. Sum of Log(2020上海C)
  5. 过滤JSON中的特殊字符
  6. 用python实现打开虚拟机_如何使用python从虚拟机读取文件
  7. hp虚拟服务器,源自基础设施灵活多变的终极自由 惠普(HP)虚拟连接技术(Virtual Connect)...
  8. iOS 使用符号断点定位警告约束警告-[LayoutConstraints] Unable to simultaneously satisfy constrai...
  9. NOTE: a missing vtable usually means the first non-inline virtual member function has no definition.
  10. vmware workstation 12 打开vm14 不兼容问题解决
  11. 三菱PLC QCPU用户手册(功能解说/程序基础篇)
  12. 学习报告:基于原型网络的小样本学习《Prototypical Networks for Few-shot Learning》
  13. 韦东山学习笔记——UART(串口)的使用
  14. Python+Zookeeper操作
  15. python arduino i2c1602_Arduino 将1602液晶显示屏改造为IIC接口
  16. Vue接入Google Adsense
  17. k2虚拟服务器功能,配置图形加速的View虚拟桌面-NVIDIA GRID K2使用指南
  18. Python3端口扫描器
  19. 转行软件测试,现状以及就业前景,你后悔了吗?
  20. STM32CubeMX | 32-使用硬件FMC驱动TFT-LCD屏幕(MCU屏)

热门文章

  1. jquery $.post 超时_jQuery介绍
  2. 实例:手写 CUDA 算子,让 Pytorch 提速 20 倍
  3. 盘点工业界AI项目流程以及边缘设备现状
  4. 基于图割优化的多平面重建视觉 SLAM(ISMAR2021)
  5. 自动驾驶激光雷达物体检测技术
  6. 一个狠招|如何高效学习3D视觉
  7. Python自然语言处理 NLTK 库用法入门教程
  8. 医疗领域中的AI/ML机会前景
  9. PostgreSQL命令行方式登陆数据库
  10. 第十课.简单文本分类