关于文献中二代测序数据下载(NCBI)的问题
关于文献中二代测序数据下载(NCBI)的问题
现在二代测序用于生物学研究非常广泛,大部分文章的序列会上传到Sequence Read Archive(SRA)上,这东西也属于NCBI数据库中的吧,我理解是。
怎么从文献中下载这些序列呢?
首先在文章中找到作者提供的SRA号,或者SRP号。有的习惯写在材料方法中,有的习惯写在文章的末尾的Acknowlagements里面。本次的例子写在方法里面,如图。
L. Fernández Bidondo 的Detection of arbuscular mycorrhizal fungi …文章中的截图
打开NCBI官网
NCBI
选择SRA搜索文章中的SRA号
搜索结果
在 SRA 数据库中, 研究课题的检索号以前缀 DRP、ERP或SRP开头。
样本的检索号以前缀 DRS、ERS或SRS开头。
序列及其质量信息在SRA 数据库中以run为单元存储。run的检索号以前缀DRR、ERR或SRR开头。
我们下载序列,所以点击下面的SRR555942。
点开SRR555942之后的页面
这里面介绍了它的基本信息,下载只需要点击Data access。
Run Browser : Browse : Sequence Read Archive : NCBI/NLM/NIH
Data access页面
大小是63kb,这里面是包含序列信息和质量信息的。右边的链接随便点一个就可以下载了。下载下来之后是这么一个文件。
SRR文件
这个文件是不可以打开的,需要使用官方的fastq-dump将这个文件转换。
官方软件下载
点开之后
Toolkit Documentation : Software : Sequence Read Archive : NCBI/NLM/NIHhttps://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
这里面提供了这么多软件,我们需要的是fastq-dump软件,prefetch这个软件可以直接从网上下载你要的序列,后面我会从视频中介绍。
点击左边的Dowload
如果是Windows用户就下载最下面这个就可以了。
解压
我们别的都不需要,只需要bin文件夹里的东西,把这个文件夹解压到一个你存放软件的地方就可以了。这时候这里面的软件是不能使用的,我们需要设置工作路径,按下面的步骤来做就行。
1
2
3
4
5
6
这时候应该就可以用了。在你刚刚保存SRR文件的路径上面输入CMD。
输入fastq-dump结果如下,说明路径设置成功了。
输入fastq-dump 你的ssr号
我的有188个序列。
生成的是fastq格式的文件,里面是包含序列质量的。
fastq文件
如果不想要序列质量,只想要序列,你可以输入 fastq-dump 你的文件 --fasta
fasta文件
到此,序列下载结束。
后面我会通过视频来介绍如何用Rstudio来配置环境以及应用生物学常用的工具(不能算是软件吧,脚本吧)。
关于文献中二代测序数据下载(NCBI)的问题相关推荐
- NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据
NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据 1. Linux下载安装Aspera软件 2. 下载NCBI中SRR数据 (`目前NCBI上不能用ascp下载sra数据,其 ...
- GEO数据库中单细胞测序数据下载
首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号. 用户 ...
- linux上传数据到sra,通过Linux命令行使用Aspera全速上传测序数据到NCBI数据库
每试错一次,就离本质就更近一步.----小蓝哥 为什么要上传数据 师姐找我帮忙上传宏基因组数据到NCBI,大概是45G.NCBI提供了很多种可供选择的上传方式: 多丰富多彩的上传方式 没有海外节点 + ...
- 用GATK进行二代测序数据 SNP Calling 流程:(二)bwa比对和HaplotypeCaller 变异检测
1. 创建基因组索引 bwa index genome.fa 2. 查看read group信息,按read group分组, 比对.合并,生成gvcf 由于数据太多,无法存储过多的中间文件,因此写了 ...
- 二代测序数据统计分析中为什么是负二项分布?
本文转载自"universebiologygirl",已获授权 1. 转录组数据统计推断的难题 在RNA-seq中进行两组间的差异分析是最正常不过的了 我们在其它实验中同样会遇到类 ...
- tensorflow教程中的mnist数据下载脚本
安利一篇我翻译的国外大牛的神经网络入门文章 阅读tensorflow教程过程中,最初的例子使用mnist,官方提供的下载脚本链接已经失效,从网上一直没有找到正确的input_data.py的脚本,查看 ...
- 用GATK进行二代测序数据 SNP Calling 流程:(四)变异过滤
GATK推荐的最好的过滤方式是用 VQSR功能,它通过机器学习算法来判断SNP的优劣,因此至少需要两个已存在的 SNP 数据集,一个是经过验证的高质量 SNP 数据集作为真集(如 HapMap),还需 ...
- NCBI中SRA数据下载
NCBI中SRA数据下载 hs6605015 2020-08-02 14:35:34 1170 收藏 8 版权 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要 ...
- NCBI上测序数据的下载
在生信分析中,由于论文中提供的数据有限,很多时候需要自己下载论文中的测序数据重新进行分析,从而得到自己想要的数据.而论文中的作者往往会把测序数据上传到NCBI中.因此学会如何从NCBI下载测序数据非常 ...
最新文章
- 离散化小记,Acwing802. 区间和
- python读取文件第n行-Python读取文件后n行的代码示例
- [UE4]C++中extern关键字浅谈
- Sum of Log(2020上海C)
- 过滤JSON中的特殊字符
- 用python实现打开虚拟机_如何使用python从虚拟机读取文件
- hp虚拟服务器,源自基础设施灵活多变的终极自由 惠普(HP)虚拟连接技术(Virtual Connect)...
- iOS 使用符号断点定位警告约束警告-[LayoutConstraints] Unable to simultaneously satisfy constrai...
- NOTE: a missing vtable usually means the first non-inline virtual member function has no definition.
- vmware workstation 12 打开vm14 不兼容问题解决
- 三菱PLC QCPU用户手册(功能解说/程序基础篇)
- 学习报告:基于原型网络的小样本学习《Prototypical Networks for Few-shot Learning》
- 韦东山学习笔记——UART(串口)的使用
- Python+Zookeeper操作
- python arduino i2c1602_Arduino 将1602液晶显示屏改造为IIC接口
- Vue接入Google Adsense
- k2虚拟服务器功能,配置图形加速的View虚拟桌面-NVIDIA GRID K2使用指南
- Python3端口扫描器
- 转行软件测试,现状以及就业前景,你后悔了吗?
- STM32CubeMX | 32-使用硬件FMC驱动TFT-LCD屏幕(MCU屏)