RNA-seq分析-数据库
!!!!声明:不是原创,我只是方便自己学习,原文指路
NCBI-SRA数据库与EBI-ENA数据库
所有已发表文献中的高通量测序数据大多会上传到某个数据库中方便其他人的下载学习与再研究,这其中受众最广的自然是出身NCBI的SRA数据库。同时出身EBI的ENA数据库对于下载数据有很多便利之处,所以在具体下载文件之前先了解一下这两个数据库的情况。
NCBI与EBI同属于INSDC:International Nucleotide Sequence Database Collaboration,提交给所属三个数据库的数据是可以互通的。该架构内容具体如下:
- NCBI: National Center for Biotechnology Information
- EBI: European Bioinformatics Institute
- DDBJ:DNA Data Bank of Japan
SRA数据库: Sequence Read Archive,
- 是一个保存高通量测序数据以及比对信息和元数据(meta data)的数据库,所有已经发表的文献中的高通量测序数据基本上都会上传到该数据库中,这个数据库隶属于NCBI。
- SRA数据库的各种编号
元数据(meta data):是指与测序实验及其实验样品相关的数据, 如实验目的、 实验设计、 测序平台、 样本数据(物种, 菌株,个体表型等),在SRA数据库中,meta数据分如下层次来存储:
【1】研究课题(study):在 SRA 数据库中,研究课题的检索号(accession number)以前缀 DRP,ERP 或 SRP开头。
【2】样本信息(sample):样本的检索号以前缀 DRS,ERS 或 SRS 开头。 样本信息可以包括物种信息、 菌株(品系)信息、家系信息、表型数据、临床数据, 组织类型等。
【3】实验信息(experiment):实验的检索号以前缀 DRX,ERX或 SRX 开头。 实验是 SRA 数据库的最基本单元, 就像 PubMed 数据库的每一篇文献是 PubMed数据库的基本单元一样。 一个实验隶属于某个研究课题,对一个或多个样本进行测序,产生的测序数据以 runs 的形式存储于SRA数据库。
【4】序列数据:包括序列及其质量信息等,在 SRA 数据库中以 run 为单元存储。run 的检索号以前缀DRR,ERR 或 SRR 开头。
ENA数据库: European Nucleotide Archive
ENA数据库的优势
【1】可以直接获取得到 fastq 文件
【2】使用ENA数据库还有一个优势是可以确认下载数据的完整性。生信数据的大体量性带来的下载时间长(期间网络万一不正常就会波动)可能会造成下载数据的缺失等问题,这些问题一般很难在获得数据的初期被发现。ENA数据库提供了md5码这种途径来检查数据的完整性。ENA数据库使用
首先,在数据库页面右上角搜索栏输入目标SRA检索号,确认后稍等片刻可得结果页面
其次,点击选取 Experiment 可以获得该实验下所有的测序序列数据的信息
我们可以看到隶属于该实验的两个序列数据信息,并且可以在 FASRTQ files(FTP) 栏中获得直接下载 fastq 文件的FTP 地址。
获取直接下载 fastq 文件的FTP地址
RNA-seq分析-数据库相关推荐
- 重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)
原文链接: https://www.embopress.org/doi/10.15252/msb.20188746 主编评语 这篇文章最好的地方不只在于推荐了工具,提供了一套分析流程,更在于详细介绍了 ...
- C#分析数据库结构,使用XSL模板自动生成代码
<html> <head> <TITLE>分析数据库结构,自动生成代码</TITLE> <meta http-equiv="Conten ...
- 一文掌握RNA seq,RNA seq课程大汇总
RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...
- Teradata天睿公司推出适用各种部署环境的全球最强分析数据库
Teradata天睿公司(Teradata Corporation,纽交所:TDC)推出Teradata Everywhere™,成为业内首家在多种公有云.托管云和本地部署环境下部署全球最强海量并行处 ...
- 分析数据库CitusDB:提供弹性计算能力
本文讲的是分析数据库CitusDB:提供弹性计算能力,企业数据库市场很庞大,在这个领域既有Oracle这样行家,也有IBM(DB2)和微软(SQL Server)这样的跨界巨头.它们都与中小企业常用到 ...
- java 数据分析 用户信息_Java数据库——使用元数据分析数据库
在JDBC中提供了DatabaseMetaData和ResultSetMetaData接口来分析数据库的元数据. DatabaseMetaData 使用DatabaseMetaData取得数据库的元信 ...
- 使用ApexSQL Log 分析数据库在线日志及数据库备份
今天遇到一个问题,数据库有几张表的数据被清除了.因为数据是昨天晚上被删除的,当时没有用户访问,所以根据日志备份就可以将数据还原,没有数据损失.但是是谁删除了数据呢? 在2008之前有很多工具都可以分析 ...
- 开源分析数据库ClickHouse和开源esProc SPL的性能对比
前言 虚竹哥今天又来分享干货啦,今天分享一个:开源分析数据库ClickHouse和开源esProc SPL的性能对比.在分享之前,来个福利预告:认真看完文章,文末送本好书. ClickHouse vs ...
- oracle油井数据分析,长庆油田信息分析数据库系统设计.doc
长庆油田信息分析数据库系统设计 摘要:长庆油田信息分析数据库系统利用ORACLE数据库,GIS(地理信息系统)技术对原有的油田信息进行储存,图形化管理,并借助数学分析方法对生产信息进行分析,得出规律, ...
- 为什么ClickHouse分析数据库这么强?(原理剖析+应用实践)
ClickHouse简介 2020年下半年在OLAP领域有一匹黑马以席卷之势进入大数据开发者的领域,它就是ClickHouse.在2019年小编也曾介绍过ClickHouse,大家可以参考这里进行入门 ...
最新文章
- 解决从本地文件系统上传到HDFS时的权限问题
- [转]重新签名Android pre-install APK
- df -h 显示100%的解决办法
- UIScrollViewDelegate-代理API详解
- HALCON示例程序sequence_diff.hdev通过两张连续图像进行车辆流量监控
- GUI 快捷键的实现思路
- Flask爱家租房--房屋管理(搜索房屋列表)
- 多线程编程—线程池的实现
- mysql with-embedded-server_终于成功实验程序实现Embedded MySQL Server启动(C/C++)
- 并查集:POJ No1703 Find them, Catch them
- ssh 连接保持不中断
- 月光博客:我的知识管理工具列表(强烈推荐收藏)
- armbian 斐讯n1_斐讯 N1 刷 Armbian 5.64
- 计算机主板时钟,电脑主板时钟电路工作原理
- 微信HOOK 1.获取二维码
- html实现粘性页脚
- 单片机模拟iic从设备-主要代码(2)
- 《win10自带的输入法怎样把繁体字模式改成简体字模式》
- 32位系统的虚拟内存空间最大容量
- excel组合汇总_Excel汇总20150202