GEO2R

如果出现提示,请指定GEO系列加入和平台。
       单击“定义组”并输入您计划比较的样品组的名称,例如测试和控制。
       将样本分配给每个组。 突出显示Sample行,然后单击组名称以将这些Samples分配给该组。 使用样本元数据(标题,源和特征)列可帮助确定哪些样本属于哪个组。
       单击“前250”以使用默认设置执行计算。
       结果表示为按显着性排序的基因表。 提出了前250个基因,可以将其视为轮廓图。 或者,可以保存完整的结果表。
        您可以更改选项选项卡中的设置。

参考文献:

  • Smyth, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420.
  • Sean Davis and Paul S. Meltzer (2007). GEOquery: a bridge between the Gene Expression Omnibus (GEO) and BioConductor. Bioinformatics 23(14): 1846-1847..]

######很多时候我们需要从GEO(https://www.ncbi.nlm.nih.gov/geo/)下载RNA-seq数据,一个典型的下载页面是https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76381(搜 GSE76381)。

这里你会看到数据的总览:

GSM2268339    1772067089_A01
GSM2268340    1772067089_A02
GSM2268341    1772067089_A03
……

Supplementary file    Size    Download    File type/resource
SRP/SRP067/SRP067844        (ftp)    SRA Study
GSE76381_ESMoleculeCounts.cef.txt.gz    5.9 Mb    (ftp)(http)    TXT
GSE76381_EmbryoMoleculeCounts.cef.txt.gz    5.3 Mb    (ftp)(http)    TXT
GSE76381_MouseAdultDAMoleculeCounts.cef.txt.gz    1.0 Mb    (ftp)(http)    TXT
GSE76381_MouseEmbryoMoleculeCounts.cef.txt.gz    6.1 Mb    (ftp)(http)    TXT
GSE76381_iPSMoleculeCounts.cef.txt.gz    1001.2 Kb    (ftp)(http)    TXT

现在我们已经从ftp上下载了该文章的所有sra数据。

名称    大小    修改日期
[上级目录]
SRR4055063/        2016/8/24 上午8:00:00
SRR4055064/        2016/8/24 上午8:00:00
SRR4055065/        2016/8/24 上午8:00:00
SRR4055066/        2016/8/24 上午8:00:00
......

里面每一个文件夹里对应一个或多个sra文件。

比对,SRR4061391.sra文件是一个二进制文件,需要使用sra工具来转化为fastq。

转换之后的fastq如下:

@SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51
ATTCAAGGGAGTTATAAGCAGAGTCAATAATGAATTTCTTCCTGCGTCTCC
+SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51
CCCFFFFFHDHFHIJJJJJGJIIEHHIJJJJIIIIJJIIJIJJJIJJJJJJ
@SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51
TTGATTGGGCACCTAGAAGCCAAGGACTCTCTAAGTCCTAGTCTGTTTGGT
+SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51
CCCFFFFFHHHHHJJJGIJIIJJJJJJJJJJJJJJIIJJIIIJJJJJJJJF

可以看到,fastq文件里没有任何有价值的样品信息(物种、样品名、细胞名、组织)。

此时你只能去文章里找相关信息:

文章里真正实用的信息很少,

The molar concentrations of the libraries was determined with KAPA Library Quant qPCR (Kapa Biosystems) and size distribution was evaluated after PCR (12cycles) using an Agilent BioAnalyzer. Sequencing was performed on an Illumina HiSeq 2000 with C1-P1-PCR2 as read 1 primer and C1-TN5-U as index read primer. Reads of 50 bp as well as 8 bp index reads corresponding to the cell-specific barcodes were generated. Reads were mapped using bowtie and processed as described previously (Zeisel et al., 2015), adding the more strict criteria for UMI counting: we removed all singletons (molecules supported by a single read).

也没说太清楚,下载的数据中找不到那8bp的barcode,说明数据已经按照barcode拆好了。

Reads of 50 bp were generated along with 8 bp index reads corresponding to the cell-specific barcode. Each read was expected to start with a 6 bp unique molecular identifier (UMI), followed by 3-5 guanines, followed by the 5’ end of the transcript.

绕了一大圈,真正有价值的信息原来在引文中,所以现在的大牛真是喜欢拽,非要别人去读他之前的文章。

总结:到此,该文献的全部数据是下下来了,也已经转换为fastq,知道fastq的格式信息,但是我们还不知道没一个fastq的样品信息。


回到开始的页面,貌似有样品的信息:

GSM2268339    1772067089_A01
GSM2268340    1772067089_A02
GSM2268341    1772067089_A03

这是全部的信息:

确实是样品信息,样品编号,物种信息。

点击GSM2268340会发现一些更详细的样品信息:

Status    Public on Oct 06, 2016
Title    1772067089_A02
Sample type    SRASource name    ventral midbrain
Organism    Homo sapiens
Characteristics    tissue: ventral midbrain
Sex: pooled male and female
age: 7w
inferred cell type: hRgl2a

总结:但是到目前我们还是找不到SRR文件的样品信息,只是找到了GSM的。


那么怎么找SRR和GSM之间的关系呢?

直接在GEO搜索SRR4061391,结果如下:

终于找到了对应关系,SRX2050530: GSM2274293: 1772096111_A02; Mus musculus; RNA-Seq

GSM2274293包含了两个SRR文件。

总结:到目前为止,已经能手动查找到下载的SRR文件对应的样品信息了。但总共有6k多个,不可能这么手动查吧。


开始科普:About GEO DataSets

Lists the DataSet (GDS), Series (GSE) or Platform (GPL) accession number, followed by title and organism.

lists the Sample accessions numbers (GSM) and titles.

GDS编号:数据集

GSE编号:系列

GPL编号:平台

GSM编号:样品登陆号

来源:https://www.cnblogs.com/leezx/p/7365947.html

转载于:https://www.cnblogs.com/precious-hui/p/10539743.html

GEO数据下载及处理详细过程相关推荐

  1. Front Immunol 复现 | 1. GEO数据下载及sva批次校正(PCA可视化)

    FII 前几天有同学问了一篇文章里的一个方法的实现,看了一下这篇文章除了qPCR验证基本都是纯生信,今天就试着来复现一下.随缘复现哈,如果阅读数据不好看的话,可能就放弃了,希望大家多多点赞.在看,转发 ...

  2. mysql下载完安装包怎么办_MySQL下载压缩包安装详细过程

    MySQL下载压缩包安装详细过程 一.下载 打开官方网站: 二.安装: 1.MySQL安装文件.zip 压缩包安装 2.zip格式是自己解压,解压缩之后其实MySQL就可以使用了,但是要进行环境变量配 ...

  3. GEO数据下载分析(SRA、SRR、GEM、SRX、SAMN、SRS、SRP、PRJNA全面解析)

    很多时候我们需要从GEO(https://www.ncbi.nlm.nih.gov/geo/)下载RNA-seq数据,一个典型的下载页面是https://www.ncbi.nlm.nih.gov/ge ...

  4. JAVA下载和安装详细过程

    一.下载部分: 1.登陆oracle公司的官方网站:"http://www.oracle.com/index.html" 2.将光标移动到Downloads菜单项上,并单击JAVA ...

  5. Mac系统下载安装sublime3详细过程

    不管是Linux操作系统还是mac操作系统,sublime都是程序员们钟爱的IDE.下面总结一下自己在Mac安装sublime的过程. 现在可用sublime3,下面我也以sublime3的下载安装过 ...

  6. MySQL8下载压缩包安装详细过程

    一.下载mysql https://www.mysql.com/ 在该页面的最下面,点击箭头指的地方 下载你需要的压缩包  二.安装 1.首先将压缩包进行解压(比如,我将解压文件路径为D:\sofew ...

  7. virtualbox的下载和安装详细过程

    一.下载virtualbox 官网下载地址:Oracle VM VirtualBox 步骤一:进入官网后点击Downloads(下载) 步骤二:然后点击windows hosts(视窗主机),下载好后 ...

  8. Python_爬虫数据存入数据库(超详细过程

    目录 一.新建项目 二.程序的编写 三.数据的爬取 一.新建项目 1.在cmd窗口输入scrapy startproject [项目名称] 创建爬虫项目 接着创建爬虫文件,scrapy genspid ...

  9. GEO数据库数据下载方法总结

    GEO数据下载 GEO是生信分析经常用到的数据库.经常需要从中获取表达矩阵,平台信息,meta信息等,本博文总结了几种下载GEO数据的方法,各有优劣,实际应用过程中自行选择适合自己的. 方法一:直接从 ...

最新文章

  1. java与fabric区块链--fabric-ca-server 注册---(3)
  2. JRE、JVM和JDK
  3. 反射的本质——元数据
  4. python发挥程度_你为什么用 Python?
  5. Oracle RESETLOGS 和 NORESETLOGS 区别说明
  6. 焦作一中高考成绩查询2021,2021年焦作高中学校排名及录取分数线排名
  7. 数据权限设计(原创)
  8. css打印适应纸张_从生态平衡到打印机故障分析
  9. c语言圆周率计算_C语言入门这一篇就够了
  10. Log4j未平,Logback 又起,再爆漏洞。
  11. 研究CV、研究美,MMFashion开源库升级~
  12. 英特尔显示器音频_骁龙865、全球最快32寸显示器、高达联名路由……这场发布会为电竞玩家带来多少高科技?...
  13. ssh: Could not resolve hostname gitcafe.com: nodename nor servname provided, or not known
  14. 已知后序与中序输出前序(先序)
  15. h5手机端浏览器机制_h5浏览器缓存机制
  16. luogu P5290 [十二省联考2019]春节十二响 优先队列 + 启发式合并
  17. vue.js 多页 php,vue-cli创建的项目,配置多页面的实现方法
  18. TensorFlow 2.0官方风格与设计模式指南
  19. 通过二进制头识别文件类型
  20. 2020手机的像素密度ppi排行_5g手机排行榜最新2020年11月5g手机性价比排行榜

热门文章

  1. LINUX 上的 Shebang 符号(#!)
  2. Python 使用readability 提取网页标题
  3. Amazing Slide(图片轮播制作工具)中文版
  4. sql语句列名为变量(Spring Boot+mybitis实验环境)
  5. .NET MVC 学习笔记(一)— 新建MVC工程
  6. LeetCode 795. Number of Subarrays with Bounded Maximum
  7. texlive2015+texstudio
  8. 【MongoDB】嵌套数组查询方案
  9. 《OpenGL超级宝典第5版》学习笔记(一)—— 第一个OpenGL程序
  10. 月光博客 - 再谈软件保护中软加密和硬加密的安全强度