GEO2R

如果出现提示,请指定GEO系列加入和平台。

单击“定义组”并输入您计划比较的样品组的名称,例如测试和控制。

将样本分配给每个组。 突出显示Sample行,然后单击组名称以将这些Samples分配给该组。 使用样本元数据(标题,源和特征)列可帮助确定哪些样本属于哪个组。

单击“前250”以使用默认设置执行计算。

结果表示为按显着性排序的基因表。 提出了前250个基因,可以将其视为轮廓图。 或者,可以保存完整的结果表。

您可以更改选项选项卡中的设置。

参考文献:

Smyth, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420.

Sean Davis and Paul S. Meltzer (2007). GEOquery: a bridge between the Gene Expression Omnibus (GEO) and BioConductor. Bioinformatics 23(14): 1846-1847..]

这里你会看到数据的总览:

GSM2268339 1772067089_A01

GSM2268340 1772067089_A02

GSM2268341 1772067089_A03

……

Supplementary file Size Download File type/resource

SRP/SRP067/SRP067844 (ftp) SRA Study

GSE76381_ESMoleculeCounts.cef.txt.gz 5.9 Mb (ftp)(http) TXT

GSE76381_EmbryoMoleculeCounts.cef.txt.gz 5.3 Mb (ftp)(http) TXT

GSE76381_MouseAdultDAMoleculeCounts.cef.txt.gz 1.0 Mb (ftp)(http) TXT

GSE76381_MouseEmbryoMoleculeCounts.cef.txt.gz 6.1 Mb (ftp)(http) TXT

GSE76381_iPSMoleculeCounts.cef.txt.gz 1001.2 Kb (ftp)(http) TXT

现在我们已经从ftp上下载了该文章的所有sra数据。

名称 大小 修改日期

[上级目录]

SRR4055063/ 2016/8/24 上午8:00:00

SRR4055064/ 2016/8/24 上午8:00:00

SRR4055065/ 2016/8/24 上午8:00:00

SRR4055066/ 2016/8/24 上午8:00:00

......

里面每一个文件夹里对应一个或多个sra文件。

比对,SRR4061391.sra文件是一个二进制文件,需要使用sra工具来转化为fastq。

转换之后的fastq如下:

@SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51

ATTCAAGGGAGTTATAAGCAGAGTCAATAATGAATTTCTTCCTGCGTCTCC

+SRR4061391.sra.1 Run0289_BC69A1ACXX_L7_T1101_C8 length=51

CCCFFFFFHDHFHIJJJJJGJIIEHHIJJJJIIIIJJIIJIJJJIJJJJJJ

@SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51

TTGATTGGGCACCTAGAAGCCAAGGACTCTCTAAGTCCTAGTCTGTTTGGT

+SRR4061391.sra.2 Run0289_BC69A1ACXX_L7_T1101_C18 length=51

CCCFFFFFHHHHHJJJGIJIIJJJJJJJJJJJJJJIIJJIIIJJJJJJJJF

可以看到,fastq文件里没有任何有价值的样品信息(物种、样品名、细胞名、组织)。

此时你只能去文章里找相关信息:

文章里真正实用的信息很少,

The molar concentrations of the libraries was determined with KAPA Library Quant qPCR (Kapa Biosystems) and size distribution was evaluated after PCR (12cycles) using an Agilent BioAnalyzer. Sequencing was performed on an Illumina HiSeq 2000 with C1-P1-PCR2 as read 1 primer and C1-TN5-U as index read primer. Reads of 50 bp as well as 8 bp index reads corresponding to the cell-specific barcodes were generated. Reads were mapped using bowtie and processed as described previously (Zeisel et al., 2015), adding the more strict criteria for UMI counting: we removed all singletons (molecules supported by a single read).

也没说太清楚,下载的数据中找不到那8bp的barcode,说明数据已经按照barcode拆好了。

Reads of 50 bp were generated along with 8 bp index reads corresponding to the cell-specific barcode. Each read was expected to start with a 6 bp unique molecular identifier (UMI), followed by 3-5 guanines, followed by the 5’ end of the transcript.

绕了一大圈,真正有价值的信息原来在引文中,所以现在的大牛真是喜欢拽,非要别人去读他之前的文章。

总结:到此,该文献的全部数据是下下来了,也已经转换为fastq,知道fastq的格式信息,但是我们还不知道没一个fastq的样品信息。

回到开始的页面,貌似有样品的信息:

GSM2268339 1772067089_A01

GSM2268340 1772067089_A02

GSM2268341 1772067089_A03

这是全部的信息:

确实是样品信息,样品编号,物种信息。

点击GSM2268340会发现一些更详细的样品信息:

Status Public on Oct 06, 2016

Title 1772067089_A02

Sample type SRA

Source name ventral midbrain

Organism Homo sapiens

Characteristics tissue: ventral midbrain

Sex: pooled male and female

age: 7w

inferred cell type: hRgl2a

总结:但是到目前我们还是找不到SRR文件的样品信息,只是找到了GSM的。

那么怎么找SRR和GSM之间的关系呢?

直接在GEO搜索SRR4061391,结果如下:

终于找到了对应关系,SRX2050530: GSM2274293: 1772096111_A02; Mus musculus; RNA-Seq

GSM2274293包含了两个SRR文件。

总结:到目前为止,已经能手动查找到下载的SRR文件对应的样品信息了。但总共有6k多个,不可能这么手动查吧。

开始科普:About GEO DataSets

Lists the DataSet (GDS), Series (GSE) or Platform (GPL) accession number, followed by title and organism.

lists the Sample accessions numbers (GSM) and titles.

GDS编号:数据集

GSE编号:系列

GPL编号:平台

GSM编号:样品登陆号

来源:https://www.cnblogs.com/leezx/p/7365947.html

linux ftp下载geo,GEO数据下载及处理详细过程相关推荐

  1. GEO芯片数据下载和探针ID转换(保姆级教程)

    GEO芯片数据下载和探针ID转换(保姆级教程) 一.问题描述 探针ID转换 数据是否预处理过 二.Rstudio的安装(建议阅读,避免后续转换时出错) 安装包的下载 安装步骤 三.(正文)芯片数据下载 ...

  2. linux ftp匿名只能下载,解决linux ftp匿名上传、下载开机自启问题

    解决linux ftp匿名上传.下载开机自启问题 如果在平时学习,工作中经常使用 FTP 服务器 ,可以设置成开机自启,在设置之前要先了解几个关于自启的命令: 1.chkconfig 命令 主要作用: ...

  3. linux 关闭开机 ftp,解决linux ftp匿名上传、下载开机自启问题

    如果在平时学习,工作中经常使用 ftp 服务器 ,可以设置成开机自启,在设置之前要先了解几个关于自启的命令: 1.chkconfig 命令 主要作用:用于检查,设置系统的各种服务.其中有几个重要参数, ...

  4. GEO数据库数据下载方法总结

    GEO数据下载 GEO是生信分析经常用到的数据库.经常需要从中获取表达矩阵,平台信息,meta信息等,本博文总结了几种下载GEO数据的方法,各有优劣,实际应用过程中自行选择适合自己的. 方法一:直接从 ...

  5. GEO数据库数据下载

    GEO(Gene Expression Ommius datasets): 该数据库搜集了大量表达谱,甲基化,lncRNA,miRNA,CNV等芯片数据 该数据信息包括了: GPL:GEO Platf ...

  6. Google Earth Engine(GEE)——全球12级流域矢量数据免费下载(含数据下载链接)

    HydroBASINS代表了一系列矢量多边形图层,在全球范围内描述了子流域的边界.该产品的目标是在全球范围内无缝覆盖不同尺度(从几十平方公里到几百万平方公里)的大小一致.分层嵌套的子流域,并由一个编码 ...

  7. Linux服务器硬盘故障后恢复数据的方法和数据恢复过程

    [数据恢复故障描述] 一台linux网站服务器,DELL R200,管理约50个左右网站,使用一块SATA 160GB硬盘.正常使用中突然宕机,尝试再次启动失败,将硬盘拆下检测时发现存在约100个坏扇 ...

  8. 【Linux】【服务器】 CentOS7下安装Redis详细过程步骤

    Linux 源码安装 一.下载地址:http://redis.io/download,下载最新稳定版本. # wget http://download.redis.io/releases/redis- ...

  9. 如何登录及使用FTP站点上传数据下载数据

    1.下载FTPRush软件 2.在最上面输入已知的FTP站点地址,端口(一般默认21),用户名和密码 3.点击FTP站点前面的 图标进行连接, 当出现如下提示时,表示连接成功 4.上传文件: (1)在 ...

  10. python电脑下载-PC端数据下载软件开发(Python)

    存储工具:阿里云->对象存储 需要将数据从云端下载到本地后再进行后续分析处理. 手动下载 需要下载的文件不多时,可以用这个方式. 依次点击:阿里云->控制台->对象存储->Bu ...

最新文章

  1. SQL内连接和左连接的区别 - 使用SQLite演示
  2. 全面收紧!继新加坡后,又一地拟暂停数据中心建设
  3. .net MVC 简单图片上传
  4. linux 临时去掉cp别名_Linux 命令别名
  5. compizconfignbsp;nbsp;中的方框…
  6. vue 毫秒数转年月日_Vue将毫秒数转化为正常日期格式的实例_盂希_前端开发者
  7. linux大io引起cpu使用率偏高,系统负载高, 但CPU使用率和IO都非常低
  8. 进度条上的小圆点怎么做_Android自定义带圆点的半圆形进度条
  9. 图像平均池化 利用pytorch对图像进行池化
  10. 【每日算法Day 98】慈善赌神godweiyang教你算骰子点数概率!
  11. 2020,我的年终总结(附优惠券)
  12. wordpress搭建 ubuntu16.04 apache2 + php7.0 + mysql
  13. Greenrobot-EventBus源码学习(四)
  14. 论文笔记:DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification
  15. TweenMax 参数说明
  16. ISO9126 软件质量模型
  17. 前端如何调用后端接口
  18. SEO每天都是动态变化的,你要关注什么?
  19. UVA207 ac心得
  20. 诡异的心理暗示?胡扯

热门文章

  1. 展讯8541E:NFC PM1810驱动调试
  2. 声卡驱动正常但就是没有声音,驱动人生解决方案
  3. 基于Python的豆瓣中文影评差评分析
  4. 梦幻西游网页版服务器互通吗,梦幻西游网页版开服伙伴
  5. 计算机毕业设计ssm高校选课系统uu27m系统+程序+源码+lw+远程部署
  6. [js高手之路]Node.js模板引擎教程-jade速学与实战1-基本用法
  7. NOIP2018 摸鱼记
  8. 32bit 天堂2服务端多机负载
  9. 速览!PCBA需要刷三防漆,如何制作治工具?
  10. 微型计算机技术试题,《微型计算机技术》试题库