从GEO数据库下载数据的方法

1、在GEO DATASETS中输入关键词,选择符合的GSE,在ftp中进行手动下载

2、找到符合的GSE,在R中使用GEOquery包进行下载

GEO数据库的数据种类

1、Platforms 平台

包含有芯片的探针信息,如cDNAs,寡核苷酸,ORFs,抗体。

以GPLxxx编号。

一个platform可以包含不同人上传的不同sample。

不同platform的数据需要分开处理。

2、Samples 样品

一个以独立方式处理的样品。

以GSMxxx编号。

一个sample只能包含于一个platform,一个sample可以包含于多个series。

3、Series 系列

一个Series就是一个study。

以GSExxx编号。

一个系列一定包含多个sample,可能包含多个platform。

不同platform的数据需要分开处理。

4、Datasets 数据集

数据集包含有被summiter处理过的数据,可以使用GEO数据库自带的tools进行分析,如differentiated gene expression, cluster, heatmap。

以GDSxxx编号。

一个dataset的sample来自同一个platform,因此彼此间具有可比性。

范例

  • gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件

  • gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息!

  • gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根据GSE号下载数据,下载_series_matrix.txt.gz

下载GDS返回的对象

gds858返回的对象很复杂

用Table(gds858)可以得到表达矩阵!

用Meta(gds858)可以得到描述信息

names(Meta(gds858))
Table(gds858)[1:5,1:5]

可以用 GDS2eSet 函数把它转变为 expressionset

下载GSE返回的对象

GPLList函数查看GPL信息

处理函数有:geneNames/sampleNames/pData/exprs

用命令

gsmplatforms <- lapply(GSMList(gse), function(x) {Meta(x)$platform_id})
head(gsmplatforms)

查看GSM对应的GPL信息

用命令

gsmlist = Filter(function(gsm) { Meta(gsm)$platform_id=='GPLXX'},GSMList(gse))

提取GPLXX对应的样本(有些实验涉及到不同平台的样品)。

下载GPL返回的对象

根据GPL号下载返回的对象跟GDS一样,也是用Table/Meta处理!

还可以下载cel原始文件!

tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}

参考:

1、用GEOquery从GEO数据库下载数据

2、Using the GEOquery Package

3、GEOquery Reference Manual

芯片数据分析步骤1 芯片数据下载-GEO相关推荐

  1. 芯片数据分析步骤6 探针注释

    注释探针 注释探针的原因 为了防止非特异性结合造成的干扰,芯片厂商往往会使用多个探针检测同一个基因的表达.因此,芯片厂商不会使用基因名作为探针的名称,而是使用自己定义的探针名称.要合并重复探针,我们必 ...

  2. 高通量芯片数据分析:转录组芯片数据分析

    利用R的bioconductor包进行分析.由于安装的是R3.5以上版本所以实际用的是用biomanager指令,其他基本一样. 不同的包有各类坑,具体可以查阅bioconductor官网寻找解决办法 ...

  3. 用R和BioConductor进行基因芯片数据分析(四):芯片内归一化

    接前一篇: 用R和BioConductor进行基因芯片数据分析(三):计算median 归一化是从normalization翻译过来的.归一化的目的是使各次/组测量或各种实验条件下的测量可以相互比较, ...

  4. 芯片分析步骤1 芯片数据下载-ArrayExpress

    从ArrayExpress数据库下载数据的方法 1.在ArrayExpress Search中输入编号或是关键词,选择符合的Accession,在ftp中进行手动下载,或是在R中用ArrayExpre ...

  5. GEO数据库数据下载方法总结

    GEO数据下载 GEO是生信分析经常用到的数据库.经常需要从中获取表达矩阵,平台信息,meta信息等,本博文总结了几种下载GEO数据的方法,各有优劣,实际应用过程中自行选择适合自己的. 方法一:直接从 ...

  6. TRMM降水数据下载步骤

    文章目录 1 TRMM数据下载地址 2 TRMM数据下载步骤 2.1 用户登陆 3.2 选择数据 3.3 数据选择结果 TRMM数据下载地址和下载步骤.更多数据下载地址详见:地学常用数据及其下载地址. ...

  7. LiDAR数据下载步骤

    文章目录 1 LiDAR数据下载地址 2 LiDAR标准数据集下载步骤 3 OpenTopography数据下载步骤 LiDAR数据下载地址和下载步骤.更多数据下载地址详见:地学常用数据及其下载地址. ...

  8. GEO数据库学习一(简介 数据下载 芯片知识)

    目录 1.GEO数据库简介 2.从GEO数据库下载数据 2.1使用GEOquery包从GEO数据库下载数据 2.2了解下载函数返回的对象 2.3ExpressionSet对象简单讲解 3.芯片基础知识 ...

  9. GEO芯片数据下载和探针ID转换(保姆级教程)

    GEO芯片数据下载和探针ID转换(保姆级教程) 一.问题描述 探针ID转换 数据是否预处理过 二.Rstudio的安装(建议阅读,避免后续转换时出错) 安装包的下载 安装步骤 三.(正文)芯片数据下载 ...

  10. 数据挖掘学习笔记——GEO数据库:芯片数据分析

    数据挖掘 数据挖掘学习笔记--GEO数据库:芯片数据分析 文章目录 数据挖掘 一.芯片基础知识 1.1.背景 二.GEO数据库概述 2.1.基础简介 2.2.检索页面展示 三.GSE项目的三种下载方式 ...

最新文章

  1. 数据中心业务价值永续的密码——施耐德电气全生命周期服务
  2. 成功解决PermissionError(权限拒绝解决答案集锦): [Errno 13] Permission denied: ‘f:\\program files\\python\\python36\
  3. 全球及中国抗痛风剂行业发展调研及投资可行性评估报告2021-2027年版
  4. wcg总决赛_关于总决赛
  5. What code you will get when you create a wcf library
  6. MapReduce程序之数据排序
  7. 谈论源码_为什么每个人都在谈论WebAssembly
  8. 解决libstdc++.so.6: version `GLIBCXX_3.4.22' not found
  9. 黑客如何让脚本定时执行
  10. matlab迭代算法实例_智能优化算法及其MATLAB实例-免疫算法笔记
  11. 2012网页设计趋势(上)
  12. mysql及格率70以上_数据库实例(统计最高分学生信息,不及格率等等)
  13. Linux系统下ROMS安装流程与例程运行
  14. win7中office2016版的word在非管理员账户时无法插入页码问题解决记录
  15. java json 长度限制_tomcat解决POST请求过长的限制
  16. R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、并根据模型系数写出回归方程、使用resid函数或者residuals计算出模型的残差值
  17. 射频微波芯片设计5:电源旁路电容为何选择0.1uF 10uF?
  18. 集美大学计算机工程学院学业预警,学业预警
  19. 10款Java小游戏(详解+源码)
  20. 公告(通告),消息,提醒等基本功能数据库表设计

热门文章

  1. 机器学习之信用卡诈骗案例总结
  2. Java中的Math函数常用方法总结
  3. Javascript特效之向左滚动的广告
  4. Invalid parameter passed to C runtime function
  5. Youtube 开发通过遥控机控制实现快进快退功能
  6. SSL P2133 腾讯大战360
  7. 关于瀚高数据库的适配
  8. 【UE5】使用快捷键切换编辑器中英文设置
  9. java SE部分以及数据库学习笔记
  10. WiFi 802.11可调参数说明---分片阈值(fragmentation threshold)