包从文章目录

生信分析第一步:R语言基础应用以及数据前处理

文章目录

  • R包下载
  • 使用GEOquery包下载原始数据
  • 芯片数据读取
  • GEOquery 下载并读取数据
  • 提取GEO表达矩阵
  • 提取GEO注释信息
  • 提取GEO芯片样本及临床信息

前言

用最精简的代码展示生信分析的全部流程


使用GEOquery 下载并读取数据

在R里使用GSE号和GEOquery包从GEO数据库上直接下载是最推荐使用下载方式

代码框一为精简模式。使用以上代码就可以将GSE42872数据下载到R里当前工作目录并赋值给eSet,下载完成后要注意检查数据文件的完整性

代码框二为各种较为复杂的情况。

library(GEOquery)
eSet <- getGEO("GSE42872", destdir = '.',  #下载在当前目录getGPL = F) #平台信息不要

1 加载包 ----
library(GEOquery)# 需引用的文献
citation(package = "GEOquery") 2 getGEO 含单个数据集 GSE5327
GSE5327_1 <- getGEO(GEO = "GSE5327", destdir = "geo", getGPL = F)
GSE5327_11 <- GSE5327_1[[1]]当已经下载好了series_matrix文件的时候可以用如下代码读取,避免了一步提取的步骤
GSE5327_2 <- getGEO(filename = "geo/GSE5327_series_matrix.txt.gz", getGPL = F)pd_GSE5327 <- pData(GSE5327_2)
#观察临床信息中的data processing,Microarray suite,MAS 5.0,即标准化方法,如果已经经过了MAS,一般情况下不需要再标准化了,避免矫枉过正3 当getGEO 含两个数据集 GSE3494 ----GSE3494_geo <- getGEO(GEO = "GSE3494", destdir = "geo", getGPL = F)
names(GSE3494_geo)expr_GSE3494_1 <- exprs(GSE3494_geo[[1]])
expr_GSE3494_2 <- exprs(GSE3494_geo[[2]])# GSE3494_geo_2 <- getGEO(filename = "geo/GSE3494_family.soft.gz", getGPL = F)
#读取soft格式的文件也不常用
#当确实没有series matrix格式的时候,只有soft格式的时候就不得不用soft格式GSMs <- names(GSE3494_geo_2@gsms)# tmp <- lapply(1:251, function(i) {
#   GSE3494_geo_2@gsms %>%
#     .[[i]] %>%
#     .@dataTable %>%
#     .@table %>%
#     select(1, 2) %>%
#     mutate(GSM = GSMs[i])
#   }) %>%
#   bind_rows() %>%
#   pivot_wider(names_from = GSM,
#               values_from = VALUE) %>%
#   arrange(ID_REF) %>%
#   column_to_rownames("ID_REF") %>%
#   as.matrix()head(tmp)[, 1:6]4 getGSEDataTables ----
用于下载geo页面的表格
GSE3494_table <- getGSEDataTables("GSE3494")summary(GSE3494_table)5 直接读取 GSE169267GSE169267 <- read_tsv("geo/GSE119267_processed_data.txt")6 getGEO GPL6480 ----## AnnotGPL = T,用的是.gz的文件
GPL6480_1 <- getGEO("GPL6480", destdir = "geo", AnnotGPL = T)
GPL6480_11 <- Table(GPL6480_1)## AnnotGPL = F,用的是.soft的文件
GPL6480_2 <- getGEO("GPL6480", destdir = "geo", AnnotGPL = F)
GPL6480_21 <- Table(GPL6480_2)7 getGEOSuppFiles ----
## 直接下载文件到当前工作目录下
getGEOSuppFiles("GSE29450", makeDirectory = F, baseDir = "geo")## 仅获取下载链接
url_GSE29450 <-getGEOSuppFiles("GSE29450", fetch_files = F, makeDirectory = F)
url_GSE29450$url#### END

使用GEOquery 下载并读取数据相关推荐

  1. matlab读取心电注释.qrs文件格式,MIT-BIH ECG 心电数据的下载和读取图解 - 晨宇思远 - CSDN博客...

    MIT-BIH ECG 心电数据的下载和读取图解 收藏 一.如何下载获取MIT-BIH的数据 从下面这个官方链接页面可以下载到所有48组MIT-BIH心电数据: 下面这个链接是MIT-BIH数据库的详 ...

  2. CTU-UHB Intrapartum Cardiotocography Database 产时CTG信号数据下载与读取(2021.7.9 新增阿里云盘下载)

    目录 CTU-CHB Abstract Data Description Acknowledgements 正文 数据读取 MATLAB代码 数据整理 注意! CTU-CHB 首先说明一下什么是CTU ...

  3. SCS【3】单细胞转录组数据 GEO 下载及读取

    点击关注,桓峰基因 今天来介绍一下GEO单细胞转录组下载数据以及整理,单细胞测序的原理以及数据结果都与bulk测序的方式有一定的差距,所以我们单独说一下. 桓峰基因的教程不但教您怎么使用,还会定期分析 ...

  4. OCO-2、OCO-3卫星数据下载、读取与可视化(适合初学者)

    OCO-2.OCO-3卫星数据下载.读取与可视化(适合初学者) 有关OCO系列数据的下载方法已经有一些同行做了比较详细的解答了,这篇博文主要记录我读取及可视化此数据的过程.因为博主自身编程能力不强并且 ...

  5. python读取哨兵卫星数据_科学网—【Python】批量下载Sentinel-2卫星数据 - 江佳乐的博文...

    简介:本文介绍了一种基于Python批量下载Sentinel-2卫星数据的方法.通过该方法,用户可自定义感兴趣研究区(ROI).限定时间范围.选择产品类别.进行云量筛选,实现自动化批量下载Sentin ...

  6. sex 无需下载_js读取本地json格式文件数据的几种实现方法,内有vue读取json示例代码。...

    方法一:通过getJSON实现 getJSON是jquery提供的读取json格式文件的方法 首先我们将html中引入jquery,可以通过百度CDN引入,代码如下: 然后就可以在script中使用g ...

  7. 《Clojure数据分析秘笈》——1.6节从JDBC数据库读取数据

    本节书摘来自华章社区<Clojure数据分析秘笈>一书中的第1章,第1.6节从JDBC数据库读取数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区"华章社 ...

  8. cdatabase读取excel第一行数据_“蟒蛇”py对Excel的读取——数据操作用它,老板都得重新认识你...

    在python自动化中,经常会遇到对数据文件的操作,比如添加多名员工,但是直接将员工数据写在python文件中,不但工作量大,要是以后再次遇到类似批量数据操作还会写在python文件中吗? 应对这一问 ...

  9. python读数据-如何用 Python 读取数据?

    原标题:如何用 Python 读取数据? 这是林骥的第 36 篇文章 1. 序言 读取数据往往是做数据分析的第一步,本文没有讲那些艰涩难懂的概念,只有一些问题的解决方案,当你遇到类似的问题的时候,可以 ...

最新文章

  1. java.util.concurrent.Callable 接口 源码
  2. 香港计算机本科专业,中国香港计算机本科专业包含哪些呢?
  3. java 文件md5校验_Java 获取 文件md5校验码
  4. 【五线谱】拍号与音符时值 ( 五线谱拍号 | 全音符休止符 | 二分音符休止符 | 四分音符休止符 | 八分音符休止符 | 十六分音符休止符 | 三十二分音符休止符 )
  5. 二叉树的四种遍历方法:前序、中序、后序、层次
  6. Java中使用Jacob实现Windows下语音合成并生成音频文件
  7. 完全卸载HDP和Ambari
  8. java 分页原理_关于javaweb分页原理
  9. java office web apps_应用程序与 Office Web Apps 整合
  10. nuxt打包路劲问题_简述Nuxt.js
  11. 某企业虚拟化平台时间同步异常排查
  12. fasfdfs安装记录(CentOS7)
  13. 中亿验钞机升级_最前线|火山小视频升级为抖音火山版,抗衡快手火力更足了吗?...
  14. mysql源码解读——事务管理
  15. 计算机辅助设计1(PS)期末考核试题,福师《计算机辅助设计1(PS)》期末试卷A卷...
  16. 浙大python网_Python爬虫学习(7):浙大软院网号嗅探
  17. 强化学习入门项目 Spinning up OpenAI (1) installation
  18. 深入理解 OpenStack Neutron:VXLAN
  19. 搞数仓也得懂几个常用机器学习算法
  20. 【C++】洛谷P1330 封锁阳光大学

热门文章

  1. AFNetworking理解:
  2. 详细设计说明书--文档模板
  3. git版本回退的最佳操作
  4. 查看内存大小时解决的单位问题
  5. java 队列 抢购_使用Redis实现抢购的一种思路(list队列实现)
  6. 天猫精灵打开电脑 语音控制电脑
  7. 接口测试,利用charles修改app的任意字段
  8. 机器学习模型什么时候需要做数据标准化?
  9. # R语言——约瑟夫环
  10. krpano 常用标签