学习章节

https://bioconductor.github.io/BiocWorkshops/public-data-resources-and-bioconductor.html

文章目录

  • 学习章节
    • 学习目标
    • 需要预先准备的R包
  • 1. GEOquery
    • 1.1 Overview of GEO
    • 1.2 GEOquery的使用案例:MDS plot of cancer data
    • 1.3 Accessing Raw Data from GEO

学习目标

  • 学会使用Bioconductor包去获取并操作公共数据库中的数据
  • 包括GEO(Gene Expression Omnibus ),SRA(Sequence Read Archive),GDC(Genomic Data Commons ),存储在Bioconductor上的宏基因组数据,药物基因组数据( PharmacoDB)以及癌症基因组数据

需要预先准备的R包

library(GEOquery)
library(GenomicDataCommons)
library(SRAdbV2)
library(curatedTCGAdata)
library(curatedMetagenomicData)
library(HMP16SData)
library(PharmacoGx)

1. GEOquery

NCBI Gene Expression Omnibus (GEO)是一个公共存储库,它存储了大量的高通量的实验数据。这些数据包括基于芯片的单通道和双通道实验数据,例如:mRNA表达数据、基因组DNA数据和蛋白质丰度数据。它也包含了非芯片技术产生的数据,例如基因表达序列分析(SAGE)数据、质谱蛋白质组数据和高通量测序数据。 GEOquery 是Bioconductor中用于获取GEO数据的R包。

1.1 Overview of GEO

GEO数据库由4个板块构成,前三个(Sample, Platform, and Series)由用户提供;后一个(datasets)数据集,由GEO工作人员根据用户提供的数据进行整合管理。

注:GDS已经停止提供了

1.2 GEOquery的使用案例:MDS plot of cancer data

使用GEOquery包中的 **getGEO**函数即可快速获取GEO的数据

  • 本次案例数据来源:https://doi.org/10.1158/1055-9965.EPI-17-0461

背景:肿瘤微环境是影响肿瘤免疫治疗反应的重要因素。为了进一步了解肿瘤如何影响局部免疫系统,我们分析了匹配正常组织和肿瘤组织之间的免疫基因表达差异。方法:我们分析了来自实体癌症和分离免疫细胞群的公开的和新的基因表达数据。我们还确定了CD8、FoxP3免疫组化和我们的基因签名之间的相关性。结果:调节T细胞(Tregs)是正常组织和肿瘤组织免疫基因表达差异的主要驱动因素之一

  • 本次案例涉及练习

    • 使用GEOquery获取公共组学数据
    • 将公共组学数据转换为 SummarizedExperiment 对象
    • 可视化这些公共数据
# download data from GEO
gse = getGEO("GSE103512")[[1]]# convert the old ExpressionSet structure to the newer SummarizedExperiment
library(SummarizedExperiment)
se = as(gse, "SummarizedExperiment")# Examine two variables of interest, cancer type and tumor/normal status.
with(colData(se),table(`cancer.type.ch1`,`normal.ch1`))# Filter gene expression by variance to find most informative genes.
sds = apply(assay(se, 'exprs'),1,sd)
dat = assay(se, 'exprs')[order(sds,decreasing = TRUE)[1:500],]# Perform multidimensional scaling and prepare for plotting
# make a data.frame before plotting
mdsvals = cmdscale(dist(t(dat)))
mdsvals = as.data.frame(mdsvals)
mdsvals$Type=factor(colData(se)[,'cancer.type.ch1'])
mdsvals$Normal = factor(colData(se)[,'normal.ch1'])
head(mdsvals)# do the plot
library(ggplot2)
ggplot(mdsvals, aes(x=V1,y=V2,shape=Normal,color=Type)) + geom_point( alpha=0.6) + theme(text=element_text(size = 18))

1.3 Accessing Raw Data from GEO

背景:NCBI GEO accepts (but has not always required) raw data such as .CEL files, .CDF files, images, etc. It is also not uncommon for some RNA-seq or other sequencing datasets to supply only raw data (with accompanying sample information, of course), necessitating Sometimes, it is useful to get quick access to such data

我们可以使用 getGEOSuppFiles() 函数获取raw data(以GEO的Accession number作为参数,例如:GSE12387等等)。 默认情况下,这个函数会在当前的工作目录下自动创建一个文件夹,来存储用户选择下载的raw data。

【生信进阶练习1000days】day13-GEOquery相关推荐

  1. 生信识图之 点图进阶-3(MA)

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 对于"诈尸式"更新,大Y ...

  2. 生信识图之 点图进阶-6(UMAP)

    各位亲爱的土豪富婆,见字如面. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 春天来啦,又到了--考研计划的时候.大Y老师不是会把咱们公众号的更新陆续同步到知乎上 ...

  3. 生信识图之 点图进阶-4 (PCA下篇)

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. 近期有朋友说发现有人抄袭咱们的文章,自标为"原创".对此大Y老师有心理准备,咱们的每一篇文章都是大Y老师仔细 ...

  4. 生信识图 之 点图进阶-1

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 大Y老师做生信分析十多年了,在此期间结识很多 ...

  5. 生信宝典教程大放送,一站式学习生信技术

    生物信息学包含生物数据分析.数据可视化.重复工作程序化,是生物.医学科研必备的技能之一.生信宝典精心组织生信学习系列教程.生信工具精品教程,通过大量的生信例子.关键的注释.浓缩的语句和录制的视频帮助快 ...

  6. 送书 | 知乎阅读300w+的生信学习指南(更新版)

    先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...

  7. 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  8. 生信和植物领域最新资讯合集

    宏基因组/微生物组是当今世界科研最热门的研究领域之一,中科院科研人员创立"宏基因组"公众号,入选科研圈评选"2019年度学术媒体优质公众号联合海内外同行共同打造本领域纯干 ...

  9. camunda流程定义表无数据_[Python04] 学习snakemake,三步轻松搭建生信流程!

    随着学习的不断深入,分析的数据越来越多.你会发现,日常生信分析不过是调用一些相同的函数或者包分析不同的数据,换汤不换药. 那么,如何把分析过程流程化,让数据像工厂的流水线一样自动被处理? 最简单的法子 ...

  10. 生信分析和统计作图资源推荐

    宏基因组/微生物组是当今世界科研最热门的研究领域之一,中科院科研人员创立"宏基因组"公众号,入选科研圈评选"2019年度学术媒体优质公众号联合海内外同行共同打造本领域纯干 ...

最新文章

  1. 使用OpenCV实现摄像头测距
  2. python 网站 源码_在线浏览美图源码,附带python源码
  3. 中国量子云计算机,量子云平台“中国版”拉开帷幕:国际首个基于核磁共振的量子计算云平台 | Science Bulletin...
  4. intention lock_写作技巧:你写出来的情节有用吗?好情节的原则——LOCK系统
  5. 深度linux安装make,linux下安装python3完整教程(依赖环境gcc,make,cmake,configure等详细解释)...
  6. 求和符号上下的值怎么打_Excel快速求和的N种方法,一网打尽
  7. Notepad++ 查找替换 换行符的方法
  8. 型管件的作用_W型柔性铸铁排水管适用范围
  9. linux系统在物流公司的z作用,【项目案例】基于RFID的智能物流仓储系统
  10. java请求超时异常捕获_我异常了,快来捕获我,Java异常简述
  11. 使用iMazing创建配置文件时的几个重要首选项组
  12. 【机器学习笔记之八】使用朴素贝叶斯进行文本的分类
  13. PKM2 - PKManager (基于内容的个人知识管理工具) 5M 绿色免费
  14. python 安装talib模块
  15. 路由器开发相关知识总结 —— 光口和电口
  16. ndo入mysql的一些优化
  17. 神奇的BUG——MATLAB之1
  18. 安装卸载Xftp时,遇到的1605和1628问题
  19. 资产管理系统有哪些功能模块和作用
  20. dede图片上传php,织梦cms增加栏目(栏目图片)上传缩略图功能

热门文章

  1. RH124 Chapter 2 Managing Files From the Command Line
  2. Flash,EEPROM差别
  3. lua-TestMore(转)
  4. 《Java程序设计语言(第4版)》阅读笔记(1)
  5. ERP实施的焦点依然是实施顾问
  6. jdbcTemplate注入过程
  7. 计算机平面设计与工程论文,计算机平面设计毕业论文
  8. nodejs升级命令_又一阵后浪:横空出世的Deno会取代NodeJS吗?
  9. android 前后台,Android App前后台监控
  10. linux fb设备驱动,Linux FB 驱动讲解