目录

  • 1.GEO数据库简介
  • 2.从GEO数据库下载数据
    • 2.1使用GEOquery包从GEO数据库下载数据
    • 2.2了解下载函数返回的对象
    • 2.3ExpressionSet对象简单讲解
  • 3.芯片基础知识
    • 3.1基础介绍
    • 3.2illumina的bead 系列表达芯片扫盲

1.GEO数据库简介

NCBI Gene Expression Omnibus(GEO)是一个存储各种高通量实验数据的公共数据库。这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。网址:https://www.ncbi.nlm.nih.gov/geo/

series:GSE数量
platforms:各个公司出的各种芯片 各种测序仪
samples:样品数
可以点击overview查看具体信息

比如在首页搜索GSE42872,可以看到下列对应信息:
点击图一的GPL6244可以得到图二,可以看到芯片信息:

图二左滑可以得到图三,gene_assignment里能够看到基因对应的真正基因名,就可以利用R中字符串切割,提取这些基因名。


有时候会看到一个GSE里有三个芯片,根据生信技能树这篇文章: http://www.biotrainee.com/forum.php?mod=viewthread&tid=470的说明,可以具体查看芯片的信息,选择基因改变最显著的那个平台的表达矩阵进行后续分析。

四个概念:

  • GEO Platform (GPL) 芯片平台
  • GEO Sample (GSM) 样品ID号
  • GEO Series (GSE) study的ID号
  • GEO Dataset (GDS) 样品整合的数据集的ID号

一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。

参考文章:

  1. 解读GEO数据存放规律及下载,一文就够
  2. 芯片基础知识打卡
  3. illumina的bead 系列表达芯片扫盲

2.从GEO数据库下载数据

2.1使用GEOquery包从GEO数据库下载数据

参考文章链接: http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html,学习使用方法,获取所有芯片探针与gene的对应关系。

下载GEOquery包

BiocManager::install("GEOquery")
library(GEOquery)

getGEO函数

#根据GDS号下载数据 下载soft文件
gds858<-getGEO('GDS858',destdir=".")#根据GPL号下载的是芯片设计的信息
gpl96 <- getGEO('GPL96', destdir=".") #据GSE号下载数据,下载_series_matrix.txt.gz
gse1009 <- getGEO('GSE1009', destdir=".")#destdir:指定下载地址 默认是工作目录
#GSEMatrix:TRUE下载Matrix文件 F下载soft文件
#AnnotGPL:T下载注释文件 F不下载
#getGPL:TRUE 下载GPL注释文件 F不下载

2.2了解下载函数返回的对象

1.查看下载GDS返回的对象 soft文件

#Table(gds858) 可以得到表达矩阵
#Meta(gds858) 可以得到描述信息
#suppressMessages 代码检查
#soft文件下载很慢 可以选择AnnotGPL和getGPL都为F 只获得expression setoptions(warn=-1) #不显示报错信息
suppressMessages(library(GEOquery))
gds858 <- getGEO('GDS858', destdir=".")
names(Meta(gds858)) #列出所有列名即描述信息
Table(gds858)[1:5,1:5]

2.查看下载GSE返回的对象 _series_matrix.txt.gz文件

gse1009 <- getGEO(‘GSE1009’, destdir=“.”)

gse1009就是expression set 对象,处理函数有:geneNames/sampleNames/pData/exprs。

3.查看下载GPL返回的对象 soft文件

gpl96 <- getGEO('GPL96', destdir=".")
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]

也有其他数据下载的方式,主要是GEO主页直接点击下载原始数据或者直接下表达矩阵,但会因为网速的问题出现bug,所以个人感觉这种会更方便,因为下载之后的数据就在对应文件夹,一目了然。

2.3ExpressionSet对象简单讲解

exprs():提取表达矩阵
pData():查看该对象的分组信息

ExpressionSet对象简单详解

3.芯片基础知识

3.1基础介绍

基因芯片也叫DNA芯片、生物芯片、微阵列,能够获得大量基因表达图谱的高通量技术。

DNA芯片原理与生物学中Southern杂交等试验技术相似,都是利用DNA双螺旋序列的互补性,即两条寡聚核苷酸链碱基之间形成氢键互补配对。

DNA芯片通常以尼龙、玻璃、塑料、硅片等为基质材料,固着特定序列DNA单链探针Oligo,并与被检测序列单链cDNA序列互补结合,即杂交。被检测序列用生物素或荧光染链标记,通过荧光染料信号强度可以推算每个探针对应的样品量,即样本中该mRNA水平的高低。一张DNA芯片,可以固着成千上万个探针。

根据制备方法,DNA芯片主要可以分成三类:

  • 利用机械装置将cDNA序列或者其他PCR产物点在芯片上作为探针;
  • 利用机械装置将事先合成的寡核苷酸链序列点在芯片上作为探针;
  • 不事先合成寡核苷酸链,而直接在芯片上通过原位合成技术同时合成所有探针。

DNA芯片主要检测的指标就是基因表达产生的mRNA含量,通过将提取的总mRNA反转录为cDNA并杂交到具有不同基因探针的DNA芯片上,就可以得到不同基因在不同条件、不同发育阶段下的表达情况。被排列成矩阵的DNA片段通常称为探针,而样本RNA则被成为靶标。

即基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从而寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学功能层面上的意义。

DNA芯片实验步骤:

  1. 准备杂交样品,一般分别从样品细胞和对照细胞中提取;
  2. 提取的mRNA通过反转录得到更稳定的cDNA,这个过程中分别对样品细胞和对照细胞加入不同荧光染料(双色芯片实验)或者生物素(单色芯片实验)进行标记;
  3. 两种样品同时杂交到制作好的芯片上,芯片上每个点都与分别标记有两种不同荧光的样品竞争结合;
  4. 通过激光扫描仪器可以获得每个点的荧光强度,荧光强度范围为0~65536(216)。这个步骤中应注意实际荧光强度测量值是可以调节的,应该有意识控制大多数样品荧光强度处在总体范围中间偏上位置,太高易产生太多过饱和值,强度超过上限(通常为65536),扫描仪器无法测量;太低则容易受随机误差干扰。例如,若随机误差强度为50,则信号强度为100,则信噪比过低;反之,若信号强度为10000,信噪比大大加强;
  5. 整合两种不同颜色强度可得到虚拟图谱,绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达。

需要注意的是杂交强度不仅代表基因表达水平实际差异,还可能受非特异性杂交影响。为尽量排除这种因素,Affymetirx芯片中设计了不匹配核苷酸探针作矫正依据。此外,染料效率不同带来的系统误差需用均一化方法进行矫正。

芯片技术的两种基本方法:

  • 单染色技术
    将一个样本经一种荧光标记后单独杂交到一张芯片上,是目前使用最多的方法。将一个样本单独与一张芯片杂交,可以方便简单地在多张芯片之间进行比较。
    产生的芯片数据为单通道信号数据,这种方法产生的数据变异大,需要通过重复实验来减少误差。
  • 双染色技术
    把两个样本用不同荧光标记后一起杂交到同一张芯片上。用于检测两种不同条件下基因表达的差异情况,如疾病组织和正常组织(往往多个正常组织DNA混合在一起,作为"pool"样本),处理组与对照组。两个样本(如处理与对照)被两种不同荧光标记。一个样本的cDNA用Cy5(一种显示为红色染料)标记,另一个样本用Cy3(一种显示为绿色的染料)标记。这两种荧光标记的样本混合后与芯片上的探针竞争杂交。
    这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较,有助于减少数据变异性,提高组间差异表达分析的准确性,同时减少了芯片的使用量,节约了成本。但由于使用这种技术已经确定好了实验设计,就无法与其他样本进行比较了。

芯片公司:

  • Affymetric公司
  • Agilent公司
  • Illumina公司

芯片分析软件:

  1. GeneSpring 优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础。

  2. BRB-Array 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定专业基础。

  3. R-Bioconductor 优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有最新的分析算法和工具包,免费下载使用。缺点:需要有一定计算机编程能力。

参考文章:
基因芯片技术介绍
芯片基础知识打卡

3.2illumina的bead 系列表达芯片扫盲

参考文章:
illumina的bead 系列表达芯片扫盲
Bioconductor官网

GEO数据库学习一(简介 数据下载 芯片知识)相关推荐

  1. GEO数据库中单细胞测序数据下载

    首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号. 用户 ...

  2. GEO数据库学习二(ID转换)

    上一节记录了如何下载数据,这一节学习id转换,主要是探针对应到symbol,其中表达矩阵的行是探针id,列是样品id,ids的列是探针id和symbol,我们的目的是利用探针id,将二者对应起来. 1 ...

  3. seurat 与geo geo单细胞导入seurat实战 数据下载 数据分析 scrna-seq

    前面jimmy老师分享了两个祖传的单细胞转录组数据分析代码,非常给力,是标准流程: 祖传的单个10x样本的seurat标准代码 祖传的单个10x样本的seurat标准代码(人和鼠需要区别对待) 其中有 ...

  4. mysql服务remove失败_《MySQL数据库》MySql简介、下载与安装

    一.MySQL的简介 MySQL,是一个关系型数据库管理系统,它是由瑞典MySQL AB公司开发的产品,之后被Sun公司收购:在2009年4月20日,Sun公司被Oracle公司收购:从此MySQl属 ...

  5. GEO数据库学习三(了解表达矩阵)

    上一节已经成功进行了id转换,这一节主要是了解表达矩阵,通过绘图等参数判断表达矩阵是否正确.首先需要根据上一节过滤的探针,我们需要把exprSet表达矩阵的行名(探针id)换成基因名,处理完之后表达矩 ...

  6. 如何系统性掌握深度学习中的数据使用

    数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派. 今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升. 文/编辑 | 言有三 ...

  7. 数据挖掘学习笔记——GEO数据库:芯片数据分析

    数据挖掘 数据挖掘学习笔记--GEO数据库:芯片数据分析 文章目录 数据挖掘 一.芯片基础知识 1.1.背景 二.GEO数据库概述 2.1.基础简介 2.2.检索页面展示 三.GSE项目的三种下载方式 ...

  8. 公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

    欢迎关注"生信修炼手册"! 在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程 公共 ...

  9. 用GEOquery从GEO数据库下载数据

    用GEOquery从GEO数据库下载数据 Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来 ...

最新文章

  1. 深入理解c#(第三版)(文摘)
  2. War of Inazuma (Easy Version) 阅读理解-n维超立方体-二进制-longlong右移32位
  3. VR与游戏完美结合?斯皮尔伯格导演的《玩家一号》发布预告片
  4. C语言实现-双链表练习
  5. Windows下安装Python模块时环境配置
  6. 微信小程序开发--【Hello World 及代码结构】(二)
  7. 车牌分割python_Python实现车牌定位及分割
  8. 笔记本可以连wifi,但很卡或者无法访问互联网的一种解决方法
  9. pe卸载win10更新补丁_【pe卸载补丁】pe卸载全部补丁_pe+卸载补丁工具
  10. MM-DD-RRRR / MM-DD-YYYY 的区别【Blog 搬家】
  11. 跟任何人都聊得来---最受世界500强企业欢迎的沟通课(一)
  12. Mac出现共享网络/wifi问题
  13. macw资讯:MacOS如何隐藏、加密文件或文件夹
  14. ViTDet程序调用不了GPU全部内存,而且显示NVCC: not available
  15. 苹果修复用户位置有关的安全漏洞,苹果Find My帮你防丢
  16. swt 做界面时部分要点
  17. 淘宝足迹新玩法,如何通过足迹增加商品曝光量,打标后足迹不出解决方法,淘宝详情页的下拉出现足迹怎么实现的
  18. 计算机博士5篇sci,研究员送5篇SCI论文给女博士 SCI论文到底是啥
  19. 翻译Deep Learning and the Game of Go(10)第八章:部署你的AI
  20. 易编远航程序防封防检测方法

热门文章

  1. java ready()_Java BufferedReader ready()用法及代码示例
  2. 【已解决替代Google英文网页翻译】英文网页翻译成中文(不用额外的插件解决方法)
  3. 网页引入谷歌字体_在网页中使用Google字体
  4. linux硬件命令大全,Linux硬件信息命令大全
  5. 仿QQ空间登录,解决键盘挡住输入框的问题
  6. 使用kubeadm安装k8s
  7. “create-react-app myapp 创建失败”的总结
  8. 计算合式公式(wff) 【让你的离散作业变的更轻松】
  9. CCF-CSP 201612-1 中间数
  10. 计算机科学与实践,【计算机科学与技术学院|实践实况】(一)