高通量、全基因组的DNA芯片已经成为生物领域十分有用的工具。然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用。

基因芯片分析目的

  • 基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从中寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学的或功能层面上的意义。

  • 根据芯片的使用目的,一张芯片可能包含数十、数百甚至数十万的不同序列。被排列成矩阵的DNA片段通常称为探针,而样本RNA则被成为靶标

基因芯片原理

基本的芯片实验中,样本mRNA首先被反转录成cDNA(在过程中同时被荧光标记),后与芯片上的核酸探针混合互补杂交的cDNA就结合到芯片上,而未被杂交的样本被洗脱掉。

芯片被一个荧光扫描仪扫描后,芯片上某个位置探针结合上了样本中互补的核酸,就在该位置显出了一个荧光点,此位置提示基因的身份,而荧光强度则提示了原始样本中该mRNA水平的高低。芯片技术不只用于检测基因表达,也可以用于检测单核苷酸多态性等。

芯片技术的方法

在芯片技术中有两种基本方法:单染色技术和双染色技术

单染色技术

  • 单染色技术是将一个样本经一种荧光标记后单独杂交的一张芯片上,是目前使用最多的方法。将一个样本单独与一张芯片杂交,可以方便简单地在多张芯片之间进行比较。
  • 产生的芯片数据为单通道信号数据,这种方法产生的数据变异大,需要通过重复实验来减少误差。

双染色技术

  • 双染色技术是把两个样本用不同荧光标记后一起杂交到同一张芯片上。用于检测两种不同条件下基因表达的差异情况,如疾病组织和正常组织(往往多个正常组织DNA混合在一起,作为”pool“样本);处理组与对照组。两个样本(如处理与对照)被两种不同荧光标记。一个样本的cDNA用Cy5(一种显示为红色染料)标记,另一个样本用Cy3(一种显示为绿色的染料)标记。这两种荧光标记的样本混合后与芯片上的探针竞争杂交。
  • 这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较,有助于减少数据变异性,提高组间差异表达分析的准确性,同时减少了芯片的使用量,节约了成本。但由于使用这种技术已经确定好了实验设计,就无法与其他样本进行比较了。

芯片公司

当前,市场上芯片主要来自三家公司:Affymetric公司、Agilent公司和Illumina公司

基因芯片分析工具

基因芯片分析一般对硬件要求不高,普通的计算机就能运行,但如果处理较多的数据量时,建议提高内存,一般拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。

工具 优点 缺点
GeneSpring 互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准 商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础
BRB-Array 基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用 专业性强,格式要求高,稍有不符就报错。适用于有一定专业基础
R-Bioconductor R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有最新的分析算法和工具包,免费下载使用 需要有一定计算机编程能力

bioconductor包,会讲如何用 lumi包来处理这个芯片数据。
用bioconductor系列包来处理是最方便的,看这个教程就够了:https://bioconductor.org/packages/release/data/experiment/vignettes/BeadArrayUseCases/inst/doc/BeadArrayUseCases.pdf
数据处理流程还在plos one杂志上面发表过文章:http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1002276
BMC也有一篇:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4486126/ 他们团队做了一个网页版工具,直接可以上传illumina芯片的原始数据去做全套分析:http://www.arrayanalysis.org/

数据下载

一般来说要比较和整合不同实验室和不同实验的数据是比较困难的。因此,科学家成立了一个联盟(MGED学会)来规范化芯片数据的输出和注释,促进数据共享和统一数据库的建立。

指定的标准化规则称为MIAME权威期刊一般只接受遵循MIAME规则的芯片数据论文。NCBI的GEO和EBI的ArrayExpress是目前最大的公开资源数据库,用于存储和发布与MIAME相容的芯片数据。

illumina的bead 系列表达芯片

表达芯片大家最熟悉的当然是affymetrix系列芯片啦,而且分析套路很简单,直接用R的affy包,就可以把cel文件经过RMA或者MAS5方法得到表达矩阵illumina出厂的芯片略微有点不一样,它的原始数据有3个层级,一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。
http://www.bio-info-trainee.com/1937.html

其实对芯片数据处理最重要的过程,就是如何做QC以及拿到表达量矩阵,后面的差异分析,功能富集分析其实是大同小异的。
原文链接:芯片基础知识打卡
http://www.biotrainee.com/thread-992-1-1.html
(出处: 生信技能树)

GEO数据挖掘(3)-芯片基础知识相关推荐

  1. 【数据挖掘笔记】基础知识

    理论 绪论 数据挖掘 (数据中的知识发现,KDD):发现隐藏在大型数据集中的模式(有趣的模式,即知识) 数据挖掘步骤(有时还包括数据归约:得到原始数据的较小表示,而不牺牲完整性) 数据库(管理)系统: ...

  2. 数据挖掘引入:基础知识

    好多的数据 全球每天都在产生数以兆兆的数据,每个人的行为都会产生数据:数据的爆炸式增长并且广泛可用让我们真正进入数据时代. 普通人面对这数据海洋就是束手无策+一脸懵逼(我是谁?我从哪儿来?我要去哪儿? ...

  3. 数据挖掘学习笔记——GEO数据库:芯片数据分析

    数据挖掘 数据挖掘学习笔记--GEO数据库:芯片数据分析 文章目录 数据挖掘 一.芯片基础知识 1.1.背景 二.GEO数据库概述 2.1.基础简介 2.2.检索页面展示 三.GSE项目的三种下载方式 ...

  4. GEO数据挖掘(1)引出

    要知道的背景知识 GEO=Gene Expression Omnibus 一个基因对应一个GSE编号,根据编号在NCBI-GEO中找http://www.ncbi.nlm.nih.gov/geo/qu ...

  5. 软考备考-系统构架师-18-信息系统基础知识相关试题整理

    博客迁移 不恰饭的小站 说明 1 整理2009~2016年系统构架师"信息系统基础知识"题目 2 内容见文档:"考点按章节整理\第 14 章 信息系统基础知识\信息系统基 ...

  6. 【python数据挖掘课程】二十二.Basemap地图包安装入门及基础知识讲解

    这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述Matplotlib子包,负责地图绘制,即Basemap扩展包.在做数据挖掘或可视化分析时,常常需要 ...

  7. 数据挖掘课程笔记6 : Numpy、Pandas和Matplotlib包基础知识

    #2018-03-22 10:23:16 March Thursday the 12 week, the 081 day SZ SSMR http://blog.csdn.net/eastmount/ ...

  8. RFID标签的基础知识(3)--了解芯片(之超高频标签芯片篇)

    RFID标签的基础知识(3)--了解芯片(之超高频标签芯片篇)) 前言 一.如何认识芯片? 1. 1 怎么找芯片资料? 1. 2 芯片资料怎么看? 二.我认识的芯片 1.Alien(美国意联科技公司( ...

  9. 基础知识,DSP芯片介绍

    基础知识,DSP芯片介绍 1 什么是DSP芯片     DSP芯片,也称数字信号处理器,是一种具有特殊结构的微处理器.DSP芯片的内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线 ...

最新文章

  1. Java虚拟机 —— 垃圾回收机制
  2. ajax 示例_通过示例了解挥发
  3. 东北农业大计算机排名,黑龙江高校排名更新,东北林大排名第3,东油排名第8...
  4. Android官方开发文档Training系列课程中文版:Activity测试之创建运行测试
  5. 逻辑回归python实现
  6. 硬核软件开发者 30 多年的 11 条经验教训
  7. 锤子科技 php 面试,面试没通过 锤子新品遭面试者曝光
  8. 乘积取中法matlab,迭代取中法、乘同余法及混合同余法产生随机数方法
  9. 把VSCode当作记事本使用
  10. 用html设计前台界面,UI设计系列:WEB前端界面设计
  11. Redis数据丢失问题
  12. html生日快乐源代码
  13. 开奖名单公布!百度超级链专属好礼有你一份,速戳!
  14. 自动驾驶路侧感知定位技术条件
  15. UI设计:模仿淘宝App首页
  16. kali linux外网渗透指定ip,kali Linux局域网渗透之win10
  17. React中文文档之Composition vs Inheritance
  18. 【python量化】将Transformer模型用于股票价格预测
  19. 需求分析+辽阳市水库大坝安全检测平台+志豪未来科技有限公司+陈志豪
  20. Windowns10配置安装Seata14.0(注册中心和配置中心用的都是nacos)

热门文章

  1. 曾因出演《西游记》爆红,现在转行写代码身价过亿!不一样的CTO!
  2. 万字谈监控:解答Zabbix与Prometheus选型疑难
  3. 亿级流量场景下如何为HTTP接口限流?看完我懂了!!
  4. 人才迁徙潮,2019年互联网各梯队排名重组,最适合程序员去的互联网公司有哪些?...
  5. 在leangoo里怎么复制卡片,删除卡片,查看任务轨迹?
  6. 软件开发环境-环境用户界面
  7. C语言练习题100道
  8. 算法笔记-链相关、链的基础、单链双链环链、链的各种功能实现、链的算法题、面试题以及算法优化方法(多)、C#
  9. oracle 字符集 0354,如何查询Oracle的字符集? 爱问知识人
  10. svg图片怎么存手机上_一张普通的图片,是怎么让安卓手机死机的?