原文见:http://www.biostat.ucsf.edu/jean/Presentation/IMSLAB.pdf

为了方便大家学习,我将该文翻译成中文加上一些相关的简单介绍,经验尚浅,还请大家多提意见。

1、R统计分析工具

文中主要利用R做为分析统计工具,软件相关信息见请参考www.r-project.org/。

英文简介:http://cran.r-project.org/doc/manuals/R-intro.pdf

中文简介:http://www.biosino.org/pages/newhtm/r/schtml

2、Bioconductor

Biocondocutor是基于R开发的用于基因组数据分析的软件,详情请参考http://www.bioconductor.org/。

Bioconductor的安装方法:打开R的命令窗口键入如下命令

source (http://www.bioconductor.org/biocLite.R)

biocLite()

3、数据

指南中使用的数据来自于三种急性白血病的基因表达研究,分别是B细胞急性淋巴性白血病(B-ALL),T细胞急性淋巴性白血病(T-ALL)和急性脊髓性白血病(AML)。利用含有6817个人类基因的Affymetrix高密度寡核苷酸阵列(hgu68a)分析38个B-ALL,9 个T-ALL和25个AML肿瘤样品的基因表达水平。

4、数据预处理

1)阈值:100~16,000

2)筛选:除去max/min 5或者(max-min) 500的基因。这里max和min是指mRNA样品中基因的最大和最小密度。

3)以2为底的对数转换

数据文件GolubData.RData包括了基因的表达水平和基因名。筛选后的基因表达水平存储在3571 72的golub矩阵中,行和列分别对应基因和mRAN样品。

5、 练习

有两种方法完成这个练习,对于熟悉R或者S-plus的用户,你可以用自己写的代码完成练习;对于不熟悉R的用户,可以利用tkWkdgets包中的vExplorer功能完成练习。vExplorer功能提供了浏览和执行代码的图形界面。启动R,通过如下代码导入指南:

>install.packages("IMSLAB",contriburl="http://www.biostat.ucsf.edu/jean/software")

> library(IMSLAB)

> vExplorer( )

然后利用打开的窗口选择IMSLAB程序包。

开始

在开始练习前,有一些获得帮助的重要命令和语句需要介绍

> help.start()

> apropos("mean")

> ? mean

> example("mean")

载入数据包

> library(IMSLAB)

> data(GolubData)

聚类

聚类分析是以基因间的相似程度,或者说是基因间的距离为基础的。利用hclust功能聚类白血病mRNA样品。T-ALL,B-ALL和AML样品是否聚类到一起?通过改变hclust中的method参数试用不同的类间距离进行练习。在dist中通过改变method参数试用不同的基因距离进行练习。下面这些问题可以帮助你开始练习。

Q1:利用相关系数和最大类间距离对mRNA样品进行系统聚类分析

> library(mva)

> clust.cor

> plot(clust.cor, cex = 0.6)

Q2:用欧式距离和平均类间距类对mRNA样品进行系统聚类分析

> clust.euclid

> plot(clust.euclid, cex = 0.6)

Q3:利用mva包中的heatmap功能,你可以得到聚类分析的图像。但是要注意,这个功能对基因和样品都执行聚类分析,如果基因的数量过大,会导致这个方法运行缓慢,为了说明问题,我们仅选择100个基因为例。

> library(sma)

> golubvar

> top100

> heatmap(golub[top100, ])

然后我们尝试不同的聚类分裂方法

Q4:利用相关系数作为基因距离对mRNA样品进行Kmeans聚类分析。

> clust.kmeans

> names(clust.kmeans$cluster)

> clust.kmeans$cluster[1:10]

Q5: 利用cluster包中的PAM功能对mRNA样品进行“Partition Around Medoids”分析

> library(cluster)

> clust.pam

> clusplot(clust.pam, labels = 3, col.p = clust.pam$clustering)

Q6:利用som包中的自组织映射分析方法(SOM) 对mRNA样品进行聚类分析

Q7:最后,我们在方差的基础上选择前100个基因,执行上面所述的各种聚类分析方法。注意我们在基因的选择过程中没有使用任何同样品有关的信息。stat.gnames 功能能够根据选择的统计量将基因排序,在本例中统计量就是方差。

> golubSub

> par(mfrow = c(2, 2))

> plot(hclust(as.dist(1 - cor(golubSub)), method = "complete"),

+ cex = 0.6)

> plot(hclust(dist(t(golubSub)), method = "average"), cex = 0.6)

> clust.pam

> clusplot(clust.pam, labels = 3, col.p = clust.pam$clustering)

> par(mfrow = c(1, 1))

clustMD r语言_利用R语言实现微阵列数据分析-聚类分析相关推荐

  1. python爬去百度文库_利用Python语言轻松爬取数据[精品文档]

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  2. python爬取百度文库_利用Python语言轻松爬取数据

    利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...

  3. lisp 非对称缓和曲线_利用AutoLISP语言绘制带缓和曲线的铁路曲线平面图

    利用 AutoLISP 语言绘制带缓和曲线的铁路曲线平面图 [ 摘要 ] 通过 AutoLISP 编程方法的剖析 , 探讨了基于 Visual LISP(VLISP) 编程软件环境下 , 利用 Aut ...

  4. c语言delay_利用C语言编程单片机,制作可以根据环境光照调整亮度的智能灯

    上一节,我们利用C语言编程单片机仿制了达文西的"古怪手电筒",达成了"在有光的时候就会亮,在没有光的情况下绝对不会亮!"的目标. 其实在此基础上,C语言还能做些 ...

  5. java的副语言_英语副语言的交际功能及特征

    本文引用<科技资讯> 摘要:副语言是人们说话时伴随语言而产生但又不属于语言现象的某些发音特征,副语言行为贯穿于言语交际的始终并具有特殊的交际功能.了解英语副语言的交际功能与特征,有助于我们 ...

  6. echarts r 地图_用R与Stata绘制地图,让文稿shinly起来

    有时候,我们在写文稿时,可能会涉及到数据的"统计制图"这一个环节.比如我们会遇到这样一批数据集,绘制全国31个省人均GDP的空间分布特征,以探索不同地区的经济发展水平差异. 这时候 ...

  7. 归并排序的java语言_归并排序 java语言

    /* * 归并排序算法 */ public class MergeSort { final static int MAX=0x7FFFFFFF; public static void main(Str ...

  8. c语言和python语言分别是一种什么语言_作为入门语言,C语言和Python哪一种更值得选择?...

    初学编程,应该学习哪一门编程语言,有不少人感到困惑,那么我们到底该如何选择呢? C语言和Python作为多种语言中两种语言,只是语法不同而已.以其作为入门语言的话,那还是各有千秋,各有各的好处的. 有 ...

  9. 更新r语言_【R语言学习最佳资料之一】R小抄速查表精简更新版

    下午午睡起来,右边后脑勺痛,没有办法集中精神去思考问题,干脆就把五月份整理的R语言小抄整理了一遍,分享给大家. 我选择了我认为比较重内容进行整理,并且重新整理目录,方便大家查阅学习.小伙伴们可以自己下 ...

最新文章

  1. 浙大这个班诞生128家创业公司,总市值高达千亿!
  2. SAP RETAIL 根据Allocation Rule去创建分配表
  3. 软件注册码(算法二Rijndael)
  4. Spring Boot(19)---开发Web应用之Thymeleaf篇
  5. VMware vSphere 功能特性比较 vsphere 6.5/6.7/7.0
  6. java 中文乱码过滤器_JAVA中文乱码过滤器(用java过滤器解决中文乱码)V0422 整理版...
  7. Java中String转换int
  8. Docker详解(三)——Docker安装与部署
  9. 由于找不到 MSVCR120.dll,无法继续执行代码终极解决方法
  10. android 自定义locale,Android Locale填坑
  11. php f4v元数据,IIS设置支持flv,f4v,mp4,ogv,webm
  12. 邮件裸奔,两大加密协议 PGP 与 S/MIME 被曝明文漏洞;DeepMind AI 能让自己拥有像哺乳动物那样的导航能力...
  13. “天空起重机”助力好奇号着陆盖尔撞击坑
  14. crack.vbs病毒,u盘里的所有文件全部变成快捷方式
  15. mac 查看 ssh key
  16. 零基础,没方向,如何快速有效学习编程语言?
  17. AWS强烈反击Elastic,欲打造自己的Elasticsearch开源产品OpenSearch
  18. 福建闽北卫生学校计算机考试,★福建闽北卫生学校
  19. R5 2500U 翻身?— ThinkPad E485 长测
  20. LOJ #2878. 「JOISC 2014 Day2」邮戳拉力赛 动态规划+括号序列

热门文章

  1. 海光国产CPU芯片和服务器,海光CPU芯片 一文看懂国产CPU!“造不如买”时代终
  2. LDM522-MINI射频读卡模块 迷你款 手持平板门禁首选
  3. android 静音接口,android 静音方法
  4. 打造属于自己的TensorFlow(一)之SimpleFlow-计算图与前向传播
  5. Python项目实战之欢迎来到美多商城!学习目录导航
  6. HDOJ--1052--Tian Ji -- The Horse Racing
  7. UIQ3上拷屏软件FastScreenshot
  8. BUUCTF[GYCTF2020]Blacklist
  9. 关于励志书及推荐《高效能人士的七个习惯》
  10. 什么是人工智能物联网(AIoT)一文教你快速了解人工智能物联网(AIoT)