资源下载地址:https://download.csdn.net/download/sheziqiong/85909111
资源下载地址:https://download.csdn.net/download/sheziqiong/85909111

生物信息学概论 Homework2

UCSC (University of California at Santa Cruz) 中的 Cancer Genome Browser (https://genome-cancer.ucsc.edu/) 平台提供了大量的肿瘤数据,尤其是包含了不同肿瘤的多层次组学数据并提供免费下载。本次我们从其中下载了500多例病人乳腺癌的基因芯片数据(转录组)并已经过预处理,保存在 GeneMatrix.txt 和 clinical_data.txt 这两个文件中。

作业内容为:

利用R软件或其他数据分析语言,进行该数据的聚类分析。

  1. 利用层次聚类,对该组数据样本按照基因表达水平进行聚类,看聚类效果如何。即是否能够按照基因表达水平,将病人进行分类。距离可以选择average。

    注,R中有相应的聚类函数,请利用并尽可能输出图示(如heatmap),表明你的结果。

  2. 实现PCA,并利用你实现的PCA对该组数据的基因表达进行降维处理。请选择你认为合适的主成分数目,给出原因,再次对病人依据你给的特征进行聚类,并与1比较。 数据文件说明:

    1. GeneMatrix.txt:基因表达值文件,含有行名和列名,一行为一个基因,一列为一个病人
    2. clinical_data.txt:记录了病人的若干信息,每一行为一个病人,病人的编号和GeneMatrix.txt中的相同。GeneMatrix中病人只涵盖了这里的一部分,注意,在病人的若干描述中,有一项为ER_Status_nature2012,可以根据这个对病人进行分类,你可以按照这个分类标准,对你的聚类进行一定的评估,看结果是否符合预期。

Report:聚类分析病人乳腺癌的基因芯片数据(转录组)

1. 层次聚类GeneMatrix样本

利用层次聚类,将GeneMatrix中数据样本(共522个病例),按照基因表达水平(共389个不同的基因)进行聚类:

GeneMatrix <- read.table(file = "./GeneMatrix.txt", header = TRUE, sep = "\t", row.names = 1) # 读取GeneMatrix.txt数据
GeneMatrix <- t(scale(GeneMatrix)) # 数据标准化,矩阵转置
distance <- dist(GeneMatrix, method = "euclidean") # 计算距离
fit <- hclust(distance, method = "average") # 层次聚类

![在这里插入图片描述](https://img-blog.csdnimg.cn/9215da0341e4444888862716168ce88d.png#pic_center)**2. 对GeneMatrix样本进行PCA降维后再进行层次聚类**利用PCA对该组数据的基因表达进行降维处理:```R
pca <- prcomp(GeneMatrix, center = FALSE, scale = FALSE) # PCA主成分分析

因为前172个主成分能够表征全部数据95.004%的信息,信息损失率小于5%,因此采用的主成分数目为172。

screeplot(pca, type = "barplot", npcs = length(pca$sdev), main = "Scree Plot", xlab = "Principal Component") # 可视化PCA后Variance数据

plot(summary(pca)$importance[3:3, 1:389], ylim = c(0.0, 1.0), xlab = "Principal Component", ylab = "Cumulative Proportion", type = "l", las = 1) # 选取PCA后Cumulative Proportion数据作图
abline(v = 172, lwd = 1, lty = 3, col = "blue")
abline(h = 0.95, lwd = 1, lty = 3, col = "blue")
axis(side = 2, at = c(0.95), las = 2, labels = c("0.95"))
axis(side = 1, at = c(172), labels = c("172"))
pca.data <- data.frame(pca$x[,1:172]) # 选取前172个主成分

依据该172个特征,再次对病人进行聚类,聚类效果如图所示(代码与1中同理,具体可详见 cluster.R 文件):

与1比较,可以看出聚类效果相似(左图为PCA降维前热点图,右图为PCA降维后热点图),验证了PCA的正确性,该172个主成分可以聚类该组数据。

3. 依据clinical_data中的分类标准来检验层次聚类及PCA的正确性

最后,根据clinical_data中ER_Status_nature2012的指标(仅选取GeneMatrix与clinical_data所共有的病例,即对二者病例取交集,共440个)进行分类:

# 导入clinical_data数据,并保留ER_Status_nature2012列
clinical_data <- read.table(file = "./clinical_data.txt", header = TRUE, sep = "\t", row.names = 1)
ER_Status_nature2012 <- clinical_data[7:7]分类效果如图所示(代码与1中同理,具体可详见 [cluster.R](code/cluster.R) 文件):![在这里插入图片描述](https://img-blog.csdnimg.cn/185b8d1e72514304ab6e3b00e6a26603.png#pic_center)![在这里插入图片描述](https://img-blog.csdnimg.cn/eff24f5a2ad242cdb7937674747c95d5.png#pic_center)与1、2比较,可以看出分类效果相似(从左至右依次为1、2、3的热点图),即按照这个分类标准评估1、2中的聚类,结果符合预期,验证了层次聚类及PCA的正确性。[资源下载地址](https://download.csdn.net/download/sheziqiong/85909111):https://download.csdn.net/download/sheziqiong/85909111
[资源下载地址](https://download.csdn.net/download/sheziqiong/85909111):https://download.csdn.net/download/sheziqiong/85909111

生物信息学概论——聚类分析TCGA-BRCA数据相关推荐

  1. 处理tcga突变数据一点思考

    TCGA突变数据 写在前面 泛癌mc3作图 学到的额外知识点 使用TCGAbiolinks下载数据 TCGA关于maf的注释 代码文件夹命名最好还是以英文命名,中文命名经常会出现错误 GTF文件有的以 ...

  2. TCGA新版数据count的下载及转换为tpm

    最近想重新进行免疫浸润计算,用的是TCGA的数据.然后注意到cibersort算法对于测序数据用的是tpm值. 我以前是直接下载小洁老师存在网盘中的tpm的Rdata,然后我发现我分析的LAML数据总 ...

  3. 生物信息学概论_生物信息学 | 技术与多学科融合,贝勒走在时代发展的前端

    BaylorUni 公众号ID: Bayloruni 随1990年人类基因组计划(HGP)的实施和信息技术的发展而诞生,生物信息学现已迅速发展成为当今生命科学最具吸引力和重大的前沿领域,为生物学.计算 ...

  4. tcga数据下载_从GDC下载最新的TCGA临床数据

    本文从GDC直接获取TCGA数据,不同于cbioportal.Xeon等TCGA下载工具,GDC数据是实时更新的最原始的数据. 下载数据 GDC的综合数据下载页面为https://portal.gdc ...

  5. 生物信息学概论_大学专业详解系列83——生物信息学(理学学士)

    生物信息学(理学学士) 毕业生应具备的知识和能力 (1)掌握扎实的数学.物理.化学基础理论和基本知识: (2)掌握生物学专业基础知识和信息处理的专门知识: (3)掌握普通生物学.细胞生物学.遗传学.分 ...

  6. Python脚本下载TCGA大数据,非常简单,开放源代码

    前言 使用TCGA官方的gdc-client下载工具有时候很慢,经常会挂掉,那干脆自己写一个下载小程序.于是使用TCGA的API写了个下载TCGA数据的脚本,脚本也是需要下载manifest文件的. ...

  7. TCGA 临床数据 表型 phenotype 各列的含义

    原文链接:http://www.cnblogs.com/emanlee/p/7635951.html Property name Description kind The resource type. ...

  8. TCGA甲基化数据(.idat)champ.load文件导入Sample Sheet构建

    最近在学习对甲基化数据的分析,大部分甲基化数据都有已经处理好的beta值矩阵,少部分需要用原始的.idat文件去分析,本篇主要讲如何用champ包中的champ.load函数导入.idat文件. my ...

  9. 生物信息学入门 使用 RNAseq counts数据进行差异表达分析(DEG)——edgeR 算法 数据 代码 结果解读

    差异表达分析通常作为根据基因表达矩阵进行生物信息学分析的第一步,有助于我们观察基因在不同样本中的表达差异,从而确定要研究的基因和表型之间的联系.常用的基因表达数据来自基因芯片或高通量测序.虽然矩阵看起 ...

最新文章

  1. CloudStats :一款SaaS 服务器监控工具
  2. matlab根轨迹法串联超前校正,4.7基于根轨迹法的串联超前校正.ppt
  3. 如何在Jupyter notebook中运行python的.py文件,以及ipynb文件与py文件的相互转化
  4. 【项目实战】SQL :部门花名册PBI展示
  5. Spring.NET学习笔记1——控制反转(基础篇) Level 200
  6. c语言指针灵活性管窥
  7. 《人类简史》作者:巨变将至!数据决定你未来是什么物种
  8. Martin Odersky Scala编程公开课 第二周作业
  9. Linux系统下网卡网络配置基础
  10. 美国 CISA 和 NIST 联合发布软件供应链攻击相关风险及缓解措施
  11. “三只猫,三分钟,捉三只老鼠,多少只猫,一百分钟,捉一百只老鼠”有感
  12. pyhton———使用urllib 下载文件~~过掉岁月过掉风
  13. 2001-2019年300多个城市进口额、出口额、进出口额汇总
  14. 精灵随着鼠标的移动而移动
  15. 基于Cortex-A53内核Linux系统gec6818开发板的电子自助点餐设计
  16. 【系统架构设计师】第一章:操作系统(1.1.1---1.1.2)操作系统的分类和结构
  17. VC下载文件 + 显示进度条
  18. oracle学习(一)
  19. 电机专用SVPWM算法实现
  20. 2015东南大学计算机考研真题答案,2015东南大学计算机专业考研真题

热门文章

  1. 阿里云Aliplayer高级功能介绍(一):视频截图 1
  2. Linux系统e1000e网络驱动源码(最深入)分析过程
  3. 02_Windows和VMware下的Linux共享文件的实现
  4. java dna框架_DNA - IOC依赖注入 - 组件类库 - JAVA开源项目 - 开源吧
  5. 创建三维空间平面-python笔记
  6. MaTeX:在Mathematica的图片中插入LaTeX代码的工具
  7. 【Unity Shaders】游戏性和画面特效——创建一个夜视效果的画面特效
  8. 用友畅捷通系列软件运行单据列表查询时报“错误‘6’ 溢出”错误!
  9. 民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?【转】...
  10. 初学JSP,运行一个JSP小程序