CCLE是Cancer Cell Line Encyclopedia的简称, 是与肿瘤有关的细胞系的百科全书项目。

GDSC是Genomics of Drug Sensitivity in Cancer的简称,其中也有细胞系的药物敏感性数据。

下载细胞系的相关信息文件

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/Cell_Lines_Details.xlsx

下载基因芯片的RMA数据(Robust Multi-array Average),

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/sanger1018_brainarray_ensemblgene_rma.txt.gz

细胞系的药物敏感性数据如下

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/v17.3_fitted_dose_response.xlsx

这里主要分析RMA数据

library(readxl)dat <- data.frame(read_excel("Cell_Lines_Details.xlsx", sheet=1), stringsAsFactors=F)colnames(dat) <- gsub('\\.', '_', colnames(dat))
uro.data <- dat[which(dat$GDSC__Tissue_descriptor_1 =="urogenital_system"),]## 选取了泌尿生殖系统的细胞系的数据

读取RMA文件,挑选以上细胞系对应的 基因表达数据

cosmic_id <- uro.data$COSMIC_identifierrma.dat <- read.delim("sanger1018_brainarray_ensemblgene_rma.txt", sep='\t', header=T)
colnames(rma.dat) <- gsub( 'X', '', colnames(rma.dat))
selected_cols <- colnames(rma.dat)[colnames(rma.dat) %in% as.character(cosmic_id)]uro_rma.dat <- rma.dat[, selected_cols ]

修改细胞系的Cosmic ID为细胞系的Sample Name

names(uro_rma.dat) <- uro.data$Sample_Name[match( names(uro_rma.dat), cosmic_id)]

进行主成分分析, 并将细胞系的生长特性(黏附或非黏附等等)作为标记色

pcs <- prcomp(t(uro_rma.dat))$xmycol <- unclass(factor(uro.data$Growth_Properties[match(names(uro_rma.dat), uro.data$Sample_Name)]))
mypch <- mycol

最终作图, 并在几个关注的细胞系的数据点上方标记名字


pdf("PCA_fig.pdf", width=12, height=10)
par(mar=c(5.1, 4.1, 4.1, 7.4), xpd=TRUE)
plot(pcs[,c(1,2)], col=mycol, pch=mypch, xlab="Principle component 1", ylab="Principle component 2")labeled_celllines <- pcs[names( uro_rma.dat ) %in% c('22RV1', 'DU-145', 'PC-3', 'LNCaP-Clone-FGC'), ]
text( labeled_celllines[,1], labeled_celllines[,2], rownames( labeled_celllines ), pos= 3 , col="red")legend("topleft", as.character(levels(factor(unique(uro.data$Growth_Properties)))), col=seq(1:13), pch=seq(1:13), cex=.5, inset=c(0.01,0))
dev.off()

输出结果如图

RMA数据用到的芯片是 hgu133plus2平台, 有关的探针信息可以到以下网站查询

www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus

http://nmg-r.bioinformatics.nl/Packages_for_BioC_3.0.html

http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/21.0.0/entrezg.asp

http://brainarray.mbni.med.umich.edu/bioc/src/contrib/

Brainarray的芯片,最新版本是version 23, Released on Oct 26, 2018 ,这里只列举了version 21的数据下载页面。

初步分析CCLE和GDSC的数据——RNA表达矩阵相关推荐

  1. 提取TCGA 中体细胞突变数据的表达矩阵

    #因为之前的命令调用GDCquery_Maf 发现用不了 #故找到了一些其他的方法,并且自己试着将其弄成了一个表达矩阵. #代码如下 #1.下载加载相应的包 install.packages(&quo ...

  2. 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵

    Cell Ranger是一个"傻瓜"软件,你只需提供原始的fastq文件,它就会返回feature-barcode表达矩阵.为啥不说是gene-cell,举个例子,cell has ...

  3. 【2017年第3期】大数据服务三农的初步分析与探索

    孙忠富, 褚金翔, 马浚诚, 杜克明, 郑飞翔 中国农业科学院农业环境与可持续发展研究所,北京 100081 摘要:三农问题是当前中国密切关注的社会问题,大数据技术的发展为三农带来了新的机遇.首先,对 ...

  4. seurat提取表达矩阵_单细胞分析实录(5): Seurat标准流程

    前面我们已经学习了单细胞转录组分析的:使用Cell Ranger得到表达矩阵和doublet检测,今天我们开始Seurat标准流程的学习.这一部分的内容,网上有很多帖子,基本上都是把Seurat官网P ...

  5. Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话

    首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微 ...

  6. Python爬虫笔记——分析AJAX传递的JSON获取数据-初步分析动态网页

    转载文章链接: Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1) [4]实战:爬取动态网页的两种思路爬取新浪趣图(1) [5]实战:爬取动态网页的两种思路爬取新浪趣图(2) ...

  7. PythonR爬取分析赶集网北京二手房数据(附详细代码)

    本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

  8. Azure底层架构的初步分析

    之所以要写这样的一篇博文的目的是对于大多数搞IT的人来说,一般都会对这个topic很感兴趣,因为底层架构直接关乎到一个公有云平台的performance,其实最主要的原因是我们的客户对此也非常感兴趣, ...

  9. 如何用SQL分析电商用户行为数据(案例)

             叮当之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来. 很少有各种工具,各种分析方法全来一遍的,所以本次借分析"淘宝用户行为数据集&qu ...

最新文章

  1. How to make app start automatically When the application starts
  2. js遍历追加html子样式,前端基本功:JS(十一)动画封装(CSS样式获取、JSON遍历)...
  3. 离散图 java,Java实现离散Arnold变换(图像处理)
  4. python切换ip群发邮件_python获取外网IP并发邮件的实现方法
  5. 任务栏恢复添加快捷方式(即桌快出现箭头)
  6. maven引用外部jar依赖
  7. 【Elasticsearch】Elasticsearch 索引 索引模板 生命周期 关系
  8. 挂载ntfs_NTFSTool for mac(NTFS硬盘读写工具) 中文免费版
  9. C#窗体控件简介ListBox
  10. oracle unused 语法_【转】Oracle set unused的用法
  11. Excel和word的打印预览快捷键
  12. D.背单词的小智(二分)
  13. 深入探讨PageRank(四):PageRank的危机及搜索引擎的未来
  14. 艾米丽Java游戏_艾米丽玩闹鬼 Emily Wants To Play中文游戏介绍_游戏库_巴士单机游戏...
  15. 晶体管介绍工作原理与历史
  16. linux无root权限安装软件
  17. word中统一修改mathtype公式和大小对应
  18. 关于我的英文名字Byron
  19. pygame库-Surface类-blit方法的两个参数(source, dest)的含义
  20. 脱掉360奇虎的“加固保”壳后的发现与你的微信安全

热门文章

  1. android api版本修改,Android 版seesmic修改API方法
  2. 谷歌浏览器网页打不开怎么办
  3. 关于华为应用市场的上架流程
  4. Qt控件--QComboBox存储自定义数据
  5. Java Dad08
  6. AttributeError: module ‘tushare‘ has no attribute ‘get_k_data‘报错解决方法
  7. dns能帮助网站快速打开吗?怎么样提升网站打开速度?
  8. html默认office打开如何更改,怎么设置office默认打开方式,修改office的默认打开方式...
  9. Android远程真机调试(电脑使用 Vysor 控制手机)
  10. express 构建 myapp