初步分析CCLE和GDSC的数据——RNA表达矩阵
CCLE是Cancer Cell Line Encyclopedia的简称, 是与肿瘤有关的细胞系的百科全书项目。
GDSC是Genomics of Drug Sensitivity in Cancer的简称,其中也有细胞系的药物敏感性数据。
下载细胞系的相关信息文件
wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/Cell_Lines_Details.xlsx
下载基因芯片的RMA数据(Robust Multi-array Average),
wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/sanger1018_brainarray_ensemblgene_rma.txt.gz
细胞系的药物敏感性数据如下
wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/v17.3_fitted_dose_response.xlsx
这里主要分析RMA数据
library(readxl)dat <- data.frame(read_excel("Cell_Lines_Details.xlsx", sheet=1), stringsAsFactors=F)colnames(dat) <- gsub('\\.', '_', colnames(dat))
uro.data <- dat[which(dat$GDSC__Tissue_descriptor_1 =="urogenital_system"),]## 选取了泌尿生殖系统的细胞系的数据
读取RMA文件,挑选以上细胞系对应的 基因表达数据
cosmic_id <- uro.data$COSMIC_identifierrma.dat <- read.delim("sanger1018_brainarray_ensemblgene_rma.txt", sep='\t', header=T)
colnames(rma.dat) <- gsub( 'X', '', colnames(rma.dat))
selected_cols <- colnames(rma.dat)[colnames(rma.dat) %in% as.character(cosmic_id)]uro_rma.dat <- rma.dat[, selected_cols ]
修改细胞系的Cosmic ID为细胞系的Sample Name
names(uro_rma.dat) <- uro.data$Sample_Name[match( names(uro_rma.dat), cosmic_id)]
进行主成分分析, 并将细胞系的生长特性(黏附或非黏附等等)作为标记色
pcs <- prcomp(t(uro_rma.dat))$xmycol <- unclass(factor(uro.data$Growth_Properties[match(names(uro_rma.dat), uro.data$Sample_Name)]))
mypch <- mycol
最终作图, 并在几个关注的细胞系的数据点上方标记名字
pdf("PCA_fig.pdf", width=12, height=10)
par(mar=c(5.1, 4.1, 4.1, 7.4), xpd=TRUE)
plot(pcs[,c(1,2)], col=mycol, pch=mypch, xlab="Principle component 1", ylab="Principle component 2")labeled_celllines <- pcs[names( uro_rma.dat ) %in% c('22RV1', 'DU-145', 'PC-3', 'LNCaP-Clone-FGC'), ]
text( labeled_celllines[,1], labeled_celllines[,2], rownames( labeled_celllines ), pos= 3 , col="red")legend("topleft", as.character(levels(factor(unique(uro.data$Growth_Properties)))), col=seq(1:13), pch=seq(1:13), cex=.5, inset=c(0.01,0))
dev.off()
输出结果如图
RMA数据用到的芯片是 hgu133plus2平台, 有关的探针信息可以到以下网站查询
www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus
http://nmg-r.bioinformatics.nl/Packages_for_BioC_3.0.html
http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/21.0.0/entrezg.asp
http://brainarray.mbni.med.umich.edu/bioc/src/contrib/
Brainarray的芯片,最新版本是version 23, Released on Oct 26, 2018 ,这里只列举了version 21的数据下载页面。
初步分析CCLE和GDSC的数据——RNA表达矩阵相关推荐
- 提取TCGA 中体细胞突变数据的表达矩阵
#因为之前的命令调用GDCquery_Maf 发现用不了 #故找到了一些其他的方法,并且自己试着将其弄成了一个表达矩阵. #代码如下 #1.下载加载相应的包 install.packages(&quo ...
- 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵
Cell Ranger是一个"傻瓜"软件,你只需提供原始的fastq文件,它就会返回feature-barcode表达矩阵.为啥不说是gene-cell,举个例子,cell has ...
- 【2017年第3期】大数据服务三农的初步分析与探索
孙忠富, 褚金翔, 马浚诚, 杜克明, 郑飞翔 中国农业科学院农业环境与可持续发展研究所,北京 100081 摘要:三农问题是当前中国密切关注的社会问题,大数据技术的发展为三农带来了新的机遇.首先,对 ...
- seurat提取表达矩阵_单细胞分析实录(5): Seurat标准流程
前面我们已经学习了单细胞转录组分析的:使用Cell Ranger得到表达矩阵和doublet检测,今天我们开始Seurat标准流程的学习.这一部分的内容,网上有很多帖子,基本上都是把Seurat官网P ...
- Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微 ...
- Python爬虫笔记——分析AJAX传递的JSON获取数据-初步分析动态网页
转载文章链接: Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1) [4]实战:爬取动态网页的两种思路爬取新浪趣图(1) [5]实战:爬取动态网页的两种思路爬取新浪趣图(2) ...
- PythonR爬取分析赶集网北京二手房数据(附详细代码)
本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...
- Azure底层架构的初步分析
之所以要写这样的一篇博文的目的是对于大多数搞IT的人来说,一般都会对这个topic很感兴趣,因为底层架构直接关乎到一个公有云平台的performance,其实最主要的原因是我们的客户对此也非常感兴趣, ...
- 如何用SQL分析电商用户行为数据(案例)
叮当之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来. 很少有各种工具,各种分析方法全来一遍的,所以本次借分析"淘宝用户行为数据集&qu ...
最新文章
- How to make app start automatically When the application starts
- js遍历追加html子样式,前端基本功:JS(十一)动画封装(CSS样式获取、JSON遍历)...
- 离散图 java,Java实现离散Arnold变换(图像处理)
- python切换ip群发邮件_python获取外网IP并发邮件的实现方法
- 任务栏恢复添加快捷方式(即桌快出现箭头)
- maven引用外部jar依赖
- 【Elasticsearch】Elasticsearch 索引 索引模板 生命周期 关系
- 挂载ntfs_NTFSTool for mac(NTFS硬盘读写工具) 中文免费版
- C#窗体控件简介ListBox
- oracle unused 语法_【转】Oracle set unused的用法
- Excel和word的打印预览快捷键
- D.背单词的小智(二分)
- 深入探讨PageRank(四):PageRank的危机及搜索引擎的未来
- 艾米丽Java游戏_艾米丽玩闹鬼 Emily Wants To Play中文游戏介绍_游戏库_巴士单机游戏...
- 晶体管介绍工作原理与历史
- linux无root权限安装软件
- word中统一修改mathtype公式和大小对应
- 关于我的英文名字Byron
- pygame库-Surface类-blit方法的两个参数(source, dest)的含义
- 脱掉360奇虎的“加固保”壳后的发现与你的微信安全
热门文章
- android api版本修改,Android 版seesmic修改API方法
- 谷歌浏览器网页打不开怎么办
- 关于华为应用市场的上架流程
- Qt控件--QComboBox存储自定义数据
- Java Dad08
- AttributeError: module ‘tushare‘ has no attribute ‘get_k_data‘报错解决方法
- dns能帮助网站快速打开吗?怎么样提升网站打开速度?
- html默认office打开如何更改,怎么设置office默认打开方式,修改office的默认打开方式...
- Android远程真机调试(电脑使用 Vysor 控制手机)
- express 构建 myapp