转载:http://www.bio-info-trainee.com/1327.html

收集了那么多的癌症细胞系的表达数据,拷贝数变异数据,突变数据,总不能放着让它发霉吧!

这些数据可以利用的地方非常多,但是在谷歌里面搜索引用了它的文章却不多,我挑了其中几个,解读了一下别人是如何利用这个数据的,当然,主要是用那个mRNA的表达数据咯!
第一篇: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0111146
这篇文献对CCLE的数据进行了八个步骤的处理,一个合格的生物信息学分析着完全可以重写这个过程
step1:Affymetrix U133 Plus2 DNA microarray gene expressions of 27 gastric cancer cell lines (Kato-III, IM95, SNU-620, SNU-16, OCUM-1, NUGC-4, 2313287, HUG1N, MKN45, NCIN87, KE39, AGS, SNU-5, SNU-216, NUGC-3, NUGC-2, MKN74, MKN7, RERFGC1B, GCIY, KE97, Fu97, SH10TC, MKN1, SNU-1, Hs746 T, HGC27) were downloaded from Cancer Cell Line Encyclopedia (CCLE)  [16] in March 2013.
step2: Robust Multi-array Average (RMA) normalization was performed. Principal component analysis plot show no obvious batch effect.
step3: The normalized data is then collapsed by taking the probe sets with highest gene expression.
前三步是为了得到27个胃癌相关细胞系的mRNA表达矩阵,方法是下载cel文件,用RMA归一化,对多探针基因去最大表达量探针!

step4:Unsupervised hierarchical clustering (1-Spearman distance, average linkage) was performed on the cell lines using the aCGH data.

Putative driver genes of which copy number aberrations correlated to mRNA gene expression were identified to determine subtypes or clusters that are driven by different mechanisms. This was done using Mann Whitney U-test with p<0.05, and Spearman Correlation Coefficient test with Rho >0.6.

step5:We then performed consensus clustering[17] on the gene expression data of the 27 gastric cancer cell lines from CCLE using these putative driver genes. We selected k = 2 as it gives sufficiently stable similarity matrix.

step6: In order to assign new samples to this integrative cluster, significance analysis of microarray (SAM) [18]with threshold q<2.0 was used to generate subtype signature based on the mRNA expression data of the 1762 genes from the 27 gastric cancer cell lines in CCLE.

先用甲基化数据来聚类,得到putative driver genes,然后再用这些基因的表达数据来再次聚类,分成两类,然后对这两类进行SAM找差异基因

step7:ssGSEA (single sample GSEA)was used to estimate pathway activities of the gastric cancer cell line in the Molecular Signature Database v3.1  (Msigdb v3.1)  [19],  [20]. The pathway activities are represented in enrichment scores which were rank normalized to [0.0, 1.0]. 
step8:SAM analysis was performed with threshold q<0.2, and fold change >2.0 (for up-regulated pathways), or <0.5 (for down-regulated pathways) to obtain  subtype-specific pathways from the 27 gastric cell lines in CCLE.
这里既用来gene set的富集分析,又用来超几何分布的富集分析,结果去看看这篇文章就知道了!
第二篇文献: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0081803#pone.0081803.s001
这篇文章只用了CCLE的一个地方,就是看看不同cancer type里面的某个基因表达boxplot
这个图的数据用GEOquery可以得到,样本的分类信息也用GEOquery可以得到,这样就可以做下面这个图了,非常简单
Further, the Cancer Cell Line Encyclopedia (CCLE) database demonstrated that of 1062 cell lines representing 37 distinct cancer types, glioma cell lines express the highest levels of STK17A

结论就是:STK17A is highly expressed in glioma cell lines compared to other cancer types. Data was obtained through the Cancer Cell Line Encyclopedia (CCLE).

第三篇文献:http://www.nature.com/ncomms/2013/130709/ncomms3126/fig_tab/ncomms3126_F4.html

这篇文献更简单了,直接对这个表达矩阵进行聚类:

Evaluating cell lines as tumour models by comparison of genomic profiles

The 5,000 most variable genes were used for unsupervised clustering of cell lines by mRNA expression data. Cell lines are colour-coded (vertical bars) according to the reported tissue of origin (a PDF version that can be enlarged at high resolution is in  Supplementary Information,  Supplementary Fig. S4); horizontal labels at bottom indicate the dominating tissue types within the respective branches of the dendrogram. Most ovarian cancer cell lines (magenta) cluster together, interspersed with endometrial cell lines. However, some ovarian cancer cell lines cluster with other tissue types (*). Top right panels: neighbourhoods (1) of the top cell lines in our analysis, (2) of cell line IGROV1, and (3) of cell line A2780. For the ovarian cancer cell lines in these enlarged areas, the histological subtype as assigned in the original publication is indicated by coloured letters.
就直接拿整个表达矩阵即可,然后挑选变异最大的5000个基因来进行聚类,就可以得到类似的图

对CCLE数据库可以做的分析--转载相关推荐

  1. linux下载ccle数据,对CCLE数据库可以做的分析--转载

    转载:http://www.bio-info-trainee.com/1327.html 收集了那么多的癌症细胞系的表达数据,拷贝数变异数据,突变数据,总不能放着让它发霉吧! 这些数据可以利用的地方非 ...

  2. php 生存分析,HPA数据库08.做生存分析

    生信论文的套路 ONCOMINE从全景.亚型两个维度做表达差异分析: 临床标本从蛋白水平确认(或HPA数据库),很重要: Kaplan-Meier Plotter从临床意义的角度阐明其重要性: cBi ...

  3. 实战:爬取数据存入数据库并做可视化分析

    本文选用天气预报数据作为本次文章的主题. 本文大致思维:首先登录网站,查看网页内容及数据格式(使用代码查看内容),选择两个城市及对应月份,爬取对应天气数据,进行数据预处理(如缺失值处理.数据类型转换. ...

  4. Pubmed数据库改版后如何做计量分析与知识图谱

    新版本Pubmed数据库如何做计量分析与知识图谱,bicomb不可以用了 最近一些人想做Pubmed数据库计量分析,但是由于Pubmed数据库刚刚改版,由于数据格式问题,原先的一些软件无法继续使用. ...

  5. Haploview做单倍型分析

    自个数据用Haploview做单倍型分析 转载他人的  http://www.dxy.cn/bbs/topic/16025305 Haploview   http://www.broadinstitu ...

  6. 如何对DB2数据库做性能分析?

    如何对DB2数据库做性能分析? 第一步 操作系统级别性能 CPU监控: ps -elf | sort +5 -rn | more 第6列代表CPU使用的计数器 I/O使用率: iostat -D 收集 ...

  7. 【转载】面向对象建模与数据库建模两种分析设计方法的比较

    [转载]面向对象建模与数据库建模两种分析设计方法的比较 板桥里人 http://www.jdon.com 2007/9/23(转载请保留) 我们知道:一个软件从无到有需要经过如下几个阶段:分析.设计. ...

  8. oracle数据库内存结构pga/sga/uga做比较分析

    oracle数据库的内存结构比较复杂,下面对pga/sga/uga做比较分析. 1. sga组成: database buffer cache:包括 default pool,keep pool,re ...

  9. 用Grafana为Elasticsearch做日志分析

    用Grafana为Elasticsearch做日志分析 作者:chszs,未经博主允许不得转载.经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs Grafana是 ...

最新文章

  1. Python 分布式文件系统 Mongodb GridFS
  2. 击败酷睿i9之后,有人又拿苹果M1去挑战英伟达V100了
  3. 程序员面试 IT 公司,这些地方你要注意!
  4. 有关parent.frame.cols在firefox浏览器上不兼容的问题解决
  5. Springboot+ Mybatis搭建学习
  6. QT、C++面试中的几个问题
  7. 低光照图像增强论文Low-Light Image Enhancement with Normalizing Flow阅读笔记
  8. Vue-电子签名(E-Signature)
  9. 2019很艰难,2020会更好吗
  10. 北方大学 ACM 多校训练赛 第四场 题解
  11. std::hypot 用法
  12. venn.diagram生成pdf图片
  13. 水仙花数python代码多种方式_水仙花数的三种解决方法(Python实现)
  14. 数据结构——栈的基本操作
  15. 问题 B: Cly的博弈
  16. 快来帮你三分钟了解物联网
  17. JavaScript之模板字符串的使用
  18. html中outline属性,css 轮廓(outline)属性是如何使用的
  19. 如何设置页面的上边距和下边距
  20. 无光驱安装xp,非Ghost

热门文章

  1. 写给自己,对自己的反思
  2. android 内存管理
  3. 案例:儿童呼吸道疾病数据集
  4. mosquitto2.0.14 windowsx64配置说明
  5. Cordova插件使用和开发学习笔记
  6. 最适合大学生的C语言基础入门+电子书
  7. C#百度定位API使用
  8. Lenovo-ThinkCentre-M730s 电脑 Hackintosh 黑苹果efi引导文件
  9. 关于JPanel的使用
  10. obs点歌插件 html效果,OBS歌曲显示插件使用图文教程