数据库简介

CCLE数据库几个知识点

CCLE中细胞系表达谱的GEO数据库GSE36133

CCLE数据库数据下载链接

数据处理

样品信息处理

通过R语言来处理数据,需要一定R语言基础;
因为下载下来的数据包含了多种癌症,首先是处理细胞系信息,选择自己需要的细胞系,进行后续操作。

rm(list = ls())
sample<-read.csv(file="sample_info.csv")
colnames(sample)
# [1] "DepMap_ID"                 "cell_line_name"
# [3] "stripped_cell_line_name"   "CCLE_Name"
# [5] "alias"                     "COSMICID"
# [7] "sex"                       "source"
# [9] "Achilles_n_replicates"     "cell_line_NNMD"
# [11] "culture_type"              "culture_medium"
# [13] "cas9_activity"             "RRID"
# [15] "WTSI_Master_Cell_ID"       "sample_collection_site"
# [17] "primary_or_metastasis"     "primary_disease"
# [19] "Subtype"                   "age"
# [21] "Sanger_Model_ID"           "depmap_public_comments"
# [23] "lineage"                   "lineage_subtype"
# [25] "lineage_sub_subtype"       "lineage_molecular_subtype"

可以看到,样品信息包含了以上26中信息,可以根据需要,选择信息进行后续处理,比如说,我选择样品ID,细胞系名称,原发灶或转移灶,原发疾病类型,亚型等信息。

sample_info<-sample[,c(1,3,17,18,19)]
###choose CRC cell lines
unique(sample_info$primary_disease)
# [1] "Ovarian Cancer"             "Leukemia"
# [3] "Colon/Colorectal Cancer"    "Skin Cancer"
# [5] "Lung Cancer"                "Bladder Cancer"
# [7] "Kidney Cancer"              "Breast Cancer"
# [9] "Pancreatic Cancer"          "Myeloma"
# [11] "Brain Cancer"               "Sarcoma"
# [13] "Lymphoma"                   "Bone Cancer"
# [15] "Fibroblast"                 "Gastric Cancer"
# [17] "Engineered"                 "Thyroid Cancer"
# [19] "Neuroblastoma"              "Prostate Cancer"
# [21] "Rhabdoid"                   "Gallbladder Cancer"
# [23] "Endometrial/Uterine Cancer" "Head and Neck Cancer"
# [25] "Bile Duct Cancer"           "Esophageal Cancer"
# [27] "Liver Cancer"               "Cervical Cancer"
# [29] "Unknown"                    "Eye Cancer"
# [31] "Adrenal Cancer"             "Liposarcoma"
# [33] "Embryonal Cancer"           "Teratoma"
# [35] "Non-Cancerous"

可以看到有35种不同的癌症类型,我们选择特定的一种即可,比如我选择肝癌。

which(sample_info$primary_disease=="Liver Cancer")
cell_lines<-sample_info[which(sample_info$primary_disease=="Liver Cancer"),]
save(cell_lines,sample,file="Data1_sample_information.Rdata")

这样我们就选择了我们想研究的癌症类型及需要的细胞系名称及相关信息,先保存下来。

基因表达信息

先读取我们下载的表达信息

exp<-read.csv(file="CCLE_expression.csv")
rownames(exp)<-exp[,1]
exp[1:3,1:3]
exp<-exp[,-1]
# TSPAN6..7105. TNMD..64102. DPM1..8813.
# ACH-001113      4.990501    0.0000000    7.273702
# ACH-001289      5.209843    0.5459684    7.070604
# ACH-001339      3.779260    0.0000000    7.346425##choose samples from expression matrix
a<-cell_lines$DepMap_ID  ##%in%判断exp中的元素是否都在我们选择的细胞系中
b<-c(rownames(exp) %in% a)
length(b)
exp_liver<-exp[b,]
##判断细胞系信息中细胞名称的元素是否在肝癌细胞系exp中
c<-c(cell_lines$DepMap_ID %in% rownames(exp_liver))
cell_exp<-exp_liver[c,]

现在我们就得到了我们需要的表达矩阵,但是并没有对应细胞名,我们要把ID和对应名称匹配

rownames(cell_lines)<-cell_lines[,1]
merge<-cbind(cell_lines,exp_liver)
save(merge,file="input_sample_and_exp.Rdata")rownames(merge)<-merge$stripped_cell_line_name
matrix<-merge[,-c(1:5)]
matrix<-t(matrix)
d<-rownames(matrix)
class(d)
d<-as.matrix(d)
matrix<-cbind(d,matrix)
write.csv(matrix,file="CRC_exp.csv")
matrix<- read.csv(file="CRC_exp.csv")

去除NA值,整理表达矩阵

sum(is.na(matrix))
newdata<-na.omit(matrix)
duplicated(newdata$X.1)
h<-newdata[duplicated(newdata$X.1),]mydata<-newdata[!duplicated(newdata$X.1),]
rownames(mydata)<-mydata$X.1
mydata<-mydata[,-c(1:3)]

CCLE(Cancer Cell Line Encyclopedia)数据库使用相关推荐

  1. Comprehensive anticancer drug response prediction based on a simple cell line drug complex network m

    Comprehensive anticancer drug response prediction based on a simple cell line drug complex network m ...

  2. Cancer Cell ChIP-seq助力揭示BATF缺失可增加CAR-T细胞抗肿瘤活性的研究

    发表单位:中国科学院动物研究所 发表期刊:Cancer Cell(38.585) 发表时间:2022年10月13日 研究材料:CAR-T细胞 2022年10月13日,中国科学院动物研究所干细胞与生殖生 ...

  3. 专栏五:食管癌Cancer Cell文章生信部分解析

    两篇食管癌文章,来自同一课题组,部分共用一套代码: Epithelial cells activate fibroblasts to promote esophageal cancer develop ...

  4. single cell marker 基因数据库

    Mouse Cell Atlas:https://links.jianshu.com/go?to=http%3A%2F%2Fbis.zju.edu.cn%2FMCA%2F CellMarker:htt ...

  5. 年终盘点 | 从Cancer Cell到Nat Plants,高分项目文章盘点

    2022年即将拉上帷幕,感谢各位老师.同学的支持,这一年我们在表观和单细胞方面都收获了不少项目文章.据小爱粗略的统计,爱基百客今年高分项目文章累计影响因子超过了330分.精选10篇高分文章,让我们来回 ...

  6. SH-SY5Y human neuroblastoma cell line: in vitro cell model of dopaminergic neurons in Parkinson’s di

    (Chin Med J 四区.吉林大学) SY5Y具有多巴胺能神经元(含有并释放多巴胺作为神经递质的神经元,此处可以明确的是SY5Y在分化前就可以分泌多巴胺:多巴胺抑制兴奋)的许多特性,表达络氨酸氢化 ...

  7. 基因在细胞系当中的表达数据库,CCLE使用简述

    相信大家都听说过CCLE(Cancer Cell Line Encyclopedia).简单来说,这个数据库做了很多细胞系当中基因表达.突变.拷贝数以及DNA甲基化的结果.利用这个数据库我们可以了解一 ...

  8. 分享一个CCLE细胞系数据(CCLE数据库不能用了吗?)

    癌细胞系百科全书项目 - Broad 研究所与诺华生物医学研究所之间的合作 2006 年,Sellers (Novartis).Garraway (Broad Institute) 和 Schlege ...

  9. linux下载ccle数据,对CCLE数据库可以做的分析--转载

    转载:http://www.bio-info-trainee.com/1327.html 收集了那么多的癌症细胞系的表达数据,拷贝数变异数据,突变数据,总不能放着让它发霉吧! 这些数据可以利用的地方非 ...

最新文章

  1. JavaScript 变量的生存期
  2. 格力机器人图解_格力工业机器人:是时候展示真正的实力了
  3. mysql复制模式第二部分-----双主模式
  4. hdu1242 Rescue DFS(路径探索题)
  5. 在try中写了return,后面又写了finally,是先执行return还是先执行fianlly
  6. 【金蝶K3Cloud】 Python套打插件开发记录
  7. Android中合多图片和文字合成PDF文件---路很长
  8. 华为arm服务器虚拟化,华为云arm服务器
  9. 加解密算法 之base64 原理
  10. 《数据结构》— 数据结构图文解析系列
  11. word从第三页插入页码
  12. Swagger自动生成接口文档
  13. 家里两台电脑怎么共享文件_家里有两个电脑~怎么连局域网和文件共享
  14. 自学编程入门,先学什么语言好?
  15. 广告行业中静态创意和动态创意区别
  16. python3抠图并更换背景
  17. python脚本案例-python+adb命令实现自动刷视频脚本案例
  18. 【WLAN从入门到精通-基础篇】第8期——STA接入过程
  19. 管理经济学【四】之 需求弹性与供给弹性分析
  20. mamp python mysql_MAMP中Python安装MySQLdb

热门文章

  1. 【plang 1.4.6】Plang高级编程语言(发布)
  2. 计算机教学研修心得英语,研修心得体会(通用10篇)
  3. word双栏左右不能对齐
  4. ninja ripper新版教程
  5. 链改重塑信任,打造零风险的产业生态体系!
  6. LeetCode 2203. 得到要求路径的最小带权子图(dijkstra算法)
  7. 癌症/肿瘤免疫治疗最新研究进展(2022年4月)
  8. XPO的UpCasting
  9. 淘宝、拼多多、京东等购物平台的优惠券公众号免费搭建持续更新
  10. firefoxos gaia 开发环境