转录组学分析之基因芯片的预处理
- 数据详细信息介绍
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE65168
从网站中下载编号为GSE65168 的数据集,平台是GPL6244【HuGene-1_0-st】,是Affymetrix公司的新一代芯片(WT),所以因此选择oligo包读取CEL数据,进行更进一步的处理。该芯片一共有八个样本(GSM1588481-GSM1588488),用cDNA芯片分析了正常/缺氧条件下VHL阴性786-O RCC细胞系和VHL转染物的RNA表达情况。从处理条件上,可以将样本分为两类(正常/缺氧);从是否转染VHL,也可以将样本分为两类(转染/未转染VHL)。
- 实验步骤
- 获取CEL数据。
从https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE65168
网站上下载编号为GSE65168的原始数据集,在这里请注意,请下载.CEL类型的原始数据。
CEL文件应该是Supplementary file里的raw.tar,解压后就是所有样本的CEL文件。CEL文件是提交数据者提交的芯片原始数据,是Affmetrix公司的芯片格式,需要用专业软件如R打开,不可以被可视化。需要先对CEL文件进行质量控制和数据预处理(具体用bioconductor中对应的不同的包)。
而如果想直接进行分析,如差异基因筛选,可以下载Downloadfamily里的Seires Matrix Files,这是GEO工作人员将提交的原始数据进行整理和标准化后可以被可视化的txt文件,即每个探针的表达量。
下载原始数据压缩包,至本地文件路径(E:\大三下\0-转录组信息学\作业\ GSE65168_RAW)处。
第一步完成。
2.用R语言从本地路径下提取CEL类型文件。
打开Rstudio。
library(oligo) #加载oligo包
setwd("E:/大三下/0-转录组信息学/GSE65168_RAW") #设置工作路径
data.dir<-"E:/大三下/0-转录组信息学/GSE65168_RAW" #将CEL存放的路径存放在自定义变量data.dir处
(celfiles<-list.files(data.dir,"\\.gz$"))
data.raw<-read.celfiles(filenames=file.path(data.dir,celfiles)) #用oligo包中的read.celfiles函数提取CEL文件
data.raw
设置探针(样本)的名称。
treats<-strsplit("BR HBR VBR VHBR BR HBR VBR VHBR"," ")[[1]]
(snames<-paste(treats,rep(1:2,c(4,4)),sep=" "))
sampleNames(data.raw)<-snames
pData(data.raw)$index<-treats
sampleNames(data.raw)
[1] "BR 1" "HBR 1" "VBR 1" "VHBR 1" "BR 2" "HBR 2" "VBR 2" "VHBR 2"
表达矩阵
exprs_matrix<-data.raw@assayData$exprs
exprs_matrix[1:5,1:5]
3. 绘制MA图,查看各芯片中M,A之间的关系。
MA图可以很好的反映M和A两个变量之间的关系。
par(mfrow=c(2,2))
MAplot(data.raw[,1:4],pair=F)
MAplot(data.raw[,5:8],pair=F)
4. 运用oligo包的fitProbeLevelModel()函数,进行数据的预处理。
fit<-fitProbeLevelModel(data.raw)
#1) background subtraction
#2) normalization
#3) summarization
fitProbeLevelModel函数实现了芯片数据预处理的所有过程。
可视化fitProbeLevelModel结果
rle<-RLE(fit,type = "values")
boxplot(rle,col=rainbow(8),ylim=c(-1.2,1.2),main="RLE",ylab="RLE",cex.axis=0.7)
#各样本的众数在0 附近
nuse<-NUSE(fit,type = "values")
boxplot(nuse,col=rainbow(8),ylim=c(0.93,1.07),main="NUSE",ylab="NUSE",cex.axis=0.78)
#各样本的众数在1 附近
可见对芯片的预处理效果良好,芯片质量可靠。
转录组学分析之基因芯片的预处理相关推荐
- MPB:上海交大肖湘组分享基于基因芯片的海洋微生物转录组学分析技术
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议点击文末阅读原文 ...
- edger多组差异性分析_转录组edgeR分析差异基因 | 生信菜鸟团
转录组edgeR分析差异基因 edgeR是一个研究重复计数数据差异表达的Bioconductor软件包.一个过度离散的泊松模型被用于说明生物学可变性和技术可变性.经验贝叶斯方法被用于减轻跨转录本的过度 ...
- edger多组差异性分析_转录组edgeR分析差异基因
edgeR是一个研究重复计数数据差异表达的Bioconductor软件包.一个过度离散的泊松模型被用于说明生物学可变性和技术可变性.经验贝叶斯方法被用于减轻跨转录本的过度离散程度,改进了推断的可靠性. ...
- Bioconductor分析基因芯片数据第五章
使读者初步了解使用Bionconductor完成基因芯片预处理的流程 接着详细讲解戏弄i按预处理和数据分析等内容 最后深入了解实际工作中会遇到的芯片处理问题以及如何用学到的只是解决问题 目的:掌握芯片 ...
- 高级转录组调控分析和R语言数据可视化第十三期 (线上线下,7月底开课)
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下课 .期待和大家的 ...
- 二代三代转录组测序分析实战班
本文原创"生信宝典"公众号,作者陈同. 转录组大家都很熟悉了,我们之前也有几篇介绍: 转录组分析的正确姿势 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版) ...
- 一门课程学习转录组调控分析和R可视化第十四期 (线上线下开课)
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下 ...
- 高级转录组调控分析和R语言数据可视化第十三期 (线上/线下同时开课)
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下 ...
- 高级转录组调控分析和R语言数据可视化第十三期 (线上线下开课)
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下 ...
- 高级转录组调控分析和R语言数据可视化第十三期 (线上线下同时开课)
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下 ...
最新文章
- python培训班深圳-深圳哪里有Python培训班?
- linux4.19安装教程,树莓派4安装Ubuntu 19.10的教程详解
- 【Python】WindowsError的错误代码详解
- Java使用jackson问题解决
- 2.Explore Your Data
- Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
- 韩顺平php视频笔记83-87 防盗链 $_SERVER http协议相关 文件相关
- 【Siddhi】Siddhi的window操作
- 7 招教你轻松搭建以图搜图系统!
- pythonrequests证书_requests的ssl证书验证、身份认证、cert文件证书
- 小甲鱼python官网-小甲鱼零基础入门学习Python
- Linux批量更改文件后缀名
- svn指定版本代码对比的方法
- H5音乐播放器skPlayer,已支持拉取网易云音乐歌单。
- 外汇交易的主服务器中心,常见外汇交易商服务器ip地址汇总【转载】
- 解决qt.qpa.xcb: could not connect to display问题
- deepin驱动精灵_Deepin 20 Beta X64官方正式版(64位)
- caffe转onnx总结
- Java 开发环境配置教程
- win10如何改变登陆界面背景