python基因差异分析_R语言之生信②差异基因分析2

R语言之生信②差异基因分析2

样品的无监督聚类

检查基因表达分析最重要的探索性策略之一是多维定标(MDS)图或类似的图。该图以无监督的方式显示了样本之间的相似性和不相似性，以便人们可以了解在进行正式测试之前可以检测差异表达的程度。理想情况下，样本会在感兴趣的主要条件下很好地聚类，并且可以识别任何偏离其群组的样本，并追踪误差来源或额外变化。

lcpm

par(mfrow=c(1,2))

col.group

levels(col.group)

col.group

col.lane

levels(col.lane)

col.lane

plotMDS(lcpm, labels=group, col=col.group)

title(main="A. Sample groups")

plotMDS(lcpm, labels=lane, col=col.lane, dim=c(3,4))

title(main="B. Sequencing lanes")

这种方法可以使用plotMDS函数在limma包中进行。第一个维度解释了数据中最大的变化比例，其后的维度具有较小的影响并且与之前的维度正交。当实验设计涉及多个因素时，建议在多个维度上检查每个因子。如果样本以任何这些维度中的给定因子聚类，则表明该因子有助于表达差异，并且值得包括在线性建模中。另一方面，影响很小或没有影响的因素可能会被排除在下游分析之外。在这个数据集中，可以看到样本在维度1和维度2内的实验组内很好地聚类。虽然所有样本都是按照群组聚集的，但是观察到在基础和LP之间以及基线和ML在维度1上的最大转录差异。由于这个原因，预计细胞群体之间的配对比较将导致用于比较的更多数量的DE基因涉及基础样本，并且在比较ML和LP时涉及相对少量的DE基因。

另外，Glimma软件包提供了可以探索多个维度的交互式MDS图的便利。 glMDSPlot函数在左侧面板中生成一个带有MDS图的html页面(如果launch = TRUE，则在浏览器中打开该页面)，并显示右侧面板中每个维度解释的变化比例的barplot。单击条形图的条形图会更改MDS图形中绘制的一对维度，然后悬停在各个点上可以显示样本标签。颜色方案也可以改变以突出细胞群或测序泳道(批次)。这个数据集的交互式MDS图可以在http://bioinf.wehi.edu.au/folders/limmaWorkflow/glimma-plots/MDS-Plot.html找到。

library(Glimma)

glMDSPlot(lcpm, labels=paste(group, lane, sep="_"), groups=x$samples[,c(2,5)],

launch=T)

差异表达分析

创建一个设计矩阵和对比

在这项研究中，我们感兴趣的是看到哪些基因在三种细胞群体之间的不同水平上表达。在我们的分析中，假设基础数据是正态分布的，假设线性模型符合数据。为了开始，设计矩阵与细胞群体和测序泳道(批次)信息一起建立。

design

colnames(design)

design

contr.matrix

BasalvsLP = Basal-LP,

BasalvsML = Basal - ML,

LPvsML = LP - ML,

levels = colnames(design))

contr.matrix

从计数数据中去除杂波

已经显示，对于RNA-seq计数数据，方差并不依赖于平均值13 - 原始计数或转换为对数CPM值时，情况属实。使用负二项分布模型计数的方法假定二次均方差关系。在limma中，对log-CPM值进行线性建模，log-CPM值假定为正态分布，并使用由voom函数计算的精确权重来适应均值 - 方差关系。在DGEList对象上运行时，voom通过自动从x本身提取库大小和规范化因子，将原始计数转换为log-CPM值。可以使用normalize.method参数在voom中指定对日志CPM值的其他标准化。

vfit

efit

plotSA(efit)

左图显示了该数据集的log-CPM值的均值 - 方差关系。典型地，“voom-plot”显示由测序实验中的技术变化和来自不同细胞群的重复样品之间的生物变异的组合导致的均值和变化之间的下降趋势。具有高生物学变异的实验通常导致更平坦的趋势，其中方差值在高表达值时平稳。低生物变异的实验倾向于导致急剧下降的趋势。右图表示基因方差不受基因平均值影响。

检查DE基因的数量

为了快速了解差异表达水平，可以在表格中总结显着上调和下调基因的数目。显着性是使用默认设置为5％的调整后的p值截止值来定义的。为了比较Basal和LP中的表达水平总共8,425个DE基因。在Basal和ML之间发现总共8,510个DE基因(4,338个下调基因和4,172个上调基因)，并且在LP和ML之间发现总共5,340个DE基因(2,895个下调和2,445个上调)。观察到的涉及基础群体的较大数量的DE基因与我们对MDS图的观察结果一致。

summary(decideTests(efit))

BasalvsLP BasalvsML LPvsML

Down 4127 4338 2895

NotSig 5740 5655 8825

Up 4298 4172 2445

python基因差异分析_R语言之生信②差异基因分析2相关推荐

python基因差异分析_玉米RNA-seq测序数据差异基因分析
原标题:玉米RNA-seq测序数据差异基因分析 huanying今天给大家分享一个非常棒的玉米转录组的流程分析.原文作者是cxge,首发于omicshare论坛,阅读原文可跳转至本文的帖子哦~ 软件及 ...
[生信]biomaRt 基因ID的转换
[生信]基因ID的转换 Bioconductor系列之biomaRt 包的安装选择数据库三个主要函数getBM,getSequence,getLDS 几个实用的例子例．对几个基因symbol,注 ...
edger多组差异性分析_R语言利用edgeR package进行基因差异表达分析举例
R语言利用edgeR package进行基因差异表达分析举例实验数据: 同一组织,分为两组,control vs treat,每组7例sample.数据第一列为基因名,后14列为对应的count. ...
易生信高级转录组分析和数据可视化-最后一天报名
常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,以后应该就如做个PCR一样常见.而且分析思路简洁清晰,是入门生信,学习生信分析思路的首选. 数据分析是相通的,通过一个简单 ...
易生信高级转录组分析和数据可视化第9期课程开课啦！！
常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,以后应该就如做个PCR一样常见.而且分析思路简洁清晰,是入门生信,学习生信分析思路的首选. 数据分析是相通的,通过一个简单 ...
python r语言培训_R语言学习第一课
最早2010年6月17日建立的这个博客, 开始学习R语言也是在4年前,读过Robert I. Kabacoff著的<R语言实战>,从中学到了不少R语言的实践技能. 最近开始关注统计学,运筹 ...
python依照概率抽样_R语言之随机数与抽样模拟篇
R语言生成均匀分布随机数的函数是runif() 句法是:runif(n,min=0,max=1) n表示生成的随机数数量,min表示均匀分布的下限,max表示均匀分布的上限:若省略参数min.max ...
利用python构建马科维茨_R语言动量和马科维茨Markowitz投资组合(Portfolio)模型实现...
动量和马科维茨投资组合模型使均值方差优化组合成为可行的解决方案.通过建议并测试: 增加最大权重限制增加目标波动率约束下面,我将查看8个资产的结果: 首先,让我们加载所有历史数据 #****** ...
python求几何平均_R语言的几何平均数，调和平均数，平方平均数
平方平均数最容易实现a root.mean.square 几何平均数实现算法,要考虑到NA或负值geometry.mean geo_mean log_data gm return(gm) } 也可以用 ...

python基因差异分析_R语言之生信②差异基因分析2

python基因差异分析_R语言之生信②差异基因分析2相关推荐

最新文章

热门文章