RNA-seq miRNA-seq联合分析

背景知识

肝癌细胞经常会入侵门静脉系统,从而导致门静脉癌栓,但是还没有一个详尽的研究来讨论其中的作用机制,因此需要对肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal)进行采样分析。

数据来源

数据来源于2017年5月24日清华大学更新的miRNA-seq,DNA methylation, CNV, RNA-seq

项目标题:The molecularlandscape of hepatocellular carcinoma with portal vein tumor thrombosis

实验设计:

提取了来自20个中国肝癌患者的肿瘤组织,门静脉组织和癌旁组织,共计60个样本,分别对其进行miRNA-seq,甲基化分析,拷贝数变异分析和RNA-seq分析。

数据下载网址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77276

RNA-seq数据分析

数据预处理

由于此数据原始数据sra太大,没有表达矩阵,提供了测序序列reads经过标准化以后,在每个基因上的数目(normalized_count),将各个样本reads count文件合并就可以得到表达矩阵。

差异表达基因筛选

根据文献所述,使用R包DESeq2筛选差异表达基因,DESeq2使用负二项分布产生的线性模型,具体原理可见如下网址

http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#theory-behind-deseq2

分组方式:源数据为肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal),然而由于门静脉组织也属于病变组织的一种,可以和tumor划分为一类

最终在pvalue<0.001的条件下筛选出5676个差异表达基因,具体可以参见文件condition_treated_results.txt。

聚类热图

对前20个差异表达基因绘制聚类热图,可以发现normal和tumor明显分开,这说明DESeq2找出来的差异表达基因还是蛮不错的。

图表 1聚类热图

深度分析

为了进一步探索数据和结果,绘制MA-plot,横坐标为每个基因上reads的数目(标准化后);纵坐标为log2fold change,即变化的程度;每个点就是一个基因,红色小点为pvalue<0.001的基因;只绘制了log2foldchange在(-3,+3)以内的基因,即改变程度在(0.125,8)倍的基因,对于不在此范围内的基因,用三角形的标志画在边界线上。

图表 2MA-plot

可以从图中看出来,黑色部分大致形成一个三角形,而红色部分(差异表达基因)包裹在黑色三角形外围。这说明用DESeq2的负二项分布模型找出来的差异表达基因,大部分都是reads数目多(测序深度高),且表达量差异很大的基因。

接下来绘制某一基因在不同组织的表达量。选取p值最小的那个基因

图表 3某一基因的表达量

PVTT和tumor在差异表达基因筛选的时候合为两组,此时绘图的时候仍然将它们分开。可以看到ENSG00000077152在normal和PVTT+tumor间表达量明显不同。

再接下来可以进行主成分分析,对整个表达矩阵计算主成分,然后选取前面两个主成分绘制PCA图,可以看见PCA1代表了原本36%的信息量,PCA2代表了原本10%的信息量,然后normal和其他两类比较能分得开,比起之前那次作业芯片数据,这次的紧致性要好得多。

图表 4PCA图

miRNA-seq数据分析

数据处理过程和上面的RNA-seq一样,把代码切换一下目录就成。

在2578个miRNA中,共有199个差异表达(pvalue<0.001),绘制MA-plot发现上调的居多,

图表 5MA-plot

接下来,也对差异表达的部分做了聚类热图,发现对于差异表达的部分,两组确实分得挺开的。

图表 6聚类热图

接下来也挑了p值最小的miRNA绘制reads count图,发现两组之间的差异确实蛮明显的。

图表 7p值最小miRNA

最后,进行了主成分分析,绘制PCA图,紧致性不如上面的RNA-seq,应该是前两个PCA代表的信息太少的缘故,第一主成分只有代表源数据19%的信息,第二主成分代表17%的信息,俩主成分加起来才有刚刚一个主成分那么多信息(RNA-seq第一主成分就有36%)。

图表 8PCA图

联合分析

MAGIA(miRNA和基因整合分析)是一个进行靶预测、miRNA和基因表达数据整合分析的新的网络工具。接下来,使用magia进行miRNA与基因相互作用的联合分析。

网址:http://gencomp.bio.unipd.it/magia/analysis/

Step1

由于miRNA-seq和RNA-seq是来源相同的配对数据,而且样本数有60个。联合分析算法选择MATCHED:Mutual Information

MATCHED: Mutual Information: a classicinformation measure quantifying the mutual dependence of variables, includingnon-linear relationships. Suitable for large sample size (>20 needed).

Step2

接下来的预测方式选择Pita和miRanda的交集

Pita score filter:-10 Miranda score filter:500(都是默认值)

Step3

接下来将上面分析出来的差异表达矩阵分别上传,分析即可。下面就是绘制出来的相互作用网络图。

图表 9相互作用网络

红色三角形为miRNA,绿色圆形为基因。

红色圈圈是看上去连线比较多的几个miRNA,比较重要,名字分别是:hsa-miR-760、hsa-miR-1303 、hsa-miR-671-5p、hsa-miR-324-3p、hsa-miR-423-3p

还能做出来相互作用(interaction)的程度,下载为tsv文件,

就是一张包含了MicroRNA、Gene Symbol、MutualInformation的表,Mutual Information指互信息,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

也就是说,在这里MutualInformation就可以看做两者的相关程度。

就比如在下图表的截图中可以看出来,hsa-mir-1303和其对应的靶基因DBF4B、hsa-mir-501-5p和其对应的靶基因KIF2C就有很强的相关性。

图表 10相互作用表

GO注释

使用Gene Ontology官网上的在线注释功能即可,输入刚刚相互作用网络interactions.tsv文件中的基因名,进行biologicalprocess(生化反应),molecularfunction(分子功能),cellularcomponent(细胞定位)三方面的富集分析,通过富集分析可以找出在统计上显著富集的GO Term,这些富集的条目有可能与研究的目前有关。

图表 11biological process

图表 12molecular function

图表 13cellular component

看上去确实有一些相关的富集条目,比如分子功能:染色体绑定(chromatin binding);生化过程:有丝分裂过程(mitotic cell cycle);细胞定位:染色体部位(chromosomal part),这些都和癌症细胞的产生有着重要关系。

结语

本次实验使用的是配对的miRNA和mRNA表达谱文件,这给了我们一个通过生物信息学工具构建miRNA-mRNA相互作用网络的好机会,在系统层次的分析表明,我们找到了许多的重要miRNA和mRNA,这些对于肝癌起始和发展的过程中起着重要作用。这个全局的“miRNA-mRNA相互作用网络”对于筛选miRNA靶基因和发现新的治疗靶标有着重要意义。

RNA-seq与miRNA-seq联合分析相关推荐

  1. 文献解读|miRNA与多组学联合分析阐明花生花青素合成新机制

    TITLE:Multi-Omics and miRNA Interaction Joint Analysis Highlight New Insights Into Anthocyanin Biosy ...

  2. DNA甲基化、miRNA、mRNA联合分析

    DNA甲基化.miRNA.mRNA联合分析 简介 DNA甲基化是一个生物过程,是一种重要的表观遗传修饰.DNA甲基化是在DNA分子中引入甲基化基团,但是甲基化并不会改变基因的序列,而是改变DNA片段的 ...

  3. 【转录调控网络】代谢组学与其他组学的联合分析经典模式简介

    多组学联合分析经典模式 转录组学&代谢组学联合分析 蛋白质组学&代谢组学联合分析 微生物组学&代谢组学联合分析 基因组学&代谢组学联合分析 LncRNA&代谢组 ...

  4. ChIP-seq和RNA-seq联合分析助力揭示暹罗炭疽菌对咯菌腈反应的作用

    发表单位:海南大学植物保护学院 发表日期:2022年9月29日 期刊:Journal of Fungi(IF=5.724) 2022年9月29日,海南大学植物保护学院热带植物病虫害绿色防治教育部重点实 ...

  5. BZOJ 1798: [Ahoi2009]Seq 维护序列seq

    二次联通门 : BZOJ 1798: [Ahoi2009]Seq 维护序列seq /*BZOJ 1798: [Ahoi2009]Seq 维护序列seq线段树主要是标记的顺序下放问题...乱搞一下就好. ...

  6. 创意产品 分析_使用联合分析来发展创意

    创意产品 分析 Advertising finds itself in a tenacious spot these days serving two masters: creativity and ...

  7. 派森诺转录+代谢组联合分析

    异齿裂腹鱼属于裂腹鱼亚科鱼类,藏语称"棒棒鱼",是裂腹鱼亚科中具有代表性的四倍体物种,主要分布于雅鲁藏布江干流和支流中,属于青藏高原重要的特有鱼类.目前,由于河流筑坝和过度捕捞,裂 ...

  8. 联合分析法(Python实现)

    本文介绍联合分析法及如何用Python实现. 使用到的数据 链接:https://pan.baidu.com/s/1uOJpytFB_iHPHRG7F4-zJA  提取码:x5n4 简介: 联合分析法 ...

  9. 代谢组与转录组联合分析方法介绍

    这次将介绍代谢与转录组联合分析的常用方法,主要包括相关性分析.KEGG通路分析.典型相关性分析等,这里相关性分析是两两代谢物表或者基因表达量之间计算相关性,典型相关是多变量多个代谢物和多个基因一起的两 ...

最新文章

  1. 如何用python编写一个绘制马赛克图像的自写程序mask = np.zeros
  2. 列名 userid 不明确。 表结构_那些你不知道的表结构设计思路
  3. asp.net试题(三)
  4. html中文本域选中后会出现蓝边框
  5. TL-WAR308 刷openwrt以及魔改8M固件到16M
  6. 华为云CDN+芒果TV,是如何做出“云”榜样?
  7. 朴素贝叶斯模型、推导、拉普拉斯平滑
  8. 电大计算机本科离散数学考试题,2017年电大本科离散数学期末考试复习试题及答案.doc...
  9. python绘制中国地图散点图_使用Python实现画一个中国地图
  10. 神经网络计算棒怎么用,微软神经网络计算棒
  11. 《信息安全系统设计基础》课程总结 20155335 俞昆
  12. 用“等待-通知”机制优化循环等待
  13. 计算机基础知识赏花主观题,春光无限好,正是花开时 快收好这份赏花指南!...
  14. Java面向对象高级部分——通过Class类实例化对象(五十二)
  15. 从哪里租vps远程桌面服务器,vps远程桌面服务器租一个
  16. 灯丝LED灯泡的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  17. git 知:贮藏与清理
  18. OGNL表达式的基本语法和用法
  19. python可迭代_python中可迭代对象有哪些
  20. ACM题解——训练赛2_D - The Beatles

热门文章

  1. CCC认证介绍(转载)
  2. Foxmail中加入Gmail邮箱。对“:ssl连接错误, errorCode:”的修复。
  3. MySQL实战开发技巧
  4. 填补空缺——压缩感知
  5. 制作Code128B一维条形码的综合教程
  6. Acer 4750 安装黑苹果_黑苹果全套安装教程!
  7. SNMP采集测试工具使用方法
  8. 关于C#建立FLASH服务端的安全沙箱问题
  9. php 粘性表单功能,php 粘性表单验证
  10. word中鼠标拖动文字突然无法突出显示