PRO-seq数据分析

背景知识

大多数RNA-seq都是研究不同条件下细胞内mRNA变化。除了基因的编码区(CDS)可以转录成mRNA,基因组上的其他区域也能不同程度地转录(例如poly A,下游区域以及Enhancer),Enhancer可以产生短的且不稳定的RNA来调控转录,而这种调控的错误会引发多种疾病,因此,理解这种调控机理十分重要,然而传统RNA-seq技术在检测这种不稳定的RNA方面效率很低。
而PRO-seq技术就是对传统RNA-seq技术在这方面的改进,它可以富集并且测出刚刚被RNA聚合酶转录出来的新生RNA,并且精度达到一个碱基对。

相关文献:Nature protocol Base-pair-resolution genome-wide mapping of active RNA polymerases using precision nuclear run-on (PRO-seq)
https://www.ncbi.nlm.nih.gov/pubmed/?term=27442863
http://www.docin.com/p-1691424856.html

数据来源

文章标题:Nascent RNA sequencing reveals a dynamic global transcriptional response at genes and enhancers to the natural medicinal compound celastrol
数据来源:2017年5月23日冷泉港实验室更新的PRO-seq表达谱
实验设计:
K562细胞系在加入雷公藤红素(中药的一种)后,于0min,10min,20min,40min,60min,160min共六个时间点进行测量,每次2个重复,共计12个数据。
数据下载网址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE96869

创新亮点

传统的RNA-seq研究都是在测量mRNA的量,而通过PRO-seq,可以测出新合成的RNA,并且检测到几分钟后转录水平的变化,这可以更精确地分辨出调控的信号传导通路。

数据预处理

由于此数据原始数据sra太大,没有表达矩阵,只提供了测序序列reads在染色体上分布的位置文件(bw文件),所以需要进行数据预处理,统计每个基因上reads的数量,作为表达量,此处调用了R语言的rtracklayer包读入bw文件,接下来使用GenomicRanges包统计每个基因上的reads数。

差异表达基因筛选

由于样本量较少,故考虑专为小样本设计的T检验方法。又因为是时间序列,不能轻易划分成两个大组,考虑到时间是一个连续性因素,设计了如下的筛选方法:
1、对0min和10min的两组四个样本进行t检验;接下来依次进行10min和20min;20min和40min;40min和60min;60min和160min的t检验,相邻两个时间点进行t检验共计5次。
2、在上述5次t检验中,如果有4次发生显著性差异,且p<0.1,则说明细胞在加入雷公藤红素后,该基因表达有着显著性变化。
经过这样的筛选后,共有19个差异表达的基因,详见diffgene.txt,第一列为EntrezID。

表达量变化图

对于上述的19个差异表达基因,随机选取几个绘制表达量变化图,纵坐标为表达量,横坐标为不同时间。
可以发现两个基因表达量都在降低,并且在40-60之间有个转录反应的峰,这与文献摘要的This transcriptional response occurred in two major waves, one within 10 minutes, and a second 40-60 minutes after treatment.相对应。

图表 1BTBD2基因

图表 2PEAR1基因

表达谱绘制

首先,对于差异表达基因绘制表达谱,先是只对基因聚类,可以看出来从左到右,颜色由红到绿;这表明随着时间增长,大部分基因的表达量都是由高变低,这与文献摘要中提到的“雷公藤红素会抑制大部分的基因转录”相吻合。

图表 3表达谱单向聚类
接下来,对表达谱双向聚类,可以发现同一时间测得的两个重复试验都能聚类到一起去。

图表 4表达谱双向聚类

分析与讨论

1、对于时间序列数据的处理,这个相邻两组t检验的模型显然还是太过于简单,
2、GEO下载下来的PRO-seq数据是有作为内参对照的spikein数据,可以利用这些内参对照数据对数据进行归一化,将预处理做得更精细。

PRO-seq数据分析相关推荐

  1. 案例 | 基于JMP Pro的Lasso及岭回归在水稻全基因组预测中的应用

    全基因组选择是21世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分子标记来对育种值进行预测,为个体的选择提供依据.但目前提出的大多数全基因组预测方法都涉及 ...

  2. 【Learning Notes】线性链条件随机场(CRF)原理及实现

    1. 概述 条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminativ ...

  3. 8 个 Python 高效数据分析的技巧

    (给视学算法加星标,提升数据技能) 编译:专知/Yingying, Jiahui,英文原作:Conor Dewey 不管是参加Kaggle比赛,还是开发一个深度学习应用,第一步总是数据分析,这篇文章介 ...

  4. 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

    摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark ...

  5. linux shell 宏定义_Linux系统和Shell命令行简介,走上数据分析之路

    122Linux系统和Shell命令行简介,走上数据分析之路 本节作者:刘永鑫 中国科学院遗传与发育生物学研究所 版本1.0.2,更新日期:2020年8月31日 本项目永久地址:https://git ...

  6. 遗传:微生物组数据分析方法与应用

    本文版权归<遗传>杂志,已获授权,转载请联系杂志社 微生物组数据分析方法与应用 刘永鑫1,2,秦媛1,2,3,郭晓璇1,2,白洋1,2,3 1. 中国科学院遗传与发育生物学研究所,植物基因 ...

  7. 如何选择数据分析可视化工具?Excel, Tableau还是Power BI?

    来源:大数据文摘 本文约3500字,建议阅读5分钟 作为个人或公司,如何选择分析和可视化数据的工具? 正确分析使用数据可能会挖到宝藏.那么,作为个人或公司,如何选择分析和可视化数据的工具? 在本文中, ...

  8. 送你8个Python高效数据分析的技巧(附代码)

    来源:专知 本文共1300字,建议阅读5分钟. 本文介绍的数据分析方法,不仅能够提升运行效率,还能够使代码更加"优美". 不管是参加Kaggle比赛,还是开发一个深度学习应用,第一 ...

  9. Python技术栈与Spark交叉数据分析双向整合技术实战--大数据ML样本集案例实战

    版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客.QQ邮箱地址:1120746 ...

  10. 初识sparklyr—电影数据分析

    这篇文章是初次使用sparklyr扩展包来进行一些数据分析,对Spark牵扯不是很多.使用的数据是movieLens 100k,这份数据包含943个用户对1680部电影的评分数据,如需获取数据请在文末 ...

最新文章

  1. 三星s7android7,三星S7/S7 Edge国行成功吃上牛轧糖 今日升级安卓7.0
  2. [Android工具]更新音乐下载软件,MP3音乐无损音乐下载器
  3. checkVector()
  4. 游戏201712-2
  5. 【DevCloud · 敏捷智库】如何进行需求优先级管理?
  6. JasperReport和iReport的java集成大全
  7. ios 自动缩小字体_iOS WKWebview字体自动放大的问题
  8. android屏幕共享及远程控制,android屏幕共享及远程控制原理
  9. oracle 脚本定时,Oracle定时任务备份脚本
  10. 阿里云香港和大陆的服务器分析
  11. 短语匹配-match_phrase以及slop参数
  12. 在线正则表达式测试工具
  13. 动画基础,3种动画方式
  14. oracle rfs进程过多,dg同步后RFS进程起不来,归错于ORA-00604和ORA-16000
  15. Java内存区域和GC机制
  16. selenium执行js脚本
  17. 百度:AI技术哪家强,度厂科大最在行?
  18. Qt学习 第22节:Qcolor 中的Alpha不透明度
  19. ssm+vue学生网络作业管理系统java maven
  20. Python - 归一化与反归一化

热门文章

  1. android .9图片详解及应用
  2. 定期产品如何用活期的方式展示——逼近算法
  3. java生成报文_生成xml报文方法并输出
  4. 测试公众号开发php,快速接入公众号开发
  5. JavaScript 音乐导航(缓动动画、会唱歌的导航)
  6. 和警察蜀黍拍照像“抓捕现场”?效哥告诉你正确拍照姿势!
  7. 短视频去水印API文档
  8. 不成熟的男人的爱情观——知乎上另一个关于不成熟男人的见解
  9. 网络安全之暴露面、攻击面、脆弱性
  10. Java is Pass-by-Value, Dammit! 我靠!Java就是值传递!