转录因子(transcription factors, TFs)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合,促进(activator)或阻止(repressor)DNA的转录过程。

了解转录因子对于了解细胞的功能及生命活动有重要作用。SCENIC就是一个常见的、基于单细胞转录组数据分析转录因子活性、基因调控网路的工具。SCENIC的分析主要分为三步,第一步通过基因之间的共表达,找到可能的转录因子。第二步是进行转录因子-motif的富集分析并找到对应的靶基因(调控组regulon)。第三步是对调控组的活跃程度进行评分。


第一步由GENIE3或GRNBoost实现。GENIE3用转录因子的表达量,通过训练随机森林(random forest)模型来预测各基因的表达量,从而得到转录因子在预测每个基因转录时的权重。这个权重反映了转录因子对于预测基因转录水平的相关性。相关性越高,则代表基因更有可能是该转录因子的靶基因。

随机森林是由多个决策树形成的分类器,它通过有放回的抽样训练出多个决策树,再以决策树结果中的众数为最终的结果。更详细的解释,可见:https://zhuanlan.zhihu.com/p/57965634

GENIE3的输入为基因表达矩阵,可以是UMI、TPM,或者FPKM/RPKM。而GENIE3的输出为基因、可能参与该基因的转录因子,以及它们的该转录因子的重要性(importance measure, IM),即其在预测基因转录水平时的权重。只有当权重高于0.001时,该转录因子才被认为是可能参与该基因调控的转录因子。

因为随机森林需要进行多次抽样,训练出多个决策树,当数据量很大时,这一步非常花时间,因此针对较大的数据,第一步可以用GRNBoost,它使用了梯度提升算法,在训练新的决策树时,会提高上一个决策树出错的样本比例,以针对模型预测欠缺的地方进行优化。


第二步由RcisTarget实现。它的主要作用在于通过一个基因列表,找到富集的转录因子及转录因子结合模序(motif),即可能的转录因子结合位点的模板序列。

它通过两步进行。首先,它找到基因列表里基因的转录起始位点(transcript ion start site, TSS)。并找出转录起始位点周围高频出现的DNA motif。它会搜寻一个包含了跨物种基因组范围内各motif信息的数据库,筛选出和目标转录因子相关联的、标准化富集指数(normalised enrichment score, NES)高于3.0的motif。

接着,针对每一组motif和基因列表,RcisTarget会预测可能的目标基因。目标基因为基因列表中预测结果排序靠前的基因。所有motif共有的目标基因加上与之对应的转录因子,即为调控组regulon。


第三步由AUCell实现,它能找到每个细胞中一组基因的活跃程度。在这,SCENIC通过AUCell计算regulon的活跃程度。AUCell计算曲线下的面积(area under recovery curve, AUC),依据每个基因的表达水平,来计算出regular的活跃程度。各基因根据基因表达水平在x轴排序来绘制曲线。因此AUC反映了在每个细胞中给定的一组基因相对于其它基因的表达水平。

通过AUCell,我们能得到一个矩阵,包含每组regulon在每个细胞内相对于其它基因的表达水平,即它们的活跃程度。通过这一个矩阵,我们可以对细胞进行聚类,也可以看不同细胞类型中都有什么regulon是活跃的。

以上是SCENIC的算法概述,下一篇内容我们来聊聊如何用SCENIC进行转录因子分析,并把得到的结果通过图片展示出来。

祝大家吃好喝好睡好,科研快乐~

欢迎关注微信公众号 “小L的读博日常”,第一时间获得更多和生物信息学相关的小tips。

Ref:

[1] https://zhuanlan.zhihu.com/p/434003188

图片来源:Twitter @PHDcomics

[scRNA-seq]单细胞转录因子分析——SCENIC算法简析相关推荐

  1. [scRNA-seq]单细胞转录因子分析——SCENIC实操示例

    之前的文章我们写到了用SCENIC对单细胞RNA测序数据进行转录因子分析的原理:[scRNA-seq]单细胞转录因子分析--SCENIC算法简析.在这篇推送中,我们就用数据实例来展示如何得到SCENI ...

  2. 基于 python 的单细胞转录因子分析

    基于 python 的单细胞转录因子分析 pyscenic 文章目录 基于 python 的单细胞转录因子分析 前言 Main 前言 流程极为简单,几乎没有任何难度 Main Install pysc ...

  3. STL中sort算法简析

    STL里sort算法简析 文章目录 STL里sort算法简析 一.引入 二.正解 三.源码 **`sort的源码`**: **`其中,__introsort_loop便是内省式排序:`** 插入排序 ...

  4. 离散数学中Warshall算法简析

    离散数学中Warshall算法简析 最近学了离散数学的图论,突然感觉离散数学的作用十分强大,相信学好离散数学中的算法,编程的魅力也不言而喻.闲话不多说,这篇博客中记录的是Warshall算法的简单解析 ...

  5. PySCENIC(三):pyscenic单细胞转录因子分析可视化

    更多精彩内容请至我的公众号---KS科研分享与服务 先加载需要的R包,都加载了,没毛病. setwd("/home/shpc_100828/Pyscenic/") #加载分析包 l ...

  6. 网易云音乐的个性化推荐算法简析

    本文是一个云村九级用户,根据多年的使用体验,对网易云音乐个性化推荐系统(私人FM,每日歌曲推荐,推荐歌单)运作模式的猜测分析. 很早以前刚开始使用网易云音乐的时候,我就对其个性化推荐系统有过一些猜测, ...

  7. 基于python3.7 numpy scipy matplotlib sklearn的机器学习笔记5—监督学习之KNN、DT、NB算法简析

    1.KNN :通过计算待分类数据点,与 已有数据集中的所点距离.取距离最小的前 K个点,根据"少数服从 多数"的原则,将这个据点划分为出现次数最多的那个类别. 在sklearnsk ...

  8. 完美洗牌算法简析与代码实现

    题目需求 数组[a1,a2,a3,a4,b1,b2,b3,b4],洗牌后变成[b1,a1,b2,a2,b3,a3,b4,a4]. 不得使用额外的空间,即空间复杂度要求为O(1).因为如果用线性空间,直 ...

  9. TF-IDF的Matlab程序,TF-IDF算法简析 - osc_sjg81se7的个人空间 - OSCHINA - 中文开源技术交流社区...

    TF-IDF算法可用来提取文档的关键词,关键词在文本聚类.文本分类.文献检索.自动文摘等方面有着重要应用. 算法原理 TF:Term Frequency,词频 IDF:Inverse Document ...

最新文章

  1. Windows Server 2008 R2 如何启用WINS服务
  2. docker运行dubbo-admin
  3. 8880 e7 v2配什么主板_MATX主板配什么机箱好?曜越Tt启航者A3装机记
  4. ionic build android release,ionic build android -release运行报错
  5. 最全的spark基础知识解答
  6. graphpad饼状图_应用 Graphpad 统计作图,助你写文章事半功倍
  7. 硬件编解码与软件编解码的区别
  8. Yii2.0 SESSION使用方法
  9. javaweb实现在线支付功能
  10. 项目管理工具project软件学习(二) - 自定义日历【标准+节假日】
  11. C++周末训练题-机器人迷宫(BFS)
  12. 劳务派遣经营许可证怎样办理
  13. bugku上Snowfall解题过程
  14. 显示器分辨率一直跳_电脑屏幕的分辨率老是变换怎么回事?
  15. NOIP复赛中低级错误排行榜
  16. 文件系统的层次结构的理解总结
  17. 什么是自动出价?它的优势是什么?
  18. python面试题整活:另类复制粘贴
  19. 如何从微信跳到外部浏览器进行apk文件(app)下载如何解决
  20. 【市场调查】LCM全套模组生产厂商

热门文章

  1. 华为设备配置静态路由与NQA联动
  2. unity shader 边缘光,内发光,外发光,轮廓边缘光,轮廓内边缘光,轮廓外边缘光
  3. 删除 Windows 的默认打开方式
  4. 为什么邮件发的邮箱会进垃圾箱?企业邮箱进垃圾箱有什么处理方法?
  5. java 拼音识别_JAVA实现汉字转拼音
  6. 大连理工大学GlobalProtect使用方法
  7. 火车站信号自动语音播报系统的设计
  8. 云图雅集—优美的文章段落
  9. android10和11,安卓10与安卓11究竟差异在哪里?我们拿这两台新机试了一下
  10. 【ZZULIOJ】1023: 大小写转换