[scRNA-seq]单细胞转录因子分析——SCENIC算法简析
转录因子(transcription factors, TFs)是直接作用于转录组上,调控DNA转录的蛋白质。它通过与DNA特定区域结合,促进(activator)或阻止(repressor)DNA的转录过程。
了解转录因子对于了解细胞的功能及生命活动有重要作用。SCENIC就是一个常见的、基于单细胞转录组数据分析转录因子活性、基因调控网路的工具。SCENIC的分析主要分为三步,第一步通过基因之间的共表达,找到可能的转录因子。第二步是进行转录因子-motif的富集分析并找到对应的靶基因(调控组regulon)。第三步是对调控组的活跃程度进行评分。
第一步由GENIE3或GRNBoost实现。GENIE3用转录因子的表达量,通过训练随机森林(random forest)模型来预测各基因的表达量,从而得到转录因子在预测每个基因转录时的权重。这个权重反映了转录因子对于预测基因转录水平的相关性。相关性越高,则代表基因更有可能是该转录因子的靶基因。
随机森林是由多个决策树形成的分类器,它通过有放回的抽样训练出多个决策树,再以决策树结果中的众数为最终的结果。更详细的解释,可见:https://zhuanlan.zhihu.com/p/57965634
GENIE3的输入为基因表达矩阵,可以是UMI、TPM,或者FPKM/RPKM。而GENIE3的输出为基因、可能参与该基因的转录因子,以及它们的该转录因子的重要性(importance measure, IM),即其在预测基因转录水平时的权重。只有当权重高于0.001时,该转录因子才被认为是可能参与该基因调控的转录因子。
因为随机森林需要进行多次抽样,训练出多个决策树,当数据量很大时,这一步非常花时间,因此针对较大的数据,第一步可以用GRNBoost,它使用了梯度提升算法,在训练新的决策树时,会提高上一个决策树出错的样本比例,以针对模型预测欠缺的地方进行优化。
第二步由RcisTarget实现。它的主要作用在于通过一个基因列表,找到富集的转录因子及转录因子结合模序(motif),即可能的转录因子结合位点的模板序列。
它通过两步进行。首先,它找到基因列表里基因的转录起始位点(transcript ion start site, TSS)。并找出转录起始位点周围高频出现的DNA motif。它会搜寻一个包含了跨物种基因组范围内各motif信息的数据库,筛选出和目标转录因子相关联的、标准化富集指数(normalised enrichment score, NES)高于3.0的motif。
接着,针对每一组motif和基因列表,RcisTarget会预测可能的目标基因。目标基因为基因列表中预测结果排序靠前的基因。所有motif共有的目标基因加上与之对应的转录因子,即为调控组regulon。
第三步由AUCell实现,它能找到每个细胞中一组基因的活跃程度。在这,SCENIC通过AUCell计算regulon的活跃程度。AUCell计算曲线下的面积(area under recovery curve, AUC),依据每个基因的表达水平,来计算出regular的活跃程度。各基因根据基因表达水平在x轴排序来绘制曲线。因此AUC反映了在每个细胞中给定的一组基因相对于其它基因的表达水平。
通过AUCell,我们能得到一个矩阵,包含每组regulon在每个细胞内相对于其它基因的表达水平,即它们的活跃程度。通过这一个矩阵,我们可以对细胞进行聚类,也可以看不同细胞类型中都有什么regulon是活跃的。
以上是SCENIC的算法概述,下一篇内容我们来聊聊如何用SCENIC进行转录因子分析,并把得到的结果通过图片展示出来。
祝大家吃好喝好睡好,科研快乐~
欢迎关注微信公众号 “小L的读博日常”,第一时间获得更多和生物信息学相关的小tips。
Ref:
[1] https://zhuanlan.zhihu.com/p/434003188
图片来源:Twitter @PHDcomics
[scRNA-seq]单细胞转录因子分析——SCENIC算法简析相关推荐
- [scRNA-seq]单细胞转录因子分析——SCENIC实操示例
之前的文章我们写到了用SCENIC对单细胞RNA测序数据进行转录因子分析的原理:[scRNA-seq]单细胞转录因子分析--SCENIC算法简析.在这篇推送中,我们就用数据实例来展示如何得到SCENI ...
- 基于 python 的单细胞转录因子分析
基于 python 的单细胞转录因子分析 pyscenic 文章目录 基于 python 的单细胞转录因子分析 前言 Main 前言 流程极为简单,几乎没有任何难度 Main Install pysc ...
- STL中sort算法简析
STL里sort算法简析 文章目录 STL里sort算法简析 一.引入 二.正解 三.源码 **`sort的源码`**: **`其中,__introsort_loop便是内省式排序:`** 插入排序 ...
- 离散数学中Warshall算法简析
离散数学中Warshall算法简析 最近学了离散数学的图论,突然感觉离散数学的作用十分强大,相信学好离散数学中的算法,编程的魅力也不言而喻.闲话不多说,这篇博客中记录的是Warshall算法的简单解析 ...
- PySCENIC(三):pyscenic单细胞转录因子分析可视化
更多精彩内容请至我的公众号---KS科研分享与服务 先加载需要的R包,都加载了,没毛病. setwd("/home/shpc_100828/Pyscenic/") #加载分析包 l ...
- 网易云音乐的个性化推荐算法简析
本文是一个云村九级用户,根据多年的使用体验,对网易云音乐个性化推荐系统(私人FM,每日歌曲推荐,推荐歌单)运作模式的猜测分析. 很早以前刚开始使用网易云音乐的时候,我就对其个性化推荐系统有过一些猜测, ...
- 基于python3.7 numpy scipy matplotlib sklearn的机器学习笔记5—监督学习之KNN、DT、NB算法简析
1.KNN :通过计算待分类数据点,与 已有数据集中的所点距离.取距离最小的前 K个点,根据"少数服从 多数"的原则,将这个据点划分为出现次数最多的那个类别. 在sklearnsk ...
- 完美洗牌算法简析与代码实现
题目需求 数组[a1,a2,a3,a4,b1,b2,b3,b4],洗牌后变成[b1,a1,b2,a2,b3,a3,b4,a4]. 不得使用额外的空间,即空间复杂度要求为O(1).因为如果用线性空间,直 ...
- TF-IDF的Matlab程序,TF-IDF算法简析 - osc_sjg81se7的个人空间 - OSCHINA - 中文开源技术交流社区...
TF-IDF算法可用来提取文档的关键词,关键词在文本聚类.文本分类.文献检索.自动文摘等方面有着重要应用. 算法原理 TF:Term Frequency,词频 IDF:Inverse Document ...
最新文章
- Windows Server 2008 R2 如何启用WINS服务
- docker运行dubbo-admin
- 8880 e7 v2配什么主板_MATX主板配什么机箱好?曜越Tt启航者A3装机记
- ionic build android release,ionic build android -release运行报错
- 最全的spark基础知识解答
- graphpad饼状图_应用 Graphpad 统计作图,助你写文章事半功倍
- 硬件编解码与软件编解码的区别
- Yii2.0 SESSION使用方法
- javaweb实现在线支付功能
- 项目管理工具project软件学习(二) - 自定义日历【标准+节假日】
- C++周末训练题-机器人迷宫(BFS)
- 劳务派遣经营许可证怎样办理
- bugku上Snowfall解题过程
- 显示器分辨率一直跳_电脑屏幕的分辨率老是变换怎么回事?
- NOIP复赛中低级错误排行榜
- 文件系统的层次结构的理解总结
- 什么是自动出价?它的优势是什么?
- python面试题整活:另类复制粘贴
- 如何从微信跳到外部浏览器进行apk文件(app)下载如何解决
- 【市场调查】LCM全套模组生产厂商
热门文章
- 华为设备配置静态路由与NQA联动
- unity shader 边缘光,内发光,外发光,轮廓边缘光,轮廓内边缘光,轮廓外边缘光
- 删除 Windows 的默认打开方式
- 为什么邮件发的邮箱会进垃圾箱?企业邮箱进垃圾箱有什么处理方法?
- java 拼音识别_JAVA实现汉字转拼音
- 大连理工大学GlobalProtect使用方法
- 火车站信号自动语音播报系统的设计
- 云图雅集—优美的文章段落
- android10和11,安卓10与安卓11究竟差异在哪里?我们拿这两台新机试了一下
- 【ZZULIOJ】1023: 大小写转换