摘要

本文开发了虚拟chip-seq,整合了基因表达和结合的关联信息,使用了来自其他细胞类型的TF结合位点,以及新细胞类型中染色质可及性数据,能够预测新细胞类型中单个TF的结合。该方法优于仅基于序列偏好预测TF结合的方法,预测了36个TF的结合(MCC > 0.3)。

解决的问题

DNA的一级结构(序列)、二级结构(形状)和三级结构(构象)都在TF结合中发挥作用,许多TF是间接和DNA结合的。在此情况下,使用体外数据训练的模型在进行体内实验时表现不佳。为了解决该问题,本文从探索依赖于上下文的TF bunding出发来解决这一问题。

评价指标

使用ENCODE提出的评估TF结合预测的指南:评估FN预测的受试者操作特征曲线(auROC)下的面积和评估FPs的精确回忆曲线(auPR)下的面积。
使用马修斯相关系数(MCC)评估模型在预定义阈值上的性能。

模型

Virtual ChIP-seq通过从公开的ChIP-seq实验、基因组保守性和所有基因表达与TF结合的相关性中学习来预测TF结合。主要通过学习转录组对TF结合影响的新表达,使用多层感知器整个表观基因组合基因组特征来实现。
该模型还可以在没有已知序列偏好的情况下准确预测一些DNA结合蛋白的位置。
染色质因子:受ChIP影响的因子。
模型预测了36种染色质因子在33种表观基因组学细胞类型上的结合。
数据:来自Cistrome DB和ENCODE的ChIPseq和来自癌细胞系百科全书(CCLE)和ENCODE的RNA-seq数据。除此之外还使用了DREAM挑战的针对31种染色质因子的chip-seq数据。
思想:

  • 对于每个染色质因子,使用一个关联矩阵测量不同细胞类型中,不同的基因表达与先前收集的数据集中该染色质因子结合之间的相关性。
  • 矩阵中的每个值对应在一个基因组结合处,染色质因子的ChIP-seq结合和一个基因的表达水平之间的皮尔逊相关性。
  • 使用关联矩阵和rna-seq数据计算染色质因子的表达分数:关联矩阵中,该基因组结合的非NA值与基因的表达水平之间的Spearman相关性

方法

用于预测的数据

重叠的基因组bin:使用50bp滑动窗口的200bp基因组bin,排除和encode黑名单区域重叠的基因组,使用encode的GRCh38/hg38的数据。
染色质可及性:Cistrome DB ATAC-seq and DNase-seq的narrow peak文件。
基因组保守性:来自UCSC Genome Browser的GRCh38灵长类和胎盘哺乳动物7-way PhastCons基因组保护评分。
基因序列得分:使用FIMO从JASPAR 2016中搜索基序,以确定具有该TF序列基序的每个TF的结合位点。
RNA-seq:对每个基因下载带有rna-seq数据的encode表达矩阵,使用PharmacoGx检索了相似的CCLE RNA-seq数据,分析仅限于两个数据集共享的Ensembl基因id,并根据细胞类型对基因表达值进行排序。
表达评分:在N ≥ 5的训练细胞类型中,用匹配的ChIP-seq和RNA-seq数据为每个染色质因子建立了一个表达矩阵。
预测时,计算该细胞类型中每个基因组结合的表达分数,即为相同G=5000个基因的表达中,每一行都代表单个基因组结合的关联矩阵A的Spearman的ρ\rhoρ值。接近1的表达分数表示高表达的基因在关联矩阵中具有高值,低表达的基因具有低值。接近1的表达分数表明高或低表达的基因在关联矩阵中具有相反的值。
建立表达矩阵:

  • 将基因组分成M 100 bp的非重叠基因组仓;
  • 创建了一个非负ChIP-seq矩阵C∈R≥0M×NC ∈ R^{M×N}_{≥0}C∈R≥0M×N​,使用MACS2为M个箱和N种细胞类型生成的重复窄峰文件中的信号平均值,并对该矩阵进行分位数标准化;
  • 对C到C’进行行规范化,将每一行的值在0和1之间缩放;
  • 确定了在N种细胞类型中具有最高方差的G = 5000个基因;
  • 创建了一个表达矩阵E∈R∈[0,1]N×GE ∈ R^{N×G} _{∈[0,1]}E∈R∈[0,1]N×G​,其中包含N种细胞类型中G = 5000个基因中每个基因的行标准化表达等级;
  • 对于每个结合物i∈[1,M]i ∈ [1,M]i∈[1,M]和每个基因g∈[1,G]g ∈ [1,G]g∈[1,G],计算该结合物Ci′C^′_iCi′​:的ChIP-seq数据和该基因E:,j在所有细胞类型中的表达等级之间的表观相关系数Ai,gA_{i,g}Ai,g​,如果皮尔逊相关系数是不显著(p > 0.1),我们把Ai,gA_{i,g}Ai,g​设为NA。这些系数构成一个关联矩阵A∈(R∈[1,1]∪NA)M×GA ∈( R_{∈[1,1]}\cup{NA})^{M×G}A∈(R∈[1,1]​∪NA)M×G。

训练、优化和基准

超参数的选择和训练:

  • 输入矩阵:每一行对应200bp基因组窗口,列对应表达评分、染色质因子结合的先前证据、染色质可及性、基因组conservation、序列motif得分和HINT foot峰;
  • 使用了50 bp位移的滑动基因组bins,在binging预测中提供了50bp的最大分辨率,提供了具有60620678行的代表GRCh38基因组装配中的每个bin的稀疏矩阵;
  • 模型使用的系数矩阵具有4-11列,取决于可用基列序列的数量

多层感知器:全连接的前馈神经网络,每个基因组窗口的binding是和上下游窗口相独立的。使用自适应随机梯度下降,和200个样本训练。
超参数优化:4重交叉验证,包括激活函数,每层隐藏的单元数量、隐藏层的数量和L2正则化。
训练:一次对4条染色体中的3条进行迭代训练,并评估其余染色体的表现。经过4重交叉验证后,选择平均MCC最高的模型。
对于23个染色质因子,最优模型有10个隐层。对于另一组23个染色质因子,最佳模型有5个隐藏层。对于最后的17个染色质因子,最佳模型只有2个隐藏层。对于63个检测的染色质因子中的57个,表现最好的模型在每层都有100个隐藏单元。对于剩余的6个染色质因子,最优模型在每层有10-24个隐藏单元。
对于不同的染色质因子,最佳的激活函数是不同的。
隐藏层数、隐藏单元数或激活函数与模型性能之间没有显著相关性。

图1 模型结构

基准测试:使用R precrec软件包来计算auPR和auROC,精确召回(PR)曲线比接收器操作特性(ROC)曲线更好地评估了二进制分类器在不平衡测试数据上的性能。也在GRCh37DERAM挑战数据上训练和验证了虚模型。

结论

Virtual ChIP-seq使用了全连接神经网络,整合了转录组transcriptome、染色质可及性、基因组背景数据,能够预测TF的结合,并且也能够正确预测训练细胞类型中不存在的新peak。
与DREAM Challenge数据集相比,本文的数据集使用Cistrome DB和ENCODE,允许训练和验证预测更广泛的63种染色质因子结合的模型,具体可以预测33种不同路线图组织类型中36种高可信度染色质因子的结合。

Virtual ChIP-seq: predicting transcription factor binding by learning from the transcriptome相关推荐

  1. Predict Binding Sites of Transcription Factor 富集分析

    标题 **1.一般的来说,目前发现的2000个转录因子一般是分为基础性和调控性的,基础性有1300:基础的转录因子与RNA聚合酶一起和启动子区域特异性结合,发挥作用,开始转录:而特异性的一般是和增强子 ...

  2. AI医药论文笔记--GraphDTA: Predicting drug–target binding affinity with graph neural networks

    GraphDTA:用图神经网络预测药物-靶点结合亲和力 论文题目 GraphDTA: Predicting drug–target binding affinity with graph neural ...

  3. 应用卷积神经网络CNN预测DNA-蛋白结合位点Convolutional neural network architectures for predicting DNA–protein binding

    深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.卷积神经网络是目前应用最为广泛之一的深度学习技术,它是一种含特 ...

  4. 论文解读:基于共享混合深度学习架构的DNA形状特征预测转录因子结合位点

    Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep l ...

  5. 生物信息学必读100篇论文

    生物信息学:生物信息学时应用信息科学的知识和方法,搜集.整理.贮存.分析生命科学的一门新兴学科,是现代医学生物学研究和分析的必备工具.CMBI曾就当今网上的各种专业网站及专业数据库作过报道,具体请参阅 ...

  6. 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(四)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...

  7. hbctraining-05_peak_calling_macs2

    算法,参数,输出. Peak calling ChIP-seq实验,从比对文件中观察到正/负链上以结合位点为中心的非对称reads 密度. For ChIP-seq experiments, what ...

  8. 非编码区单核苷酸变异

    自己写的笔记 1.WGS和WES 基因检测对明确诊断遗传缺陷病有重要意义,在疾病表型特异度不高,表型基因型对应不明确的情况下,WES-trio是寻找致病基因阳性率最实用的方法之一.WES-trio的阳 ...

  9. 二代测序linux软件,二代测序数据分析软件包大全

    二代测序数据分析软件包大全 Integrated solutions*CLCbio Genomics Workbench-de novoand reference assembly of Sanger ...

最新文章

  1. MVC 3 登录、注销
  2. mfc exe 在繁体系统 乱码_MC32/MC92 自带TelnetCE界面部分字符乱码解决方案
  3. 服务器打开虚拟机电源重启,虚拟机服务器自动重启
  4. 跟Kafka学技术-缓冲池的使用
  5. java mysbatis select_MyBatis SELECT基本查询实现方法详解
  6. 斯蒂芬斯蒂芬但是当时发生的s
  7. 解决go build报错cannot find main module; see ‘go help modules‘
  8. python 中的metaclass和baseclasses
  9. 【比赛】CCF BDCI新闻情感分类初赛A榜4/2735,复赛1%题解报告
  10. 【OpenCV学习笔记】【教程翻译】三( 车牌检测之区域分割)
  11. python部署阿里云_python部署到阿里云
  12. Android 调试桥 (adb)
  13. 5G NR 信道质量指示(CQI)概述
  14. oracle执行计划px,【Oracle】并行等待之PX Deq: Execution Msg
  15. r中gglot怎么组合多张图_怎样组合多张ggplot2图片
  16. 又双叒叕可以 4 折买书了!!来薅羊毛了!
  17. Camera--(7)手机双摄像头原理及产业解析
  18. 【MATLAB】求Taylor展开式
  19. 地震产生的原因和征兆
  20. nginx 地址重写

热门文章

  1. python写酒店管理系统报告_酒店管理系统e-r图_酒店系统管理实验报告
  2. 基于matlab的网络通信RSRP切换仿真
  3. 再不复工,公司就要发现没有我们也能正常运转了
  4. Greatest Parents Ligh OJ1128
  5. 豆瓣的robots内容分析
  6. 十年风雨,一个普通程序员的成长之路(五) 成长:得到与教训
  7. html 图片放大保证不失真,教你如何在保证图片不失真的情况下缩小图片大小
  8. 编译Busybox产生的两个错误
  9. (Tiled官方文档翻译)第四节:对象的编辑和使用
  10. 服务器中内存不够的原因