今天给大家介绍的是加拿大不列颠哥伦比亚大学和哈佛大学、加拿大CIFAR AI高级研究院合作发表在PNAS的一篇论文。作者借助深度学习中的卷积神经网络提出一个训练网络“ AI-TAC”,该模型通过从头开始发现已知调控因子和一些未知调控因子的结合DNA功能域(Motifs),学习推断细胞型特异性的染色质可及性(染色质开放性)。经过小鼠数据训练的AI-TAC可以解析人的DNA,最终揭示了免疫系统完全分化的调节机制。

1

背景

基因调控是现代分子生物学研究的中心课题之一,目前虽然探索出一些转录因子能够调控哪些特异性序列,但是对于控制免疫细胞分化的调控机理我们尚未清楚。对于免疫系统来说,每种细胞类型都有自己的DNA编码解释,而这种差异是由组成型和细胞型特异性转录因子,调节性RNA分子以及可能还未知的序列解析分子实体之间的相互作用驱动的。具有调控功能的顺反元件通过结合染色质开放区域参与到生物转录调控的过程中以控制转录活性。比如,转录因子一旦结合到开放的染色质区域,就会招募其他蛋白,使附近的基因开始转录。染色质开放性是动态的,整体的调控过程与染色质核小体的动态定位相关,因此,高效精确地定位基因组上的开放染色质位点、搞清核小体位置的动态变化,为成功地发掘基因组调控元件,乃至揭示基因表达调控机制提供重要线索和有效手段。Motifs(DNA功能域)是一段特异性序列,可以和转录因子结合,确定DNA结合的motif通常是详细阐释转录因子功能的第一步,鉴定潜在的结合位点为进一步分析提供了途径。开放的染色质区域(OCR)十分密切地反映了相应细胞中的基因表达。下一步问题是从这些描述性图表转向对如何确定这些染色质模式的理解。分析这些有差别的活跃开放染色质区域中转录因子结合Motifs(TFBS)的表示,提供了可能导致细胞特异性的转录因子的相关线索,特别是通过将转录因子本身的细胞类型特异性表达用作相关先验知识,所以作者就小鼠免疫系统的81种免疫细胞的染色质可及性,旨在利用CNN仅通过调节DNA序列来学习推断细胞类型特异性的染色质可及性。结果表明, AI-TAC可以学习准确预测细胞类型特异性OCR的精细特异性,解释策略能够发现在计算机中具有影响力的Motifs,并在“真实”染色质免疫沉淀和测序(ChIP-seq)数据中概括其分子对应物的结合位点。因此,AI-TAC学习了构成免疫细胞分化全局性基础的序列语法。

2

方法

AI-TAC模型的输入数据是251个碱基对 OCR的DNA序列,以预测每个OCR在所有测得的细胞型上的ATAC-seq作为输出,整个模型由三个卷积层和两个全连接层组成,使用Pearson相关性作为损失函数进行训练,可以增强模型准确预测其活性随细胞类型而变化的序列的能力。为了进行参数解释,1)对于300个第一层filter中的每一个,作者提取了激活它的短序列Motifs,表示为位置权重矩阵(PWM),并定义了其鲁棒性的操作参数,以及2)应用了梯度反向传播策略(DeepLift和TFMoDisco)。可重现的filter(基于PWM表示)在11个单独训练的模型中使用“出现次数”进行了识别。使用TomTom对PWM进行注释,以搜索TFBS的Cis-BP数据库(FDR 0.05)。使用消融策略计算filter影响值:依次移除每个filter,并计算所有示例中模型误差的平方差平均值。为了进行生化验证,将从基因表达综合(GEO)下载的Pax5,Ebf1,Spi1和Tcf1(32)的原始ChIP-seq数据集,并与AI-TAC相交预测。为了可视化高阶序列逻辑,获得了由节点激活在最后一个共享层中捕获的AI-TAC嵌入(n = 1000),并使用t-SNE对其进行了二维投影。下图A为模型整体框架图。

3

结果

AI-TAC可以仅从序列预测增强子活性,通过这种方式,AI-TAC学习了嵌入在OCR中的序列Motifs的组合与其在各种免疫细胞类型中的可及性之间的关系。在实验中,通过使用作者最近的ATAC-seq成果定义的每个OCR的327,927个序列的90%作为输入来训练该模型,以预测每个OCR在所有测得的细胞型上的ATAC-seq谱作为输出。CNN学习输入和输出之间精确映射的能力取决于几个超参数(隐藏层的数量,filter及其长度,损失函数),并且对它们进行了系统地探讨。在下图B中的一个示例中,在保留的OCR的子集上,经过训练的AI-TAC模型在精确预测所有人群的粒度变量可访问性方面显示出良好的性能。

总体而言,预测有61%的测试OCR具有统计上显着的相关系数(错误发现率[FDR] 0.05)(下图C)。OCR的可预测性与其在各种免疫细胞类型中可及性之间的变化之间存在很大的单调关系,因为具有低预测性能的OCR通常具有较小的变异系数(下图D和E)。该图还表明,除了普遍存在的OCR之外,在特定类别的OCR上也没有缺少该模型(如图F的热力图所证实)。通过执行几个随机实验以创建3个不同的空模型(图C)以及进行染色体省略实验,评估了这些预测的鲁棒性。此外,作者进行了10次交叉验证的10次独立试验(即100个受过训练的模型),因此327927个OCR被视为10个不同测试集的一部分(D)。这些数据可以确认,在针对数据的不同子集训练的不同模型中,通常可以很好地预测出预测良好的OCR,这表明该模型所捕获的调节逻辑是可以推广的。

4

总结

总而言之,针对全基因组染色质可及性的深度学习方法揭示了直接源自DNA序列的免疫转录调节因子的模式和复杂模式。尽管仍然存在一些盲点,但该监管路线图草案应为嫁接其他层级的人为或机器生成的结果提供基础,并为进行实验探索提供跳板。

代码

https://github.com/smaslova/AI-TAC/

参考资料

Deep learning of immune cell differentiation. Alexandra Maslova, Ricardo N. Ramirez, Ke Ma, Hugo Schmutz, Chendi Wang, Curtis Fox, Bernard Ng, Christophe Benoist, Sara Mostafavi, Immunological Genome Project Proceedings of the National Academy of Sciences Oct 2020, 117 (41) 25655-25666;

DOI: 10.1073/pnas.2011795117

PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制相关推荐

  1. 中科院DeepMind联手,用深度学习揭示大脑如何识别人脸|Nature子刊

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI Deep ...

  2. 深度学习视觉领域中的attention机制的汇总解读(self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等)

    self-attention来自nlp的研究中,在深度学习视觉领域有不少新的attention版本,为了解各种attention机制.博主汇集了6篇视觉领域中attention相关的论文,分别涉及DA ...

  3. 【深度学习】pytorch自动求导机制的理解 | tensor.backward() 反向传播 | tensor.detach()梯度截断函数 | with torch.no_grad()函数

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.pytorch里自动求导的基础概念 1.1.自动求导 requires_grad=True 1.2.求导 requ ...

  4. 《深度学习可直接从组织学预测胃肠道癌微卫星不稳定性》

    <Deep learning can predict microsatellite instability directly from histology in gastrointestinal ...

  5. 深度学习中的注意力机制(二)

    作者 | 蘑菇先生 来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...

  6. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展

    Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展 目录 Natural Langu ...

  7. transformer bert seq2seq 深度学习 编码和解码的逻辑-重点

    参考文献: 详解从 Seq2Seq模型.RNN结构.Encoder-Decoder模型 到 Attention模型 [NLP]Attention Model(注意力模型)学习总结(https://ww ...

  8. 深度学习中的注意力机制(三)

    作者 | 蘑菇先生 来源 | NewBeeNLP原创出品 深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...

  9. 深度学习中的注意力机制(一)

    作者 | 蘑菇先生 来源 | NewBeeNLP 头图 | CSDN下载自视觉中国 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统 ...

最新文章

  1. 12月12日学习内容整理:Ajax中的contentType参数,csrf跨域请求处理,serialize方法...
  2. CV之路 —— Opencv学习
  3. ideal2018提示内存不足_IntelliJ IDEA 2018 设置代码超出限制自动换行(最新版)
  4. ibatis实现1对多
  5. LeetCode 1134. 阿姆斯特朗数
  6. 计算机网络(十八)-以太网
  7. 操作数据----DML语句
  8. 大数据可视化有哪些作用和优点
  9. Sklearn流水线交叉验证以及超参数网格交叉评估基础案例实战-大数据ML样本集案例实战...
  10. linux之atoi,atol,atoll,atof
  11. 加入go行列的一个敲门砖吗----小玩意cs多人即时聊天,没有用数据库的,没有用框架的
  12. wps中将二维表转换为一维表
  13. 【计算广告】基本概念及RTB/RTA投放策略介绍
  14. 极米H5值得入手吗?极米H5实际体验如何?画面对比实测
  15. 人活一辈子,到底为了什么而工作?这是我看过最好的答案
  16. 微信聊天功能测试用例设计
  17. L2-039 清点代码库 (25 分)
  18. 多CPU/多核/多进程/多线程/并发/并行之间的关系
  19. 常用js的数组方法和对象方法
  20. Java SSM毕设 公寓宿舍后勤管理系统(含源码+论文)

热门文章

  1. 关于多态override/overload
  2. (Alex note) Create a oracle database
  3. Leangoo敏捷看板管理 6.3.8
  4. 1000+个常用的Linux命令!看完通关!随手玩Linux!
  5. 分布式、服务化的ERP系统架构设计
  6. 与其焦虑成疾,不如静心学习
  7. 项目进展情况如何更好地管理?
  8. 每日站会要关注团队目标-Scrum中文网
  9. Scrum团队初建的十一件事——Scrum中文网
  10. OKR案例:德勤如何引入OKR