PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制

今天给大家介绍的是加拿大不列颠哥伦比亚大学和哈佛大学、加拿大CIFAR AI高级研究院合作发表在PNAS的一篇论文。作者借助深度学习中的卷积神经网络提出一个训练网络“ AI-TAC”，该模型通过从头开始发现已知调控因子和一些未知调控因子的结合DNA功能域（Motifs），学习推断细胞型特异性的染色质可及性（染色质开放性）。经过小鼠数据训练的AI-TAC可以解析人的DNA，最终揭示了免疫系统完全分化的调节机制。

背景

基因调控是现代分子生物学研究的中心课题之一，目前虽然探索出一些转录因子能够调控哪些特异性序列，但是对于控制免疫细胞分化的调控机理我们尚未清楚。对于免疫系统来说，每种细胞类型都有自己的DNA编码解释，而这种差异是由组成型和细胞型特异性转录因子，调节性RNA分子以及可能还未知的序列解析分子实体之间的相互作用驱动的。具有调控功能的顺反元件通过结合染色质开放区域参与到生物转录调控的过程中以控制转录活性。比如，转录因子一旦结合到开放的染色质区域，就会招募其他蛋白，使附近的基因开始转录。染色质开放性是动态的，整体的调控过程与染色质核小体的动态定位相关，因此，高效精确地定位基因组上的开放染色质位点、搞清核小体位置的动态变化，为成功地发掘基因组调控元件，乃至揭示基因表达调控机制提供重要线索和有效手段。Motifs（DNA功能域）是一段特异性序列，可以和转录因子结合，确定DNA结合的motif通常是详细阐释转录因子功能的第一步，鉴定潜在的结合位点为进一步分析提供了途径。开放的染色质区域（OCR）十分密切地反映了相应细胞中的基因表达。下一步问题是从这些描述性图表转向对如何确定这些染色质模式的理解。分析这些有差别的活跃开放染色质区域中转录因子结合Motifs（TFBS）的表示，提供了可能导致细胞特异性的转录因子的相关线索，特别是通过将转录因子本身的细胞类型特异性表达用作相关先验知识，所以作者就小鼠免疫系统的81种免疫细胞的染色质可及性，旨在利用CNN仅通过调节DNA序列来学习推断细胞类型特异性的染色质可及性。结果表明， AI-TAC可以学习准确预测细胞类型特异性OCR的精细特异性，解释策略能够发现在计算机中具有影响力的Motifs，并在“真实”染色质免疫沉淀和测序（ChIP-seq）数据中概括其分子对应物的结合位点。因此，AI-TAC学习了构成免疫细胞分化全局性基础的序列语法。

方法

AI-TAC模型的输入数据是251个碱基对 OCR的DNA序列，以预测每个OCR在所有测得的细胞型上的ATAC-seq作为输出，整个模型由三个卷积层和两个全连接层组成，使用Pearson相关性作为损失函数进行训练，可以增强模型准确预测其活性随细胞类型而变化的序列的能力。为了进行参数解释，1）对于300个第一层filter中的每一个，作者提取了激活它的短序列Motifs，表示为位置权重矩阵（PWM），并定义了其鲁棒性的操作参数，以及2）应用了梯度反向传播策略（DeepLift和TFMoDisco）。可重现的filter（基于PWM表示）在11个单独训练的模型中使用“出现次数”进行了识别。使用TomTom对PWM进行注释，以搜索TFBS的Cis-BP数据库（FDR 0.05）。使用消融策略计算filter影响值：依次移除每个filter，并计算所有示例中模型误差的平方差平均值。为了进行生化验证，将从基因表达综合（GEO）下载的Pax5，Ebf1，Spi1和Tcf1（32）的原始ChIP-seq数据集，并与AI-TAC相交预测。为了可视化高阶序列逻辑，获得了由节点激活在最后一个共享层中捕获的AI-TAC嵌入（n = 1000），并使用t-SNE对其进行了二维投影。下图A为模型整体框架图。

结果

AI-TAC可以仅从序列预测增强子活性，通过这种方式，AI-TAC学习了嵌入在OCR中的序列Motifs的组合与其在各种免疫细胞类型中的可及性之间的关系。在实验中，通过使用作者最近的ATAC-seq成果定义的每个OCR的327,927个序列的90％作为输入来训练该模型，以预测每个OCR在所有测得的细胞型上的ATAC-seq谱作为输出。CNN学习输入和输出之间精确映射的能力取决于几个超参数（隐藏层的数量，filter及其长度，损失函数），并且对它们进行了系统地探讨。在下图B中的一个示例中，在保留的OCR的子集上，经过训练的AI-TAC模型在精确预测所有人群的粒度变量可访问性方面显示出良好的性能。

总体而言，预测有61％的测试OCR具有统计上显着的相关系数（错误发现率[FDR] 0.05）（下图C）。OCR的可预测性与其在各种免疫细胞类型中可及性之间的变化之间存在很大的单调关系，因为具有低预测性能的OCR通常具有较小的变异系数（下图D和E）。该图还表明，除了普遍存在的OCR之外，在特定类别的OCR上也没有缺少该模型（如图F的热力图所证实）。通过执行几个随机实验以创建3个不同的空模型（图C）以及进行染色体省略实验，评估了这些预测的鲁棒性。此外，作者进行了10次交叉验证的10次独立试验（即100个受过训练的模型），因此327927个OCR被视为10个不同测试集的一部分（D）。这些数据可以确认，在针对数据的不同子集训练的不同模型中，通常可以很好地预测出预测良好的OCR，这表明该模型所捕获的调节逻辑是可以推广的。

总结

总而言之，针对全基因组染色质可及性的深度学习方法揭示了直接源自DNA序列的免疫转录调节因子的模式和复杂模式。尽管仍然存在一些盲点，但该监管路线图草案应为嫁接其他层级的人为或机器生成的结果提供基础，并为进行实验探索提供跳板。

代码

https://github.com/smaslova/AI-TAC/

参考资料

Deep learning of immune cell differentiation. Alexandra Maslova, Ricardo N. Ramirez, Ke Ma, Hugo Schmutz, Chendi Wang, Curtis Fox, Bernard Ng, Christophe Benoist, Sara Mostafavi, Immunological Genome Project Proceedings of the National Academy of Sciences Oct 2020, 117 (41) 25655-25666;

DOI: 10.1073/pnas.2011795117

PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制相关推荐

中科院DeepMind联手，用深度学习揭示大脑如何识别人脸｜Nature子刊
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达梦晨发自凹非寺量子位报道 | 公众号 QbitAI Deep ...
深度学习视觉领域中的attention机制的汇总解读（self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等）
self-attention来自nlp的研究中,在深度学习视觉领域有不少新的attention版本,为了解各种attention机制.博主汇集了6篇视觉领域中attention相关的论文,分别涉及DA ...
【深度学习】pytorch自动求导机制的理解 | tensor.backward() 反向传播 | tensor.detach()梯度截断函数 | with torch.no_grad()函数
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.pytorch里自动求导的基础概念 1.1.自动求导 requires_grad=True 1.2.求导 requ ...
《深度学习可直接从组织学预测胃肠道癌微卫星不稳定性》
<Deep learning can predict microsatellite instability directly from histology in gastrointestinal ...
深度学习中的注意力机制（二）
作者 | 蘑菇先生来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...
论文阅读：Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展
Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展目录 Natural Langu ...
transformer bert seq2seq 深度学习编码和解码的逻辑-重点
参考文献: 详解从 Seq2Seq模型.RNN结构.Encoder-Decoder模型到 Attention模型 [NLP]Attention Model(注意力模型)学习总结(https://ww ...
深度学习中的注意力机制（三）
作者 | 蘑菇先生来源 | NewBeeNLP原创出品深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...
深度学习中的注意力机制（一）
作者 | 蘑菇先生来源 | NewBeeNLP 头图 | CSDN下载自视觉中国目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统 ...

PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制

PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制相关推荐

最新文章

热门文章