EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测

作者 | 洪曾艳

指导 | 刘向荣教授

单位 | 厦门大学

研究方向 | 生物序列分析

1. 研究背景

增强子是一段５０-１５００ｂｐ的ＤＮＡ序列，它能够提高特定基因的转录活性，能大大增强启动子的活性。启动子是转录起始位点上游与RNA聚合酶结合的一段DNA序列，能使RNA聚合酶与模板DNA准确的结合并具有转录起始的特异性。增强子和启动子的相互作用关键影响了基因的表达调控，和人类疾病的发生密切相关。因此研究某个增强子是否会和某个启动子发生反应具有重大的意义。用生物实验的手段进行增强子和启动子的相互作用研究需要耗费大量的人力、时间和资金。随着高通量测序技术发展，为研究人员提供了大量的数据，用计算的方式深入研究增强子和启动子的相互作用成为可能。

现有的一些关于增强子和启动子的相互作用识别的计算方法存在一些不足。首先，强子和启动子的相互作用具有细胞系特异性，即在不同细胞系中的作用规律通常是不同的。大多数现有方法可以预测细胞系特异性的增强子和启动子的相互作用，但是构建的模型不能在各种细胞系中通用。其次，之前的方法都使用one-hot或普通的word embedding对基因序列编码，这具有一些局限性。比如，单个细胞系的训练样本数量不够多，训练出来的词向量包含的信息有限。

为了解决这些问题，作者提出了一个新的深度学习模型，EPIVAN,只需要输入增强子和启动子的基因序列就可以预测增强子和启动子的相互作用。这项工作的三个贡献如下：（1）使用基于人类全基因预训练的DNA向量来编码增强子和启动子。（2）使用注意机制来增强关键特征对模型的贡献，从而提高模型的性能。（3）建立了一个通用模型，它具有迁移能力，可用于预测各种细胞系中的增强子和启动子的相互作用。

2.模型介绍

模型预测增强子和启动子的相互作用的流程如图1所示。它有三个主要步骤：序列嵌入，特征提取和注意机制。然后，将生成的特征向量馈送到最后的预测层，以预测EPI。

图1 EPIVAN的流程图

2.1序列嵌入

为了解决one-hot编码和普通词向量所含信息不足的问题，作者使用了dna2vec中提供的预训练的DNA向量。dan2vec是Ng等人在2017年提出的一种基于word2vec词向量模型的新方法，用于计算DNA序列中k-mers（k-mer是长度为k的序列片段）的分布式表示。dna2vec使用人类基因组序列作为学习语料库，将k-mers嵌入到100维连续向量空间中。相比以单细胞系的增强子和启动子基因序列作为训练语料，dna2vec使用更大的学习语料库，因此学习的DNA向量包含更多的序列信息。用预训练的DNA向量对输入模型的基因序列进行编码能够让模型有更多的信息能捕获。

2.2特征提取

在深度学习中，通常使用递归神经网络（RNN）进行序列分析，但是RNN不能并发计算，对于长序列的分析需要耗费非常多的计算资源和时间。也有些方法使用卷积神经网络（CNN）进行序列特征提取，CNN可以并行计算，但是CNN只能关注序列局部联系的特征，会丢失远距离序列依赖特征。所以作者将CNN和RNN相结合，共同提取序列特征。序列编码。当获取了序列的向量表示后，作者首先使用1维卷积层和最大池化层来提取序列中的局部相关特征，然后将它们再输入到双向门控循环单元（Bi-GRU）中以提取全局相关特征。

2.3注意力机制

在进行初步的特征提取后，作者希望能够加强更关键的特征对模型的贡献。作者使用了Yang等人在2016年提出的用于文档分类的注意力机制来自适应地学习特征的权重。为了让EPIVAN模型更好的做出预测，对预测增强子和启动子是否会发生反应启更突出作用的特征，作者使用这个注意力机制来提高这些关键特征的权重。该注意力机制在训练过程中能够自适应地学习一个上下文向量，并计算每个特征的隐藏表示和这个上下文向量的相似性，如果相似性越高则赋予该向量的权重越大。注意机制的公式描述如下：

其中，是第i个特征的隐藏表示。α为每个特征的归一化权重。所有特征向量乘以它们相应的权重，然后求和为最终的特征向量v。最后这个特征向量将输入到预测层（一个sigmoid单元）中进行最后的预测。

3. 实验

实验的数据来自TargetFinder提供的数据集，该数据集包含了人类的6个细胞系（GM12878，HUVEC，HeLa-S3，IMR90，K562，NHEK）中的增强子和启动子相互作用。当一对启动子和增强子会发生反应，被标记为正样本；否则被标记为负样本。作者使用了数据增强的方法处理类不平衡问题。并使用受试者工作特征曲线下面积（AUROC）和precision-recall 曲线下面积作为模型性能的评估指标。

因为增强子和启动子相互作用存在细胞系特异性，所以作者首先构建了特异性模型，EPIVAN-specific。并通过实验证明了，在指定细胞系上训练的EPIVAN-specific能够很好地预测该细胞系上的增强子和启动子相互作用，但是在其他细胞系上就失去了预测能力（如表1和表2所示）。

表1 EPIVAN-specific在每个细胞系上的AUROC值

表2 EPIVAN-specific在每个细胞系上的AUPR值

为了解决要为不同的细胞系训练不同的模型，作者提出构建通用模型EPIVAN-general。相比在单个细胞系上训练的EPIVAN-specific，在六个细胞系上训练的EPIVAN-general能够捕获共同特征，但捕获特异性特征的能力低于EPIVAN-specific，所以EPVAN-general可以在6个细胞系上通用，但是在指定细胞系上没有EPIVAN-specific的表现好（实验结果如表3所示）。

表3 EPIVAN-general在每个细胞系上的表现

在构建完EPIVAN-specific和EPIVAN-general模型的基础上，作者对预训练DNA向量和注意力机制对模型的贡献进行了讨论。作者设计了两组对照实验，证明了预训练DNA向量有助于模型更好地捕获细胞系共有特征。注意机制有助于模型更好地提取细胞系特异性特征。这两者共同协助，大大提高了通用模型的性能（在训练集较小的EPIVAN-specific模型上，预训练DNA向量无法发挥出作用）。对照实验结果如图2和图3所示。

图2 八个模型在六个细胞系上的AUROC值。（a）去除预训练DNA向量或注意机制后EPIVAN-specific的表现。（b）去除预训练DNA向量或注意机制后EPIVAN-general的表现。

图3 八个模型在六个细胞系上的AUPR值。（a）去除预训练DNA向量或注意机制后EPIVAN-specific的表现。（b）去除预训练DNA向量或注意机制后EPIVAN-general的表现。

为了提高EPIVAN-general在指定细胞系上的表现，作者提出了新的训练策略，令EPIVAN-general在指定细胞系上进行再训练来增强EPIVAN-general对该细胞系特异性特征的提取，并将再训练后的模型称为EPIVAN-best。并将EPIVAN-best在每个细胞系上的表现和EPIVAN-specific和EPIVAN-general进行对比。实验结果表明，EPIVAN-best在每个细胞系上的表现比EPIVAN-specific和EPIVAN-general都要好得多（如表4和表5所示）。

表4 三个模型在六个细胞系上的AUROC值

表5 三个模型在六个细胞系上的AUPR值

作者还将EPIVAN-best和现有的最先进的识别增强子和启动子相互作用的模型进行比较，实验结果表明，EPIVAN-best在每个细胞系上的表现都优于现有模型（如表6和表7所示）

表6 不同模型在六个细胞系上的AUROC值

表7 不同模型在六个细胞系上的AUPR值

最后作者对EPIVAN-general是否能够进行迁移学习进行了讨论。实验结果表明，EPIVAN-general可以作为迁移学习的预训练模型（如表8所示）。

表8 EPIVAN-general迁移到新的细胞系上的AUROC和AUPR值

4. 总结

在这项工作中，作者提出了一个仅使用增强子和启动子序列就能预测增强子和启动子相互作用的新模型EPIVAN。与现有模型相比，EPIVAN增加了预先训练的DNA向量和注意机制，能够构建不同细胞系都适用的通用模型。作者证明了EPIVAN能够捕获细胞系特异性特征和细胞系共同特征，并证明了EPIVAN-general具有良好的迁移能力，可以作为迁移学习的预训练模型。六个细胞系的实验结果作者提出的最优模型EPIVAN-best比现有的最先进的模型表现都更好。

参考资料

Zengyan Hong, Xiangxiang Zeng, Leyi Wei, Xiangrong Liu, Identifying Enhancer-Promoter Interactions with Neural Network Based on Pre-trained DNA Vectors and Attention Mechanism, Bioinformatics, btz694.

Ng, P. (2017) dna2vec: Consistent vector representations of variable-length k-mers. arXiv:1701.06279.

Yang, Z. et al. (2016) Hierarchical Attention Networks for Document Classification. arXiv:1707.00896.

Whalen, S. et al. (2016) Enhancer-promoter interactions are encoded by complex genomic signatures on looping chromatin. Nature Genetics, 48, 488-496.

Code availability

https://github.com/hzy95/EPIVAN

DrugAI

（扫描下方二维码订阅获取最新消息！）

本文为DrugAI原创编译整理，如需转载，请在公众号后台留言。

EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测相关推荐

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨张浩宇学校丨国防科技大学计算机学院研究方向丨自然语言生成.知识图谱问答本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要在 ...
基于注意力机制的图卷积网络预测药物-疾病关联
BIB | 基于注意力机制的图卷积网络预测药物-疾病关联智能生信人工智能×生物医药关注科学求真赢 10 万奖金 · 院士面对面 9 人赞同了该文章今天给大家介绍华中农业大学章文教授团队在 ...
基于预训练语言模型的检索- 匹配式知识图谱问答系统
基于预训练语言模型的检索- 匹配式知识图谱问答系统张鸿志 , 李如寐,王思睿,黄江华美团, 北京市朝阳区 100020 {zhanghongzhi03,lirumei,wangsirui,huan ...
阿里达摩院 | 基于预训练语言模型的行业搜索
作者|谢朋峻阿里巴巴达摩院整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景相关技术研究行业搜索应用 01 ...
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
[1] 参考论文信息论文名称:<基于预训练语言模型的案件要素识别方法> 发布期刊:<中文信息学报> 期刊信息:CSCD 论文写作分析摘要:本文非常典型.首先网 ...
【NLP】bert4vec：一个基于预训练的句向量生成工具
一个基于预训练的句向量生成工具 bert4vec: https://github.com/zejunwang1/bert4vec 环境 transformers>=4.6.0,<5.0 ...
NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...
【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
·阅读摘要: 本文利用BERT的预训练数据,结合CNN,应用于专利分类.由于专利的特性,本文还提出使用多层级方法来增强模型.(文章发表在<中文信息学报>,核心期刊) ·参考文献: ...
基于预训练词向量的文本相似度计算-word2vec, paddle
文章目录 0. 前言 1. 余弦相似度算子 2. 示例代码并验证 3. 基于词向量的文本相似度 3.1 读取word2vec文件 3.2 定义模型 3.3 运行模型 3.4 根据分数降序排列 3.5 ...
基于卷积神经网络和注意力机制的人眼闭合检测算法
基于卷积神经网络和注意力机制的人眼闭合检测算法前言卷积神经网络注意力机制数据集源代码致谢结语前言卷积神经网络近年来,基于神经网络的识别方法已经成为一个热门的研究专题,该方法可用于特 ...

EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测

EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测相关推荐

最新文章

热门文章