来源:ScienceAI

编辑:萝卜皮

人类的大部分细胞中,每时每刻都在进行着各种复杂的转录过程;这一过程与后续的蛋白质合成息息相关,从而会影响人体中各类酶、抗体、激素、免疫因子等生物分子的产生,最终影响人的身体健康。

与转录起始位点(TSS)相邻的区域,即启动子,主要参与DNA转录起始和调控的过程。因此,正确的启动子识别对于进一步了解控制基因组调控的网络机制至关重要。已经提出了许多用于识别启动子的方法。尽管如此,由于启动子中存在很大的异质性,这些程序的结果仍然不能令人满意。

为了建立额外的判别特征并正确识别启动子,西安交通大学的研究人员开发了启动子识别混合模型(HMPI);这是一种混合深度学习模型,可以同时表征启动子的天然序列和启动子的形态轮廓。

他们的 HMPI,将一种称为PSFN(启动子序列特征网络)的方法与一种称为 DSPN(深层结构轮廓网络)的技术结合起来,该方法描述了天然启动子序列并推断出序列特征。

该研究以「A successful hybrid deep learning model aiming at promoter identification」为题,于 2022 年 5 月 31 日发布在《BMC Bioinformatics》。

根据在遗传学中的定义,转录起始位点 (TSS) 周围的功能区域,对于启动和调节 DNA 转录至关重要,被称为启动子。因此,可靠的启动子鉴定是基因组学中一个关键的行动过程,可以进一步加深我们对基因调控网络的理解。

研究人员在识别启动子和非启动子(例如人类和植物启动子)方面面临着重大障碍,这些启动子种类更多且更难以描述。

近年来,多种生物实验方法被用于寻找启动子。这种传统程序既困难又昂贵。最近已经提出了基于具有较低复杂性和运行成本的计算技术的更新的启动子识别方法。因此,确定非启动子和启动子之间的差异,并提取不同物种之间启动子识别的最独特特征是至关重要的。

上下文特征、信号特征和 CpG 特征是用于表征启动子的三种特征。转录因子识别元件、CAAT盒、TATA盒和其他功能启动子元件区域总是用于提取信号特征。因此,启动子的许多其他区域被丢弃。上下文特征是通过执行 k 长度窗口并估计 k-mer(长度为 k 的似是而非的子序列)频率来获得的。

尽管如此,某些信息,例如放置在序列中的碱基对之间的空间连接,仍然被忽视了。CpG 岛的存在用于识别基于 CpG 特征的方法中的启动子区域。然而,由于 CpG 岛仅包含在 70% 的启动子中,因此这些方法不太可能显著提高识别结果。总而言之,包含三个单一特征的技术通常是不够的。

此外,最近提出了新的基于序列特征的启动子识别技术,并取得了可喜的成果。2017 年,Umarov 团队使用启动子的一级序列成功识别了启动子区域,而无需事先了解某些启动子特性。为了预测大肠杆菌启动子的强度,Bharanikumar 团队使用位置权重矩阵来表示启动子序列。

这些发现表明,与上述特征相比,启动子的一级序列可能意味着更多关于区分因素的信息。然而,由于启动子通常是复杂且异质的,基于启动子序列的信号不能很好地可靠地识别启动子。根据最近的研究,结构特征在多种生物过程中起着关键作用。

尽管 DNA 经常被表示为一种相当不灵活的双螺旋结构,但先天的结构属性提供了大量有用的细节。尽管核苷酸序列主要决定了这些结构特征,但研究表明,与其他序列相比,启动子的结构确实具有不同的模式。这一结果表明,指示启动子结构谱的结构属性有可能被用作启动子识别中一级序列的补充。

除了描述启动子特性的方法外,此类研究的重点一直是识别方法和模型。由于深度学习模型在不同领域的卓越性能和出色应用,深度神经网络最近被用于启动子识别和识别等任务。Umarov 团队利用卷积神经网络 (CNN) 分析真核和原核启动子的序列特征以及建立预测模型。

此外,Oubounyt 团队假设了 DeePromoter 模型,用于检查和分析短真核启动子序列的基本特征,并准确识别小鼠和人类的启动子序列。Xu 团队提出了一种从人类启动子中提取独特特征的 DCDE 深度学习方法。

为了更好地模拟启动子并改进识别结果,西安交通大学的研究团队开发了一种用于启动子识别的混合模型 (HMPI),旨在识别启动子。HMPI 实际上是受到上述研究和基于深度学习的算法的突出建模潜力的启发。他们提出了 PSFN(启动子序列特征网络)方法来对原始启动子序列进行建模,并基于 CNN 推导出序列特征。

此外,在 PSFN 中,研究人员将中心损失作为分类损失函数的一个方面,以进一步提高启动子和非启动子的特异性。HMPI 的有效性通过使用初级启动子序列作为输入的识别结果来证明。此外,为了对启动子结构配置文件进行建模并提取结构特征,该团队提出了基于全连接网络和 DenseNet 的 DSPN(深层结构配置文件网络),该网络包含层间较小的连接。

由于 DSPN 层是直接连接的,因此网络可以更深入、更高效、更精确地对启动子结构特征进行建模。最终,他们构建了 HMPI,它结合了 DSPN 和 PSFN。HMPI 的效率通过对对应于植物、人类和大肠杆菌 K-12 菌株的数据集的实验证明。

该研究的主要贡献是推进了一种有效的混合深度学习模型,用于启动子识别。在 HMPI 中,启动子的原始序列和结构配置文件通过 PSFN 和 DSPN 同时建模,这是基于 CNN、全连接网络和 DenseNet 提出的方法。

此外,他们没有提取单一类型的特征,而是提取并组合了序列特征和结构特征以进行启动子识别。实验结果表明,HMPI 可以显著提高在真核和原核启动子数据集上的启动子识别性能。

结果还表明,DSPN 恢复的结构信息和 PSFN 提取的区分元素信息可以在启动子识别中相互补充。此外,经过合成采样、迁移学习和标签平滑正则化的改进,改进后的 HMPI 模型在识别原核启动子子数据集上的启动子子类型方面取得了显著效果。

另外,作为一种混合模型,HMPI 可以扩展到包括更多的特征,并具有应用于各种功能生物序列的前景。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04735-6

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

西安交大团队开发了一种混合深度学习模型,用于在基因组中识别启动子相关推荐

  1. 一种基于深度学习的遥感图像分类及农田识别方法

    文章针对现有的神经网络收敛速度慢.识别准确率不高的缺点,提出了一种基于卷积神经网络的遥感图像农田分类及识别方法.该算法使用较大的卷积核,有效地提取梯度信息:设计深度为6层的卷积神经网络,提高了网络的分 ...

  2. 基于linux火焰识别算法,一种基于深度学习模型的火焰识别方法与流程

    本发明属于通信领域,具体涉及一种基于深度学习模型的火焰识别方法. 背景技术: 随着我国工业化与城镇水平的不断提高,现代设施大型公共建筑朝着空间大.进深广功能复杂的多元化方向发展,这对于防烟火朝着空间大 ...

  3. 【专利练习4】深度学习模型用于专利分类

    深度学习模型用于专利分类 仍然是对专利分类代码的学习 https://github.com/newzhoujian/LCASPatentClassification 深度学习模型(七个) Word2V ...

  4. (翻译)传统和深度学习模型在文本分类中的应用综述与基准

    原文:Overview and benchmark of traditional and deep learning models in text classification 本文是我在试验Twit ...

  5. 一种基于深度学习(卷积神经网络CNN)的人脸识别算法-含Matlab代码

    目录 一.引言 二.算法的基本思想 三.算法数学原理 3.1 权值共享 3.2 CNN结构 四.基于卷积神经网络的人脸识别算法-Matlab代码 五.Matlab源代码获取 一.引言 在工程应用中经常 ...

  6. 【第一个深度学习模型应用-手写数字识别】

    基于BP神经网络的手写数字识别报告 基于BP神经网络的手写数字识别报告 一.任务描述 二.数据集来源 三.方法 3.1 数据集处理方法 3.2.模型结构设计 3.3.模型算法 四.实验 4.1.实验环 ...

  7. 『开发』网页端展示深度学习模型|Gradio上手教程

    安装 Gradio需要Python 3.一旦你有Python,你可以下载gradio使用pip 的最新版本,如下所示: pip install gradio 或者,pip3 install gradi ...

  8. 受小动物大脑结构启发,研究人员开发出新的深度学习模型:更少神经元,更多智能...

    大数据文摘出品 来源:sciencedaily 编译: 朱科锦.coolboy   从搜索引擎到自动驾驶汽车,人工智能已经进入了我们的日常生活.这与近年来计算能力的巨大提升有关.但是,最新的人工智能研 ...

  9. 论文解读:基于共享混合深度学习架构的DNA形状特征预测转录因子结合位点

    Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep l ...

最新文章

  1. python 安装scrapy,openssl opensslv.h错误的解决办法
  2. vue2.0 实现click点击当前li,动态切换class
  3. html5跨域 postmessage,html5跨域通讯之postMessage的用法总结
  4. 【STM32】GPIO之按键
  5. 全量增长模型-指标体系的构建及应用实战案例解析
  6. java环境_配置java环境变量
  7. 电路 第五版 第三章电阻电路的一般分析
  8. 面试官:谈谈数据库连接池的原理
  9. 恶意软件针对中国用户 试图攫取用户账户和密码
  10. 教学转用计算机,一种计算机教学用旋转显示屏的制作方法
  11. Python学习笔记(正则表达式)
  12. weborder什么意思_WEB登录方式是什么意思?
  13. 互联网架构技术干货视频分享地址发布和情况说明
  14. 几款对于学习前端比较好用的软件或网址
  15. ttest求pvalue_关于ttest里的P值
  16. 计算机页面打不开非常卡,电脑卡的厉害几乎打不开网页怎么办
  17. 资本运作模式(融资与投资) - 运营管理文章
  18. 邮箱批量登陆工具测试版
  19. JAVA 开发基础【JSON相关】
  20. 一个股市小白学习炒股的心得体会

热门文章

  1. 什么是轨道镜动态投影技术
  2. Lumerical---在FDTD和MODE工程中的PML边界条件
  3. 机架式服务器怎么维护,机架式服务器只能放在机房使用吗?
  4. android 弹球碰撞
  5. [转]西方重要节日简介
  6. PAT乙级1086 就不告诉你(C语言)
  7. 爬虫回响521_爬虫遇到521错误怎么办
  8. saxon 使用_Java XML和JSON:Java SE的文档处理,第1部分:SAXON和Jackson
  9. Java开发网站优势
  10. 写出STM32使能端的详细介绍文章