使用CNN预测基因可及性

对于要转录的基因,转录因子蛋白必须能够访问它们才能与DNA结合。遗传密码中的突变会极大地改变DNA的可及性,进而影响基因表达。了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗。但是,当前无法有效解释基因组中的非编码变体减慢了这一进展。在“ Basset:使用深度卷积神经网络学习可访问基因组的调控代码”中,作者通过实现一个卷积神经网络来从序列数据中学习DNA的活性和可访问性,从而解决了这一挑战。

他们的CNN使用了三个卷积层,分别使用了整流线性单元(ReLU)和最大池,之后是两个完全连接的隐藏层。最后,单个S形变换层提供模型的输出。使用来自164个不同细胞系的DNAse-Seq数据训练模型。如“深度学习中的生物学数据”部分所述,DNAse-Seq数据通过用酶DNAse I裂解来捕获可访问的DNA。数据是从ENCODE项目联盟和路线图基因组学联盟收集的。输入由至少一个细胞系中出现的序列周围的600个碱基对组成。该序列以一键向量格式编码,并用于输入。输出是长度为164的向量,该向量预测在每个细胞系中可访问序列的可能性。

训练后,该模型的性能优于基于支持向量机模型的最新方法。当从DNA序列学习模式时,这支持了CNN模型的优势。

然后,作者试图通过分析第一卷积层的内核权重来解释其模型的各个部分。通过分析巴塞特第一卷积层的300个滤镜,作者注意到滤镜捕获了大量已知的带注释主题。这些特征图捕获的另一件事是高GC富集的许多区域,表明了潜在的CpG位点。基因的转录起始位点通常具有CpG位点来控制调控。当这些区域被高度甲基化时,DNA变得更难获得并且基因被下调。否则,如果该位点没有被高度甲基化,则转录因子可以与DNA结合并允许转录发生。这些特征图的另一个有趣发现是尚未注释的新型潜在图案。

作者通过采用训练有素的模型并将单个核苷酸更改为不同的核苷酸,从而观察DNA的可及性变化,从而扩大了这项研究的范围。基于可访问性的最大可能减少和最大可能增加,基于训练后的模型如何对更改后的序列评分,分配损失得分和收益得分。他们可以从这些数据中推断出单核苷酸多态性(SNP)突变对序列的影响。高增益得分可以表明,如果突变允许某个基因更易于访问,则该突变可能导致功能获得。另一方面,高丢失评分可能表明突变会导致功能丧失,从而使DNA的可及性降低,基因调控可能降低或消失。这个实验饱和诱变可能需要很长时间才能在湿实验室中进行,因为必须为每个位置的每个突变都制备一个寡核苷酸。他们的模型仅需几分钟即可进行计算机饱和诱变

作者使用获利和损失得分,整合了来自基因组广泛关联研究(GWAS)的数据,这些数据通常用于识别导致疾病或其他表型改变的非编码变异。他们相信,利用他们的预测,他们可以鉴定出GWAS发现的非编码DNA区域中的SNP,这些区域对于未来的研究最有希望。为了测试这一点,他们将模型的损失和收益得分与已经注释过的因果GWAS SNP进行了比较。特别是,他们表明已知的白癜风突变被赋予了非常高的增益分数,这种突变是在一个基因沙漠中发现的,该基因是来自受影响基因的数百万个碱基对。从T到C的突变为称为CTCF的主转录因子创造了一个基序。已知该转录因子用于改变基因组区域的物理结构。

最后,作者希望证明预训练的模型可以有效地预测新数据集。为此,他们从训练过程中删除了15个细胞系,并训练了CNN模型。然后,对于它们删除的其余15个数据集,从训练集中抽取了相等数量的样本作为负样本。他们表明,使用此预训练的模型作为起点,可以使用此数据对任何将来的CNN模型进行更快的训练(单次通过)。

在本文中,作者证明了CNN模型可以准确地预测DNA的可及性,并可以用来发现控制DNA的可及性的关键核苷酸。与以往任何方法相比,作者能够以更高的分辨率识别非编码变体和关键SNP,因此他们的模型可以导致对重要的非编码变体和所涉及的SNP进行更多的识别,并将这些非编码变体链接在一起。编码疾病或生理表型的变体。

参考

Kelley DR,Snoek J,Rinn JL。巴塞特(Basset):使用深度卷积神经网络学习可访问基因组的调控代码。基因组研究。2016; 26(7):990-999。doi:10.1101 / gr.200535.115。

使用CNN预测基因可及性相关推荐

  1. 应用卷积神经网络CNN预测DNA-蛋白结合位点

    深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.卷积神经网络是目前应用最为广泛之一的深度学习技术,它是一种含特 ...

  2. 应用卷积神经网络CNN预测DNA-蛋白结合位点Convolutional neural network architectures for predicting DNA–protein binding

    深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.卷积神经网络是目前应用最为广泛之一的深度学习技术,它是一种含特 ...

  3. 使用cnn预测房价_使用CNN的人和马预测

    使用cnn预测房价 There are many transfer learning methods to solve classification problems with respect to ...

  4. 组装好基因组后之预测基因

    预测基因 给定一段fasta格式序列,如何预测其中的基因呢?首先需要判断该片段来自原核生物,真核生物还是病毒序列.如果是原核生物,基因结构比较简单,可以直接使用prodigal或者glimmer3工具 ...

  5. PolyPhen-2软件预测基因突变是否有害

    PolyPhen-2(Polymorphism Phenotyping v2)是一款预测基因突变是否有害的软件,其命名也体现了基因多态性对表型的影响. 官方网站: http://genetics.bw ...

  6. cnn 预测过程代码_FPN的Tensorflow代码详解——特征提取

    @TOC   特征金字塔网络最早于2017年发表于CVPR,与Faster RCNN相比其在多池度特征预测的方式使得其在小目标预测上取得了较好的效果.FPN也作为mmdeteciton的Neck模块, ...

  7. cnn 预测过程代码_代码实践 | CNN卷积神经网络之文本分类

    学习目录阿力阿哩哩:深度学习 | 学习目录​zhuanlan.zhihu.com 前面我们介绍了:阿力阿哩哩:一文掌握CNN卷积神经网络​zhuanlan.zhihu.com阿力阿哩哩:代码实践|全连 ...

  8. 基于影像基因的肺结节分割、肺癌分类分期、CT影像预测基因突变 --董云云 论文阅读

    一.背景.问题引入 肺癌是世界范围内发病率和死亡率最高的恶性肿瘤之一.根据世界卫生组织的调查结果显示,世界范围内每年因患肺癌死亡的病例数不低于 160 万 .早期肺癌的诊断较为困难,约 75%的患者在 ...

  9. cnn 预测过程代码_【交通+AI】使用CNN+LSTM实时出租车出行预测(上)

    这篇论文主要讲述了使用成都的出租车轨迹数据进行建模后生成出行强度图,使用CNN和LSTM进行学习之后通过反卷积生成出行强度预测图.非常适合上手这个领域,主要有两点原因:第一 出租车出行强度只包含了上车 ...

最新文章

  1. exe已停止工作_win7系统提示com surrogate已停止工作的解决方法【介绍】
  2. 强制解包看 Swift 的设计
  3. 论如何寻找万一的川财证券开户渠道
  4. ubuntu18.04安装python的mysqlclient==1.4.6报错ERROR Command errored out with exit status 1python setup
  5. iOS并发(多线程)
  6. 第三篇——第二部分——第一文 SQL Server镜像简介
  7. favicon.ico--网站标题小图片二三事
  8. (DFS)棋盘问题(poj1321)
  9. 拥有这个证书的医务人员恭喜了,国家正式通知……
  10. 论文 | 多传感器数据深度图的融合:最近基于深度学习的方法(上)
  11. 某大型IT公司招网络工程师认证试题精选(要求:CCNA或 HCNE以上)
  12. 把word地址做链接在线打开word
  13. mac查看进程 总是忘记
  14. 30 个 ElasticSearch 调优知识点,都给你整理好了!
  15. vue 判断是否function_vue2.0组件的prop验证中的Function类型怎么使用(向子组件传递函数对象的正确方法)?...
  16. matlab安卓官方下载,手机matlab软件下载-MATLAB Mobile手机版下载v5.1.0 安卓官方版-单机手游网...
  17. 找不到该项目,请确认该项目的位置的办法
  18. java数字时钟代码_Java编程小实例—数字时钟的实现代码示例
  19. c语言10h,bios 10h中断是什么意思啊?
  20. 机器学习笔记 - AutoML框架FLAML初体验

热门文章

  1. 500万像素视频会议摄像机 高清视频会议摄像机
  2. python怎样按某一列值拆分Excel表格
  3. idea如何选择性合并其他分支的代码
  4. wbarb matlab,图像的高频低频分解
  5. 全国软件测试培训机构名单已发布
  6. Android 自定义seekbar【仿微信联系人】
  7. 搜狗微信为什么搜不到服务器,搜狗微信搜索部分功能为什么下线 搜狗微信搜索部分功能将被下线详情介绍...
  8. C语言中的字符串与字符串函数
  9. 【思维导图】大数据发展历程2005~2017
  10. 纪中DAY15做题小结