摘要

文章提出了一种优化的卷积神经网络,可以通过mRNA levels来预测蛋白质levels,证明了基因之间较大比例的变异,相对于它们的稳态 mRNA 表达水平来说,是可以通过基因组序列的特征中预测的。
文章地址:Predicting mRNA Abundance Directly from Genomic Sequence Using Deep Convolutional Neural Networks

模型结构

网络结构:如图1。由两个顺序卷积层和最大池化层组成,然后是输出神经元之前的两个全连接层,总共包含 112,485 个参数。超参数如图2。

图1 网络结构


图2 超参数

输入:TSS (转录起始点)上游 7 kb 到下游 3.5 kb 的区域。
输出:mRNA水平
超参数搜素:使用了手动定义和两种优化策略- simulated annealing (SA) 和Tree of Parzen estimators (TPE)。
对于手动定义的深度学习架构,是通过先验知识得到的。即控制转录率的信息很可能定位于 TSS 周围 ±1,500 bp 启动子内的序列元素,且受到了以前用于从 DNA 序列预测染色质可及性区域的深度学习框架的启发。
对于TPE方法发现的超参数指定的最佳深度学习框架,使用了10个独立试验来测试,其中9 次收敛到相似的 MSE 值。对于最终模型,选择了从最小化验证 MSE 的特定试验和时期派生的参数。

实验(验证过程)

  1. 评估56 种人类细胞类型的相关结构,对细胞类型之间 mRNA 表达水平的成对 Spearman 相关性进行评估,大多数细胞类型高度相关,任何一对细胞类型之间的平均相关性约为 0.78。证明开发细胞不可知、可以预测中值 mRNA 表达水平的模型是可行的。
  2. 初始化模型超参数的搜素,改变了几个关键的超参数,mRNA 衰变特征没有变化。
  3. 使用三种超参数搜索方法发现更好的超参数集,发现TPE 方法实现了 0.401 的最佳验证均方误差 (MSE)。
  4. 用 TPE 方法发现的超参数指定的最佳深度学习架构来训练 10 个独立试验。选择了从最小化验证 MSE 的特定试验和时期派生的参数。
  5. 得到最终模型,相关超参数如图2。
  6. 对训练集进行了二次抽样,并分别在验证集和测试集上评估了 MSE 和 r2r^2r2 ,发现在 4,000 到 6,000 个训练示例之间获得最大的性能提升。
  7. 比较方法在哺乳动物物种中的普遍性和性能。关注人类和小鼠的 18,377 个和 21,856 个基因,我们可以匹配启动子序列和基因表达水平,并在每个物种中保留 1,000 个基因作为测试集。最佳人体模型的 r2r^2r2为 0.59,小鼠中最好的小鼠模型实现了显着更高的r2r^2r2为 0.71。
  8. 重新训练人类和小鼠特定模型,这些模型具有相同的一对一直系同源物组。在一组相同或相反物种的一对一直系同源物上测试了这些模型的性能。对每个物种进行训练的模型在对立物种的测试集上取得了与同一物种相似的性能。表明模型所学习的调控原理在整个哺乳动物系统发育中都具有普遍性。
  9. 为了验证模型的普遍性,构建了特定于细胞类型的模型。使用相同的超参数,我们训练了新模型来预测人类骨髓性白血病细胞 (K562)、人类淋巴母细胞 (GM12878) 和小鼠胚胎干细胞 (mESCs) 的所有蛋白质编码基因的表达水平。
  10. 通过 SuRE 测量和 K562 的特异性,Xpresso 模型预测 K562 表达水平(分别为r2r^2r2= 0.53 和 0.51),通过比较r2r^2r2来评估仅从启动子序列预测基因表达的最大可能性能,表明文章提出的模型能够了解解释 mRNA 表达水平的序列编码信息的主要来源。
  11. 和基线模型和已经存在的模型相比,预测 mRNA 水平,取得了较好的结果,在人类和小鼠中分别比这些模型提高了 11.2% 和 11.7%。10 折交叉验证结果进一步验证了模型在人和小鼠中的表现都明显优于基于k -mer 的最佳替代方法。

结论

该模型使用卷积神经网络,使用基因组序列来预测mRNA 表达水平,其预测能力通常能超过现有的其他模型,且能够在任意细胞类型上进行训练,包括缺乏实验数据的细胞

Predicting mRNA Abundance Directly from Genomic Sequence Using Deep Convolutional Neural Networks相关推荐

  1. Graph Convolutional Neural Networks for Predicting Drug-Target Interactions

    1. 摘要 2. 数据集 DUDE数据集改进 DUDE-chemBl负样本数据集 最大无偏数据集(MUV) 3. 图构建 pocket graph molecuar graph 4. 口袋pretra ...

  2. Sequence to Sequence Learning with Neural Networks论文翻译

    Sequence to Sequence Learningwith Neural Networks论文翻译 摘要 深度神经网络是在困难的学习任务中取得卓越性能的强大模型.尽管拥有大量的标记训练集,DN ...

  3. Structured Sequence Modeling With Graph Convolutional Recurrent Networks

    https://davidham3.github.io/blog/2018/07/23/structured-sequence-modeling-with-graph-convolutional-re ...

  4. A Critical Review of Recurrent Neural Networks for Sequence Learning-论文(综述)阅读笔记

    A Critical Review of Recurrent Neural Networks for Sequence Learning 阅读笔记 //2022.3.31 下午15:00开始 论文地址 ...

  5. 应用卷积神经网络CNN预测DNA-蛋白结合位点Convolutional neural network architectures for predicting DNA–protein binding

    深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.卷积神经网络是目前应用最为广泛之一的深度学习技术,它是一种含特 ...

  6. GGNN(Gated Graph Sequence Neural Networks)

    GGNN研究意义: 1.提升在图结构中长期的信息传播 2.消息传播中使用GRU,使用固定数量的步骤T,递归循环得到节点表征 3.边的类型,方向敏感的神经网络参数设计 4.多类应用问题,展示了图神经网络 ...

  7. Sequence Classification with LSTM Recurrent Neural Networks in Python with Keras-学习笔记

    Sequence Classification with LSTM Recurrent Neural Networks in Python with Keras 序列分类是一种预测建模问题,其中在空间 ...

  8. 【论文研读】【医学图像分割】【FCN+RNN】Recurrent Neural Networks for Aortic Image Sequence Segmentation with ...

    [FCN+RNN]Recurrent Neural Networks for Aortic Image Sequence Segmentation with Sparse Annotations Ab ...

  9. 第五门课 序列模型(Sequence Models) 第一周 循环序列模型(Recurrent Neural Networks)

    第五门课 序列模型(Sequence Models) 第一周 循环序列模型(Recurrent Neural Networks) 文章目录 第五门课 序列模型(Sequence Models) 第一周 ...

  10. POI推荐文献阅读笔记3:Predicting Human Mobility via Graph Convolutional Dual-attentive Networks

    POI推荐文献阅读笔记3: Predicting Human Mobility via Graph Convolutional Dual-attentive Networks 1.摘要 2.贡献 3. ...

最新文章

  1. 模拟浏览器发送请求报文
  2. 成功解决ImportError: Missing optional dependency ‘fastparquet‘. fastparquet is required for parquet supp
  3. python 使用进程池Pool进行并发编程
  4. 使用MaxCompute LOAD命令批量导入OSS数据最佳实践—STS方式LOAD开启KMS加密OSS数据
  5. linux那些事之中断与异常(AMD64架构)_2
  6. 字体设计师必备灵感来源
  7. Linux中,根目录下文件夹的含义
  8. 【渝粤教育】国家开放大学2019年春季 2718动物生理基础 参考试题
  9. 开发工具-Hijson
  10. ☆汇总☆电力电子技术simulink仿真电路分析
  11. 两个点 定位_智造讲堂:RFID定位导航技术
  12. 【python学习笔记】Python的六种内置对象
  13. java小红球下载_小红球闯关下载_小红球闯关合集版下载-游戏下载
  14. 三星note3smn9005怎么放SIM卡
  15. C++大写字母转小写字母
  16. js 取表格table td值 botton a
  17. 优秀Android开发源码合集(附解析)程序员进阶宝典
  18. 说一说Glide.with()
  19. MATLAB基于多目标算法的冷热电联供型综合能源系统运行优化
  20. 【随笔】2022的一些想法,关于多巴胺戒断

热门文章

  1. 【专业课程】网络协议分析与安全
  2. C#中操作Word(7)—— 如何向Word中插入表格
  3. java说的tps pv是什么_你知道服务器PV、TPS、QPS是怎么计算出来的吗?
  4. Final Cut Pro X Guru: Advanced Trimming Final Cut Pro X Guru:高级修剪 Lynda课程中文字幕
  5. 魔域充值卡表cq_card里chk_sum参数的算法
  6. 【TencentOS tiny学习】源码分析(7)——事件
  7. 0w1_CTF_Writeup
  8. Hypervisor介绍
  9. 【Clemetine】数据挖掘在风险分析中的应用
  10. Monkey测试黑白名单