MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
来源:ScienceAI
作者:Raleigh McElvery
编辑:小舟、张倩
来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。
尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的指令。
这种非编码 DNA(也称为调控 DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的合成量。随着时间的推移,细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。这些突变大多是微不足道的,但有时可能会增加一些疾病风险,包括癌症。
为了更好地了解此类突变的影响,研究人员一直在努力研究数学图谱,这些图谱使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。在生物学中,这些图谱被称为「适应度地形(fitness landscape)」,大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是繁殖成功率。
早期的适应度地形非常简单,通常只关注有限数量的突变。现在有更丰富的数据集可以使用,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解单个基因如何随着时间的推移而进化,而且还有助于预测未来可能发生的序列和表达变化。
近日,来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型,预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响,登上了最新一期《自然》杂志的封面。
论文地址:https://www.nature.com/articles/s41586-022-04506-6
该研究还设计了一种以二维方式表示适应度地形的独特方式,使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变,甚至有望为基因治疗和工业应用设计自定义的基因表达模式。
该研究的主要作者之一、MIT 生物学教授 Aviv Regev 说:「科学家们现在可以使用该模型解决一些进化问题或完成一些设想,例如以所需方式制作控制基因表达的序列。」
Aviv Regev
在这项研究之前,许多研究人员只是简单地在自然界存在的已知突变上训练他们的模型。然而,Regev 的团队想要更进一步。他们建立了自己的无偏模型,该模型能够基于任何可能的 DNA 序列,甚至是以前从未见过的序列,预测生物体的适应度和基因表达。研究人员将能够利用这些模型来设计细胞,研发新药,寻找包括癌症和自身免疫性疾病在内的疾病新疗法。
为了实现这一目标,麻省理工学院研究生 Eeshit Dhaval Vaishnav、哥伦比亚大学助理教授 Carl de Boer(论文共同一作)等人创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练模型,并观察每个随机序列如何影响基因表达,该数据集是通过将数百万个完全随机的非编码 DNA 序列插入酵母菌中生成的。他们专注于非编码 DNA 序列的一个特定子集——启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。
Regev 说,「这项工作表明,当我们设计新的实验来生成正确的数据以训练模型时,将会出现什么样的可能性。从更广泛的意义上说,我相信这些方法对许多问题都很重要,比如理解人类基因组中带来疾病风险的调控区域的遗传变异,以及预测突变组合的影响,或设计新的分子。」
Regev、Vaishnav、de Boer 和他们的合著者继续以各种方式测试他们的模型的预测能力。「创建一个准确的模型当然是一项成就,但对我来说,这只是一个起点,」Vaishnav 解释道。
首先,为了确定他们的模型是否有助于合成生物学应用,如生产抗生素、酶和食物,研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。然后,他们查阅了其他的科学论文,以确定基本的演化问题,看看他们的模型能否帮助解答这些问题。该团队甚至还从一项现有研究中获取了真实世界的种群数据集,其中包含了世界各地酵母菌株的遗传信息。通过这些方法,他们能够描绘出过去数千年的选择压力,这种压力塑造了今天的酵母基因组。
但是,为了创造一个可以探测所有基因组的强大工具,研究人员需要找到一种方法,在没有这样一个全面的种群数据集的情况下预测非编码序列的进化。为了实现这一目标,Vaishnav 和他的同事们设计了一种计算方法,允许他们将来自框架的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列如何影响基因表达和适应度,而无需在实验室工作台进行任何耗时的实验。
Vaishnav 解释说:「之前,适应度地形中有一个未解决的问题,即没有一种方法可以以一种有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这一空白,并为创造一个完整的适应度环境的长期愿景做出贡献。」
爱丁堡大学医学研究委员会人类遗传学部门的遗传学教授 Martin Taylor 表示,这项研究表明,人工智能不仅可以预测调控 DNA 变化的影响,还可以揭示支配数百万年进化的潜在原则。
尽管该模型只在少数几种生长条件下的一小部分酵母调节 DNA 上进行了训练,但让他印象深刻的是,这个模型竟然能够对哺乳动物基因调控的进化做出如此有用的预测。
这项研究因其在设计生物 DNA 序列方面的重要影响而受到诸多关注,甚至在该研究正式发表之前,Vaishnav 就已经收到了一些研究人员的询问,希望将该模型设计用于基因治疗的非编码 DNA 序列。
这项工作近期已经有了一些具体的应用,包括在酿造、烘焙和生物技术中为酵母自定义设计调控 DNA。
Martin Taylor 还评价称:「这项工作未来有望帮助识别人类调控 DNA 中的疾病突变,这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明,在更丰富、更复杂和更多样化的数据集上训练的基因调控 AI 模型有着光明的未来。」
原文链接:
https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变相关推荐
- Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架
本次报道的论文来自清华大学的曾坚阳老师团队发表在nature communications上的A deep-learning framework for multi-level peptide–pro ...
- DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架
目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...
- Nat. Commun. | 序列到功能的深度学习框架加速工程核糖调节剂设计和优化
今天给大家介绍由哈佛大学和剑桥大学的研究人员联合发表在Nature Communications的一篇文章.由于对设计规则的理解有限,设计全新的生物回路组件仍然是一项具有挑战性的工作,支点开关(Toe ...
- 小样本点云深度学习库_NeurIPS2019 | MIT与上海交大提出新型点云深度学习框架Point-Voxel CNN...
首发于公众号:3D点云深度学习. 论文:'Point-Voxel CNN for Efficient 3D Deep Learning' 来源:NeurIPS2019Spotlight 共同一作:Zh ...
- 基于TensorFlow深度学习框架,运用python搭建LeNet-5卷积神经网络模型和mnist手写数字识别数据集,设计一个手写数字识别软件。
本软件是基于TensorFlow深度学习框架,运用LeNet-5卷积神经网络模型和mnist手写数字识别数据集所设计的手写数字识别软件. 具体实现如下: 1.读入数据:运用TensorFlow深度学习 ...
- 饮水思源--浅析深度学习框架设计中的关键技术
点击上方"深度学习大讲堂"可订阅哦! 编者按:如果把深度学习比作一座城,框架则是这座城中的水路系统,而基于拓扑图的计算恰似城中水的流动,这种流动赋予了这座城以生命.一个优雅的框架在 ...
- 手把手教你如何自己设计实现一个深度学习框架(附代码实现)
作者丨王桂波@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/78713744 编辑丨极市平台 导读 本文首先从深度学习的流程开始分析,对神经网络中的关键组件抽象,确定 ...
- 智源社区AI周刊No.101:DeepMind推出AlphaTensor登Nature封面;stateof.ai发布AI情况报告...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. DeepMind推出AlphaTensor,利用机器学习发现新矩阵乘法,已登Natu ...
- 本周AI热点回顾:意念打字登Nature封面,准确率超99%;前馈网络+线性交互层=残差MLP,纯MLP图像分类架构入场...
点击左上方蓝字关注我们 01 意念打字登Nature封面!每分钟写90个字符,准确率超99%,网友:我打的都比它慢 万万没想到,脑机接口这么快就有了重大突破!甚至还 ...
最新文章
- 【洛谷习题】小A点菜
- lvds接口屏线安装图解_液晶屏LVDS线类型图文讲解
- ASP.NET MVC实现一个用户只能登录一次 单用户登录
- 瑞文标准推理测试软件,瑞文标准推理测验标准答案表
- 重磅!2K图像90FPS,中科院开源轻量级通用人脸检测器
- 怎么能把看不清的照片给看清_远视怎么矫正?需要佩戴眼镜吗?
- 作者:陈钧,男,中国国防科技信息中心高级工程师、研究室主任。
- oracle数据库月份日期固定,oracle 日期函数介绍-数据库专栏,ORACLE
- java webinf lib jar_java web项目中classes文件夹下的class和WEB-INF/lib中jar里的class文件加载顺序...
- spring 自动扫包代码放置的位置问题
- Luogu P1039 侦探推理(模拟+枚举)
- 计算机专业基础 -- Spring系列框架相关基础知识
- 国家地表水水质自动监测站坐标位置数据(共1946个点位,含断面名称、所在省份、所在城市、经度、纬度、所在河流、所在流域、断面属性、介绍、属地管理)
- Oracle ERP 模块
- 首发:Meltdown漏洞分析与实践
- PS3安装Linux Fedora Core 6教程
- 一键清除锁屏密码:苹果手机忘记锁屏密码的解决方案
- (六)Linux环境部署(Centos+Nginx+Tomcat+Mysql) - 常用命令总结
- 12、python 海龟绘图 turtle
- Spring基础笔记
热门文章
- 2021 倒计时,编程日历倒计时,但伟大与经典历久弥新
- 是时候拨开迷雾,看清5G当下的真面目了
- Python源码怎么读,听听顶级爬虫工程师的建议
- Ubuntu下常用强化学习实验环境搭建(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)
- Java基本类型和取值范围
- 什么样的程序员生涯指南,能在GitHub上获3.6万星
- 陈立杰再获FOCS 2019最佳学生论文奖
- 独家|深度学习训练和推理之间有什么差异?
- 荒唐!985高校规定研究生上课迟到两次就扣 500 元国家助学金!
- ECCV 2020 | DADA:高效的可微分自动数据增强技术(已开源)