近年来,人工智能(AI)已在医学、生物学及制药领域中展示出广阔的发展前景。特别是在蛋白质设计和工程领域,基于 AI 技术创建人工的蛋白质序列已经成为现实,并可能被用于治疗各种疾病。

日前,来自 AI 研究企业 Salesforce Research 、合成生物学公司 Tierra Biosciences 和加州大学旧金山分校的一组研究人员合作开展研究,创建了一个能够从头开始生成人造酶的人工智能系统——ProGen。

ProGen 系统基于 AI 语言模型发展而来,其能够以类似“遣词造句”的方式生成跨多个蛋白质家族、且功能可预测的蛋白质序列。经检测,该系统生成的酶与自然界中发现的酶同样有效,即使这些人工生成的氨基酸序列与已知的天然蛋白质之间存在显著差异。

自2021年7月, 该研究以"Large language models generate functional protein sequences across diverse families" 为题,在预印本服务器BiorXiv上发布,在该服务器上,该论文获得了几十次引文。2023年1月26日,该研究正式发表于同行评议的《 Nature Biotechnology》 期刊上。

研究团队表示,该技术可能超越获得诺贝尔奖的蛋白质定向进化技术,因为其几乎可以用于加速所有种类新蛋白质的开发工作,无论是药物开发还是塑料降解酶的制备。

“人工设计的性能比受进化过程启发的设计要好得多”,论文的作者之一,来自加州大学旧金山分校药学院的 James Fraser 表示,“当前的人工智能模型能够通过学习蛋白质进化的过程从而实现创新,但其与正常的进化过程不同,人们能够调整结构以获得特定的功能。例如,让一种酶具有超乎想象的热稳定性或耐酸性等。”

73%的人造溶菌酶具备功能性

为了开发 ProGen 系统,研究团队将来自于 19000 个家族的 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。

“对于蛋白质研究领域而言,最重要的信息包括蛋白质家族、生物过程和分子功能等属性。”研究人员介绍道,通过调节这些控制标签,ProGen 能够根据所需属性生成特定的蛋白质序列,并且具备前所未有的进化序列多样性。随着输入氨基酸序列和条件标签的增多,研究者能够实现对于产生蛋白质的功能控制。

在此之后,研究者向模型提供来自五个溶菌酶家族的 56000 个序列以及相关信息,从而对模型进行微调。基于上述现有的“学习材料”,AI 模型迅速生成了一百万个序列。根据这些序列与天然蛋白质序列的相似程度及其氨基酸序列构成的自然程度,研究团队从中选择了 100 个序列展开研究。

基于AI语言模型的人工蛋白质生成系统

“来自五个溶菌酶家族的所有人工蛋白质均显示出活性,并且在这些人工制造的溶菌酶中,有 73% 被发现具有抗菌功能,而在天然蛋白质中仅有 59% 具备功能性。”研究人员对此表示。

在第一批进行体外筛选的 100 种蛋白质中,研究团队选择了其中五种人工蛋白质在大肠杆菌中进行重组表达,并将它们的活性与鸡蛋清溶菌酶(HEWL)进行比较。后者主要存在于鸡蛋白、以及人类的眼泪、唾液和牛奶中,具有抵御细菌和真菌的作用。

比较数据表明,五种人工蛋白质中有两种能够以相当于 HEWL 的活性分解细菌的细胞壁,尽管它们之间仅有约 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白质与这两个序列的相似度分别为 90% 和 70% 左右。

“这一结果证实,ProGen 系统不仅能够学习生成结构稳定且‘合理’的氨基酸序列,并且其产生的序列已被证实能够在现实世界中执行其预期功能。”研究人员进一步介绍道,ProGen 生成的人工蛋白质不仅可以正确表达,并且展示出与天然折叠相类似的结构。

在另一轮筛选中,研究团队发现,即使只有 31.4% 的序列与目前已知的天然蛋白质相似,这些由 AI 生成的酶类依然显示出活性。与之相比,天然蛋白质中发生任何一个突变就有可能让其停止工作。

人工设计的蛋白具有生物活性但是与天然蛋白只有31%的序列相似性

“这项工作表明,蛋白质可以被理解为是一种由氨基酸组成的‘语言’。就像单词一个接一个地串在一起形成句子一样,氨基酸一个接一个地串在一起形成蛋白质。”研究人员对此表示,当前的人工智能技术已经可以通过研究原始序列数据来了解酶应该如何形成,在此之后,通过 X 射线晶体学测量发现,这些人造蛋白质的原子结构完全符合其设计预期,尽管这些序列此前并不存在。

开箱即用,像处理语言文本一样从头“书写”蛋白质

在生物学领域中,按需制造蛋白质可说是其中最复杂也最具影响力的工作之一。在过去几十年间,尽管蛋白质工程研究领域经过不断发展,取得了一系列举世瞩目的成就。然而,此前的蛋白质工程实验技术仍然依赖于启发式和随机突变的方式,从而选择出可用的初始序列。

2020 年,来自硅谷的 AI 技术企业 Salesforce Research 开发了 ProGen 系统,该系统基于一种用于生成英语文本的自然语言编程发展而来,以便将自然语言处理(NLP)方法应用至蛋白质属性分类,进一步研究并生成新的蛋白质。

AI语言模型也可以用来设计酶之外的其他蛋白质系统 

“当前结果证实,自然语言处理技术虽然是为读写语言文本而开发的,但其也可以用于学习一些生物学的基本原理。”研究团队认为,就像 AI 生成图片或文本的方式一样。有了足够的信息,人工智能生成的内容就可以变得类似于自然界中天然存在的事物,从而难以区分。

而对于蛋白质领域而言,其体现在设计上的广度就更加庞大。仅以溶菌酶为例,其长度最多约为 300 个氨基酸左右,但是考虑到有 20 种天然氨基酸作为制造“单元”,那么制造一个溶菌酶就存在大约 20300 种搭配。考虑到这种近乎于无限的制造可行性,使用 AI 技术轻松、快速地推动蛋白质设计工作就显得迫在眉睫。

“当你使用大量数据训练 AI 模型时,它们对于结构和制造规则方面表现出十分强大的学习能力,”Salesforce Research 的人工智能研究总监、该论文的通讯作者 Nikhil Naik 对此介绍道,“人工智能了解哪些‘单词’可以同时出现,以及它们组合在一起的可行性。”

该研究的通讯作者之一、基于 AI 技术的蛋白质设计公司 Profluent Bio 创始人 Ali Madani 博士此前曾在 Salesforce Research 担任研究科学家。任职期间,他领导了该公司的机器学习研究计划,并且担任 ProGen moonshot 的架构师,从而推进了蛋白质设计的生成建模项目。2022 年,他与加州大学旧金山分校教授 James Fraser 等人合作创立了 Profluent Bio,以跨学科合作的方式推动 AI 设计蛋白质工作的研究进展。

Ali Madani 认为,“这种开箱即用、从头开始生成功能性蛋白质的能力表明人们正在进入蛋白质设计的新时代。其为蛋白质开发工程师提供了一种多功能的新工具,我们期待看到该技术在各种疾病治疗应用领域中的下一步发展。” 他还表示,“从头开始生产功能性蛋白质的能力表明,我们正在进入蛋白质设计的新时代。”

ProGen的研发历史始于2020年,基于研究人员最初开发的一种生成英语文本的自然语言编程。他们从之前的工作中了解到,人工智能系统可以自学语法和单词的含义,以及其他使写作变得很好的基本规则。

对于蛋白质,设计选择几乎是无限的。溶菌酶含有约300个氨基酸。但由于有20种可能的氨基酸,有大量(20300种)可能的组合。这比把所有生活在整个时间里的人类,乘以地球上沙粒的数量,乘以宇宙中原子的数量还要大。考虑到无限的可能性,该模型可以如此容易地产生工作酶。

总体而言,该研究突出了人工智能语言模型在蛋白质设计和工程中的潜力,使用深度学习语言模型对蛋白质进行精确的从头设计将在生物学、医学和环境问题中展示出发展前景。不过,研究人员同时指出,在使用 AI 语言模型进行蛋白质设计和制造时,必须考虑伦理影响。

参考文献:

Large language models generate functional protein sequences across diverse families | Nature Biotechnology

Nature子刊:AI技术从零开始设计具有生物活性的蛋白质相关推荐

  1. Nature子刊 | AI驱动的药物开发是一把双刃剑

    瑞士联邦核生化保护研究所--Spiez实验室--召开了由瑞士政府设立的 "融合 "系列会议,以确定化学.生物学和可能对<化学武器公约>和<生物武器公约>产生 ...

  2. 你敢相信?这8项AI技术已经实现……

    全文共2464字,预计学习时长8分钟 来源:Pexels 人工智能(AI)并不像我们想象的那样,它不是一个只属于未来.能够变革世界的概念,而是一项已经存在并深刻影响着各行各业的技术. 尽管我们离完全开 ...

  3. 墨奇科技汤林鹏:如何用 AI 技术颠覆指纹识别?

    受访者 | 墨奇科技联合创始人& CTO 汤林鹏 记者 | Aholiab,编辑 | Carol 出品 | AI科技大本营(ID:rgznai100) 随着深度学习等AI技术的成熟,生物识别成 ...

  4. 李飞飞团队新研究登Nature子刊!实现可信 AI,数据的设计、完善、评估是关键!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 数据的设计.完善.评估三大步骤是关键. 转载自:AI科技评论  作者 | 李梅.王玥  编辑 | 陈彩娴 在 ...

  5. 百度计算生物研究登上Nature子刊!将3D结构引入分子表征,结果超越斯坦福MIT,已落地制药领域...

    杨净 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 百度新研究,登上了Nature子刊. 科技公司卷到学术圈顶刊上不算稀奇. 但这次有点不同寻常. 研究领域与生物领域直接相关,接收该论文的期刊 ...

  6. AI研发新药登上Nature子刊:46天合成潜在新药候选分子,比传统方法快15倍 | 开源...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 用AI进行药物开发,可以省下2至3年的研发时间. 最新一期的Nature子刊上,就刊登了这样一项新研究. 这项来自Insilico Medi ...

  7. 腾讯提出蛋白质研究AI模型,预测准确率刷新纪录,入选Nature子刊

    蛋白质相互作用(PPI)可以说是人体最重要的分子事件之一,事关人体生长发育.新陈代谢,是疾病治疗干预的重要来源,PPI失调会导致癌症等疾病发生,因而该领域也是医药行业关注的研究热点. 为了更好地预测和 ...

  8. 腾讯 AI Lab 联合研究登上Nature子刊,独创方法提升蛋白质结构预测精度

    感谢阅读腾讯 AI Lab 微信号第109篇文章.本文将公布 AI+药物领域新进展. 11月17日,腾讯公布了一项人工智能助力药物发现的新进展. 通过腾讯自研的提升蛋白质结构预测精度的新方法,联合研究 ...

  9. AI诊疗里程碑突破!Nature子刊:全新AI诊断工具问世,准确度或超年轻医生

    来源:学术经纬 本文共3500字,建议阅读7分钟. 本文介绍了<自然>子刊<Nature Medicine>上发表的一项激动人心的成果:利用机器学习和自然语言处理等人工智能(A ...

最新文章

  1. VS2008让Release配置也能调试起来~
  2. ASP.NET MVC 的 WebGrid 的 6 个重要技巧 【已翻译100%】
  3. python from __future__ import division的作用
  4. 微信小程序的省市区三级地址mysql_微信小程序 实现三级联动-省市区
  5. 存储过程参数输入输出
  6. 窗口分析函数19_Mysql查询窗口函数里第一个 最后一个 第N个元素的值的案例详解(FIRST_VALUE LAST_VALUE NVH_VALUE)
  7. 浩鲸新智能解决方案工程师面试_【华为解决方案工程师面试题目|面试经验】-看准网...
  8. OpenCV中的凸包
  9. 使用 jQuery Mobile 与 HTML5 开发 Web App (九) —— jQuery Mobile 页面与对话框
  10. Spring Boot Questions- Part 1
  11. 《C++ Primer Plus》读书笔记之十—类和动态内存分配
  12. python入门爬虫案例_[Python入门学习]-爬虫项目案例讲解
  13. 百度网盘机器人软件工具自动发货管理文件好友群补发文件资料 (可用于拼多多淘宝闲鱼虚拟店商品自动发货)
  14. 【Python】使用Zoho/Hotmail给单人/多人发送Email邮件,以及发发送附件
  15. datasets: mnist
  16. 河南省 建筑标准规范 合集
  17. 基于C++的Huffman赫夫曼编译码器开发 课程论文+项目源码及可执行exe文件
  18. hbase之布隆过滤器
  19. 牛顿拉夫森法 matlab,【原创】牛顿-拉夫森迭代求非线性方程组
  20. Hi,你想要的在线创建架构图都在这儿!(一)

热门文章

  1. 【吴恩达deeplearning.ai】3.2 特征点检测
  2. RISC-V为中国MCU企业打开一个新窗口!
  3. npm,vue简易安装教程
  4. cesium给广告牌加动图
  5. NanoPi-K2 控制GPIO
  6. NTP时间同步服务器客户端、服务端的安装以及配置文件的配置
  7. VisionMobile HTML5对移动行业意味什么
  8. 豆芽的生长过程观察日记
  9. java计算机毕业设计失物招领信息交互平台源代码+数据库+系统+lw文档
  10. 宇视200W 相机一天所占存储空间是多少