来源: 脑极体

近期在生命科学领域,有一则爆炸性的新闻,DeepMind 的Al phaFold2模型,将人类的98.5%的蛋白质,全部预测了一遍,并且做成了数据集免费开源,供科研圈的人使用。

开放的数据集不仅包括人类蛋白质组,还有大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据,总计超过35万个蛋白质的结构。phaFold2模型的目标是为所有具有已知序列的蛋白提供预测结构。Deepmind计划在年底将预测数量增加到1.3亿个,而这个数量已经达到了人类已知蛋白质总数的一半。

科研圈因为这一新闻都炸锅了,平时需要花费数月、数年的才能完成的事情,只需要几天就可以搞定,大家无一不在赞叹这个具有划时代意义的时刻。DeepMind联合创始人兼CEO Demis Hassabis谈道:“我认为这是DeepMind整个10年多生命周期的顶峰。”对于研究人员来说,丰富的蛋白质结构数据有了,开展下一步的研究就顺畅了。

内行人看门道,外行人看热闹,对于学术圈人的集体高潮,外行人的内心都有个大大的问号,预测这么多的蛋白质结构究竟有什么卵用?人类为何一直在和蛋白质死磕?

研究蛋白质的意义

回答这个问题之前,不得不提及生命科学领域最重要的中心法则:遗传信息在细胞内的生物大分子间转录从DNA→RNA→蛋白质。

如何理解呢?在生物世代繁衍的过程中,生物会把自身携带的遗传物质DNA分子,通过复制传递给后代,而在每一代生物从生到死的过程中,这套DNA分子以自身为设计蓝图,指导生产大量的蛋白质分子,执行支持生物生存和活动的全部功能。

中心法则的一端是DNA,一端是蛋白质,DNA可以看做是工厂里面生产制造的设计图纸,而蛋白质就是有各种功能的零部件,造出来的蛋白质有的跑去参与体内各种生物化学反应,比如食物的消化有各种酶的参与,有的在血液中(血红蛋白)积极的运输养料,有的作为信使在细胞之间传递信号,有的作为卫士,参与生物体的免疫大战,各种设计组装出厂的不同蛋白质可以让遗传、发育、繁殖、代谢等生命活动正常运行开展。

对蛋白质进行系统深入的研究,能让我们从更深层次诠释生命体的构成和运作变化规律,进而全面揭示生命运行、发展的机制,激发生物科学、药物研发、合成生物学方面的发展。

我们在中学就已经简单了解过蛋白质了。蛋白质是生物构成的重要基本物质,由各种氨基酸组成,其排列方式和位置的差异使得其种类极其繁多,结构复杂。每种蛋白质的空间结构和功能都大不相同,也因为蛋白质的空间结构,不同的折叠方式使得蛋白质具有的活性和生物性能不定,而这个复杂的特性也就注定了研究蛋白质的路径困难重重。

蛋白质研究的波折之路

蛋白质早在18世纪就被法国化学家发现,但是因为技术条件的限制,直到20世纪初,科学家才能根据一些技术去深入的研究蛋白质。因为蛋白质结构的复杂与种类极其繁多,研究了解的过程极其费时费力。

对于早期的生化学家来说,研究蛋白质的困难在于难以获取大量的纯化的蛋白质用于研究,因此早期的研究工作就是在各种纯化蛋白质的路上。后来有生物公司1950年在牛胰腺中纯化了核糖核酸酶a,并免费提供给科学家使用,科学家的大量试验逐渐打开。

1949年,英国生化学家桑格用8年的时间测试出了胰岛素(蛋白质)的51个氨基酸的排列顺序,验证了蛋白质是由氨基酸所形成的线性多聚体。因这一研究桑格被授予1958年诺贝尔化学奖。人们运用桑格的方法对许多别的蛋白质迅速进行了测序,桑格的研究为1965年第一次人工合成胰岛素铺平了道路。

人类第一次知悉蛋白质分子结构是在1959年,英国科学家 Max Perutz 利用X射线衍射的方法,根据射线被散射的角度推测电子的位置解析了肌红蛋白分子的三维结构,自此之后,X射线衍射成为解析高分辨率蛋白质结构最有力的工具。除了X射线衍射之外,后期科学家们常用的研究工具还有核磁共振与冷冻电子显微镜技术。

虽然有设备辅助研究,但是现实测试技术的局限,施行起来成本过高,按照传统的实验步骤,从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、X射线衍射分析等步骤。由于蛋白质结构和性质的多样性,这些步骤大多没有固定的规律可循。

历史上有科学家耗费几十年时间才能得到一个清晰的蛋白质三维结构,蛋白质三维结构的测定成了生物学领域非常困难的研究。至今为止没有AI技术的协助,三维结构被看清的量也仅仅只有17万个,这跟蛋白质的总量相比差距大的跟九牛一毛似的。

对于蛋白质的结构来说,就算我们看得清测得出它的形态,但是关于其折叠的方向在三维空间中有10^300种方式,为何就选择折叠为现在的状态,这个过程和选择的路径没法解析。因为研究的方法与内容都极其困难,所以研究蛋白质的结构以及定性就真的只有死磕这一条路了。半个多世纪以来,研究蛋白质结构的相关工作只要有新的发现就会喜提诺贝尔奖,至今为止仅仅蛋白质领域已经拿过20多项诺贝尔奖。

也有一批科学家跳出肉眼观测的技术思路困境,另辟蹊径,绕开费事费钱的传统技术的试验步骤,从蛋白质的氨基酸序列直接进行计算预测它们的三维结构。

站在AI巨人肩膀上研发

实现从氨基酸预测蛋白质结构的大前提就是计算机技术的发展。1998年,华盛顿大学的 David Baker 教授开发了一套名为 “Rosetta”(罗塞塔石碑)的计算机程序来预测蛋白质结构。但是因为算力的有限,不能暴力地穷举,因此在早期的预测中,主要用来处理氨基酸数量很小、排列比较规则的蛋白质。对于复杂的蛋白质也只能望洋兴叹了。

为了获得对蛋白质结构预测技术水平的客观评估,由马里兰大学的John Moult领导的一组科学家在1994年创立了CASP(结构预测的关键评估),预测者可以在一个双盲框架内评估他们的方法,以促进研究、监测进展,并建立蛋白质结构预测的最新水平。

得益于卷积神经网络的发展,Deepmind的研究在第十四届CASP比赛中大放异彩,团队使用基于注意力机制的神经网络,依靠端到端的优化整体构建结构,内置了大量的序列、结构和宏基因组等多重比较信息,其预测的GDT-TS中值达到了92.4分,远远高于第二名。这是个什么水平呢?据悉,GDT-TS的得分在70分左右,说明其结果具有准确的全局和局部拓扑结构的模型。超过80分,结构细节的建模越来越正确,超过95分,模型就像根据实验数据建立的模型一样准确。

人工智能技术作为预测蛋白质结构的辅助手段,通过暴力的学习穷举,将科学家本来需要几年几十年预测的时间缩短为几日,并且对于简单的蛋白质分子来说结构的预测已经非常精准,而这样的结局就会让科学家们转身投入到深度理解蛋白质本身的机理的研究中。

纵观科学史,每次科学家在所在领域内取得重大的进步,都离不开当时技术的支持。无论是在蛋白质提纯的困难年代,还是观察蛋白质的冷电镜技术时代,科学家研究的工具都依赖于当时的最高科技水平。在AI时代,因为算力和算法模型的极大提升,我们见证了蛋白质结构预测的历史时刻。

AlphaFold2的数据库现已开源并且还在不断地增加新蛋白质结构预测,这也成为了科学家进行蛋白质研究的宝藏数据库。不过算出结构也只是生物科学领域的初步阶段,指明了方向后续的进展还得需要试验与头脑的风暴。对于没有在已有蛋白质结构数据集训练的其他蛋白质结构,其研究仍然是谜一般的存在,这也给科学家们留下了很大的研究空间。

不过AlphaFold2 这样的高精度模型,总的来说还是极大地推动科学家的研究与发展,拓展了对蛋白质进行功能分析、以及下游应用的范围,科学家们得以在各个领域展开开拓性的研究,比如一些癌症、病毒类感染的疾病研究,抗生素、靶向药的开发,研发新效率的酶等为健康与环保的层面做出贡献。

站在神经网络与深度学习的技术巨人的肩膀上,生命科学领域的发展已经有了质的飞跃,AI对于蛋白质的预测也不再依赖人类的先验知识去做结构预测,相比几年前引起轰动的 AlphaGo,AlphaFold 也让深度学习与神经网络好好秀了把肌肉。科学的创新离不开技术工具的强力辅助,而蛋白质这个能够影响生命进程的分子,技术为我们打开了研究它的大门,这些海量的蛋白质结构信息被技术释放,背后的解读与分析可能蕴含着生命信息的密码。下一个生命科学领域的革命性研究成果,炸出来的是什么我们无法想象。在生命科学研究中体验开盲盒的快乐,也是从来没有想过的惊喜,期待下一个未来。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

AlphaFold2爆火背后,人类为什么要死磕蛋白质?相关推荐

  1. 计算广告 pdf_他创业20年死磕PDF一项业务,如今上市身家76亿:所有的突然牛逼,背后都是玩命死磕...

    关注 ▲粥左罗▲ 和百万互联网精英,一起向上生长 这是粥左罗的第 883 期分享 作者 l 夏未来 来源 l 粥左罗(ID:fangdushe520) 转载请联系授权(微信ID:zzlloveutoo ...

  2. 商战传奇:周鸿祎死磕雷军的背后的三重玄机

    雷军和周鸿祎之间微博大战在持续了多日以后还没有消减的迹象,双方的阵地又开始向传统媒体蔓延,这起纷纷扬扬事件注定要写入互联网历史.我们站在别处,回过头来看这件事,背后又有哪些玄机. 一重玄机:雷军周鸿祎 ...

  3. 媒体观点 | 手机拍照“神仙打架”背后,厂商死磕计算摄影到底在比什么?

    手机上越来越多的镜头,真的都能派上用场吗? 如果非要在当下旗舰智能手机大战中选一个最重要的比拼焦点,那大概率是拍照. 在iPhone带火了智能手机计算摄影浪潮后,经过十几年发展,如今的旗舰手机拍照基本 ...

  4. 互联网巨头“死磕”不放弃的社交赛道还有生意吗?

    近年来,不少互联网大厂都向社交赛道发起了冲击,比如最近字节跳动的社交APP"多闪"便重新上架,引发众多讨论. 社交赛道究竟有何魅力,让巨头们屡战屡败,也要"死磕" ...

  5. 死磕 18 个 Java 8 的日期处理,工作必用!

    死磕 18 个 Java 8 的日期处理,工作必用! 简介 关键类 实战 1. 获取当前的日期 2. 获取年.月.日信息 3.处理特定日期 4.判断两个日期是否相等 5.检查像生日这种周期性事件 6. ...

  6. 专访 iOS 技术专家孙源:开发者的成长始于“死磕”

    小编语 本文为 DevLink 专访系列,本期采访嘉宾是 iDev 苹果开发者大会<链接器:Linker 与 Loader 的前世今生>的讲师--孙源.在即将到来的 iDev 大会上,他将 ...

  7. 这帮死磕技术的理工男造了一支笔

    回顾教育硬件这个赛道,人们的记忆还总是停留在"哪里不会点哪里"带来的风潮,彼时已经是十多年前的故事.当智能手机和平板电脑占据了人们大部分的业余时间,专注学习场景的教育硬件赛道,成为 ...

  8. 站在原地就是退步——除了死磕通道,云通讯服务商还该做些什么?

    受访嘉宾:吴佳钊,杭州云片网络科技有限公司联合创始人.CTO 当前,全球通信云已经步入2.0时代,最大的变化在于通信形式的变革:传统短信+语音的通信形式将逐步向包括即时通讯IM+实时音视频RTC的互联 ...

  9. 电商为何要死磕线下?

    电商之间的战火,如今早已不局限于线上电商平台,而是蔓延至更接地气.辐射范围更广的线下市场.无论是在广阔的农村市场.商圈中心的高楼大厦,还是遍及各个社区的量贩.超市,都在被电商逐一攻陷.就目前来看,这一 ...

最新文章

  1. VC2008 忽然无法调试DLL的解决方法
  2. 洛谷P3919可持久化线段树
  3. python统计字数分布可视化展示_数据的概率分布并用python实现概率分布可视化图...
  4. python标注审核_Python类型标注
  5. php 邮件乱码,解决PHP mail发送UTF-8中文邮件乱码
  6. Django 缓存、序列化、信号
  7. ipc.Client: Retrying connect to server: h1/192.168.1.61:9000. Already tried 0 time(s);解决方法
  8. unique函数_包含虚函数的类应该有虚析构函数或保护析构函数?
  9. 双人贪吃蛇小游戏C++原创
  10. 机器学习中最重要的公式——贝叶斯公式
  11. 重邮计算机esi排名,重庆顶尖的3所“双非”大学,学科强就业好,重庆邮电大学在列...
  12. 仨人一起生活的日子刚刚好,不是吗?
  13. HSSF、XSSF、SXSSF、对Excel的区别,以及对应不同后缀名Excel(xls,xlsx)的使用
  14. 数据库MySQL入门-下
  15. Matlab之数据筛选
  16. 愿你在迷茫时,坚信你的珍贵,爱你所爱,行你所行,听从你心,无问西东。...
  17. 南理工计算机学院基础实验中心,数学实验教学中心
  18. 细说linux挂载---转自ubuntu论坛 adagio
  19. 2019华为软件精英挑战赛赛后总结
  20. 顺序表逻辑与程序实现

热门文章

  1. 经典推荐:《Silverlight揭秘》和《ASP.NET 3.5高级程序设计(第2版)》
  2. NIPS 2018 迁移学习相关论文
  3. Windows10编译源码安装Aleth(Ethereum C++ client, tools and libraries)
  4. 1.5K star量,上古老番变4K,B站开源超分辨率算法
  5. 8个可以提高数据科学工作效率、节省宝贵时间的Python库
  6. 玩转数据、拥抱智能 | 清华大学大数据能力提升项目宣讲会火热来袭
  7. 不挡脸,放肆看!揭秘B站黑科技蒙版弹幕
  8. 一文读懂最近流行的CNN架构(附学习资料)
  9. 何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
  10. 美国加州大学圣克鲁兹分校王鑫教授招收NLP/CV方向全奖博士生