一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集

本文转载自:https://blog.csdn.net/HyperAI/article/details/110508015

By 超神经

内容提要:DeepMind 的最新一代算法 AlphaFold 2,在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中,完虐其它对手,取得惊人的突破,震惊整个科研圈。在被这项科研成果刷屏之后,我们来了解一下该算法背后的数据集。

关键词:蛋白质折叠   PDB 数据集

这两天,我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了,尤其是生物界,可谓迎来了里程碑式的大突破。

据 DeepMind 官方宣布,其深度学习算法 AlphaFold 2,已经成功解决过去 50 年以来生物领域的大难题。

该算法能够精确地基于氨基酸序列,预测蛋白质的 3D 结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。

CASP 竞赛自由建模类别中的两个目标蛋白质示例

绿色为实验观测结果,蓝色为 AlphaFold 2 预测结果

这一里程碑式的事件,令生物学家振奋,但同时也让很多业内人士瑟瑟发抖,直呼要转行去学深度学习了。

不过,在大家都关注这项科研结果的时候,别忘了它背后的功臣—— PDB 蛋白质结构数据集,一个专门收录蛋白质及核酸的三维结构资料的数据集。

 划时代意义的突破,离不开这个数据集

据 DeepMind 介绍,团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据集 PDB,和包含未知结构蛋白质序列的大型数据库 UniProt,共包括约 170,000 个蛋白质结构。

其中,PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有十分悠久的历史,可以追溯到 1971 年。

当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。1998 年 10 月,PDB 被移交给 Research Collaboratory for Structural Bioinformatics(RCSB,结构生物信息学研究联合实验室),由罗格斯大学的 Helen M. Berman 负责,他也是 RCSB 成员。

布鲁克黑文国家实验室成立于 1947 年

其历史上的科研发现曾 5 次获得诺贝尔奖

2003年,PDB 发展成为一个国际性组织 wwPDB(全球蛋白质数据库),来监管 PDB 的资源。wwPDB 的其他成员,包括 PDBe(欧洲)、RCSB(美国)、PDBj(日本)也为 PDB 提供了数据积累、处理和发布的中心。

wwPDB 的资源向全球公众免费开放

值得一提的是,虽然 PDB 的数据是由世界各地的科学家提交的,但每条提交的数据都会经过 wwPDB 工作人员的审核与注解,并检验数据是否合理。PDB 及其提供的软件现在对公众免费开放。

 超 14 万个结构,PDB 里都哪些信息?

在过去的几十年里,PDB 的结构数量以接近指数的速度增长:

  • 1982 年的 100 个;

  • 1993 年的 1000 个;

  • 1999 年的 10,000 个;

  • 2014 年的 100,000个。

不过,自 2007 年以来,新蛋白质结构的积累速率似乎已经趋于稳定。

PDB 数据集新增结构逐年递增,规模庞大

世界各地的结构生物学家,使用诸如 X 射线晶体学、NMR 光谱和冷冻电镜等方法,来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息, wwPDB 对其进行批注并公开发布到数据库中。

你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构,不过,PDB 里存档的结构数量规模巨大,找到所需信息可能是一项并不轻松的工作。

PDB 数据集中的信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构所用实验方法,以及温度因子、结构测定者等其它数据及信息。

数据集预览,其中包含蛋白质/核酸结构、

测定结构所用实验方法等信息

 如何下载? 

现在,该数据集已在超神经官方网站以及 openbayes.com 上线,访问:https://hyper.ai/datasets/13906 或点击「阅读原文」,就可一键获取数据集。

■ PDB 蛋白质结构数据集详情

发布时间:1971 年起收集

发布机构:wwPDB

包含数量:14 万+ 个蛋白质/核酸结构

数据格式:csv 文件

数据大小:27 MB(解压后 146MB)

下载地址:https://hyper.ai/datasets/13906

DeepMind 同款数据集,你也值得拥有~

 如何使用? 

我们的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。

目前 OpenBayes 的算力容器产品已经支持 TensorFlow、PyTorch、MXNet 等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库

并提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。

从 CPU 到 T4 再到 V100,丰富的算力容器配置

OpenBayes 支持脚本上传和 JupyterLab 编辑器在线编程,然后进行模型训练。

清晰简洁的执行过程

完整教程:https://openbayes.com/docs/quickstart/

 注册新用户,即可享受 GPU 算力 

访问 openbayes.com,在官网首页点击立即注册,而且内测期间周周有赠哦,再也不用跟同学、同事抢算力了~

数据集可在公共资源直接使用/下载

 活动说明 

访问 openbayes.com

凭邀请码 【HyperAI】 注册新用户

即可享受

免费 CPU 额度:300 分钟/周

免费 vGPU 额度:180 分钟/周

PDB 完整数据集获取:

https://www.rcsb.org/#Category-download

PDB 数据集中的文件可直接用文本编辑器查看,但使用可视化工具查看效果更佳,官方推荐的查看程序 Swiss PDB viewer:

https://spdbv.vital-it.ch/disclaim.html#

其它参考资料:

http://www.wwpdb.org/

https://www.novopro.cn/articles/201912021193.html

—— 完 ——

一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集相关推荐

  1. 文心一言背后,百度还是那个百度

    对百度而言,文心一言不是一个结果,而仅仅是这家技术企业在过去多年投入的一个缩影和侧写. 作者|皮爷 出品|产业家 "第一枪"打响. 伴随着一身"工程师范"的李彦 ...

  2. 阿里研究院崔瀚文:“单身经济”背后的“新家园”

    "单身经济"正在中国兴起.曾几何时,年轻人之中开始流行起了"光棍节",以娱乐的心态为自己仍是单身一族骄傲庆祝或自我调侃.为了庆祝"光棍节", ...

  3. 一文读懂AlphaGo背后的强化学习:它的背景知识与贝尔曼方程的原理

    作者 | Joshua Greaves 译者 | 刘畅,林椿眄 本文是强化学习名作--"Reinforcement Learning: an Introduction"一书中最为重 ...

  4. kafka:一文读懂消费者背后的那点猫腻

    来自:z小赵 前言 经过前几篇文章的介绍,大致了解了生产者背后的运行原理.消息有生产就得有人去消费,今天我们就来介绍下消费端消费消息背后发生的那点事儿. 文章概览 消费者与消费组的"父子关系 ...

  5. 世界杯迄今最火的一场比赛 一文看懂世界杯背后的阿里云黑科技

    摘要: 世界杯"法阿之战"中帕瓦尔世界波以及姆巴佩梅开二度一定让你印象深刻,而梅西的饮恨离开也让不少球迷碎了心.但你知道,比赛当天的阿里云藏着什么秘密吗? 世界杯"法阿之 ...

  6. kafka多个消费者消费一个topic_kafka:一文读懂消费者背后的那点quot;猫腻quot;

    来自:z小赵 前言 经过前几篇文章的介绍,大致了解了生产者背后的运行原理.消息有生产就得有人去消费,今天我们就来介绍下消费端消费消息背后发生的那点事儿. 文章概览 消费者与消费组的"父子关系 ...

  7. 泡沫股价、外卖小哥要失业了?测试员还要不要进美团?一文带你了解背后真相

    你知道美团值多少钱吗? 去年的中国明星股票中,美团以460的单日收盘价位居第二位,整个美团这个时候值2.3万亿,差不多是腾讯阿里的一半市值.前面我们说到过腾讯和阿里他们的业务是多方向的,而作为专注做生 ...

  8. 一文读懂AlphaGo背后的强化学习

    作者 | Joshua Greaves 编译 | 刘畅,林椿眄 本文是强化学习名作--"Reinforcement Learning: an Introduction"一书中最为重 ...

  9. PDF文档解析,公司公告信息抽取(附数据集)

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛应用于学术界的交流以及各类公告 ...

最新文章

  1. 【星榜单】盘点那些坑爹的国产手机们
  2. 设计模式-策略模式(Strategy Pattern)
  3. linux命令管理GPT分区,Linux磁盘管理GPT分区教程
  4. SpringCloud(第 016 篇)电影微服务,定制Feign,一个Feign功能禁用Hystrix,另一个Feign功能启用Hystrix...
  5. C语言——冒泡排序法
  6. 【编译原理笔记18】代码优化:活跃变量分析,可用表达式分析
  7. springboot集成购买阿里的rocketmq
  8. vue获取接口id_05vue2.0-vue中_接口的调用
  9. pla3d打印材料密度_FDM 3D打印机的常用耗材PLA的密度 创想三维
  10. php抽奖简单源码,php转盘抽奖 完整例子源码(含模拟数据)
  11. Moore-Penrose广义逆矩阵
  12. Python刷脸签到系统(附源码)
  13. [电影]《指环王》新老三部曲完全赏析(王者归来)
  14. 天猫精灵 python_天猫精灵控制esp8266点led灯
  15. 减肥成功,给自己的减肥之路留个纪念(测试博客)
  16. reactjs遍历数据的方式
  17. sql强化演练( goods 表练习)—04
  18. mysql show tables as_在Mysql命令提示符下,show tables;命令不仅可显示当前数据库中的所有表,而且还可显示当...
  19. 多协议BGP-----MPBGP
  20. python趣味编程-python趣味入门——写几个常玩的游戏

热门文章

  1. 六、数据(分组)计算
  2. 从B 树、B+ 树、B* 树
  3. python开头注释
  4. 邮箱客户端如何登录?
  5. 项目经理到底要不要考取PMP证书?
  6. 3、mysql表的操作
  7. processing作业:画有五角星绕圈的国旗(此例:塔吉克斯坦共和国国旗)
  8. Java对接支付宝退款功能
  9. 中兴echat_中兴通讯助力公共安全行业数字化转型
  10. 立创商城中的元件应用到AD中的一些经验