来源:专知
本文约1000字,建议阅读5分钟本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。

最近,伯克利大学Roshan Rao 157页博士论文介绍了在通用基准上训练和评估蛋白质语言模型的方法。随后,研究了模型缩放、数据预处理和训练超参数对transformer在无监督的情况下学习蛋白质接触能力的影响,然后提出了一种在MSA上操作而不是在单个序列上操作的新方法,并证明了该方法在多个下游任务上实现了最优的性能。最后,讨论了所有这些方法在蛋白质设计中的应用。

作者介绍:

Meta AI的一名研究科学家,研究蛋白质序列的神经进化模型。之前,我在加州大学伯克利分校攻读博士学位,在那里我得到了John Canny和Pieter Abbeel的指导!

https://rmrao.github.io/作者发表的文章

训练,评估和理解蛋白质序列的进化模型Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

新的蛋白质序列通过突变产生。这些突变可能是有害的,有益的,或中性的;突变对生物体进化适应性的影响反映在生物体存活的时间是否足够长,使其蛋白质能够被采样并储存在序列数据库中。长期以来,生物信息学一直寻求利用这种进化信号,通常以多重序列比对(MSAs)的形式,来推断新蛋白质的结构和功能。随着神经网络和自监督预训练的出现,一种不同的方法出现了,使用语言建模目标对大规模神经网络进行预训练,从输入的蛋白质序列自动生成信息特征。

本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。随后,研究了增加模型扩展、数据集预处理和超参数训练对transformers 在没有监督的情况下学习蛋白质接触能力的影响。一种新的方法操作在MSAs而不是单一序列,然后提出,并显示在几个下游任务达到最先进的性能。最后,讨论了这些方法在蛋白质设计中的应用。

本论文试图回答关于蛋白质序列语言建模的三个关键问题:

1. NLP中非监督学习的标准方法是否能学习生物学相关的特征?

2. 我们如何定制用于训练蛋白质的无监督模型的数据、模型和任务?

3. 蛋白质序列的大规模无监督模型能用于蛋白质设计吗?

蛋白质语言建模?伯克利RoshanRao157页博士论文《训练,评估和理解蛋白质序列的进化模型》...相关推荐

  1. 【资源下载】 UC 伯克利 Chelsea Finn 博士论文(新起之秀——MAML)《Learning to Learn with Gradients》下载--2018ACM最佳博士论文下载

    欢迎关注微信公众号[计算机视觉联盟] 获取更多前沿AI.CV资讯 UC 伯克利 Chelsea Finn 博士论文<Learning to Learn with Gradients>下载- ...

  2. 被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 牛津大学的这篇博士论文对神经微分方程(NDE)展开了全面细致的研究.论 ...

  3. 牛津大学231页博士论文全面阐述神经微分方程(NDE),Jeff Dean点赞

    ©作者 | 机器之心编辑部 来源 | 机器之心 牛津大学的这篇博士论文对神经微分方程(NDE)展开了全面细致的研究.论文作者表示,他希望这篇论文可以吸引到对深度学习与动力学系统结合感兴趣的读者,并希望 ...

  4. 信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者 ...

  5. Transformers预训练模型使用:语言建模 Language Modeling

    语言建模是一个将模型拟合到一个语料库的任务,这个语料库可以是特定领域,也可以是通用领域.所有主流的.基于transformer的模型(跟这个包transformers不是一个东西)都使用了语言建模的变 ...

  6. R语言使用yardstick包的lift_curve函数评估多分类(Multiclass)模型的性能、并使用autoplot函数可视化模型在每个交叉验证(或者重采样)的每一折fold在每个分类上的提升

    R语言使用yardstick包的lift_curve函数评估多分类(Multiclass)模型的性能.并使用autoplot函数可视化模型在每个交叉验证(或者重采样)的每一折fold在每个分类上的提升 ...

  7. R语言使用yardstick包的pr_curve函数评估二分类(binary)模型的性能、并使用autoplot函数可视化模型的PR曲线(precision recall)

    R语言使用yardstick包的pr_curve函数评估二分类(binary)模型的性能.并使用autoplot函数可视化模型的PR曲线(precision recall) 目录

  8. 124页,UC伯克利大学胡戎航博士论文公布:视觉与语言推理的结构化模型

    来源:机器之心 本文约1500字,建议阅读5分钟 UC 伯克利大学计算机科学博士胡戎航(Ronghang Hu)的博士论文新鲜出炉,内容涉及视觉与语言推理的结构化模型. 视觉 - 语言任务(如基于图像 ...

  9. C语言之父:因拒付论文装订费错失博士学位,论文52年后重见天日

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 选自:CHM,作者:David C. Brock,参与:张倩.魔王 机器之心整理 他是C语言之父.1983年图灵奖得 ...

  10. 「任性」的C语言之父:因拒付论文装订费错失博士学位,论文52年后重见天日...

    他是C语言之父.1983年图灵奖得主,还是Unix的关键开发者.然而,他却因为「任性」没有拿到博士学位,而且当年写的博士论文一丢就是半个世纪.如今,这一神秘的博士论文终于重见天日. 很多人可能听说过 ...

最新文章

  1. 获取VirtualBox COM对象失败,Unable to start the virtual device
  2. Promise 化回调式函数
  3. TF学习——TF之API:TensorFlow的高级机器学习API—tf.contrib.learn的简介、使用方法、案例应用之详细攻略
  4. wpf 在另一个窗体上显示_另一个唐伯虎:大街上裸身奔跑、锒铛入狱多次自裁未遂...
  5. 索引体积_米家温湿度计体积虽小,耗电不小,如果经常离线,换颗电池吧
  6. 网页中、英文安全字体选择及设置
  7. python使用复合语句def创建函数对象_Python 纯函数
  8. Microsoft Quantum Katas帮助开发人员探索使用Q#实现量子计算
  9. 13.FutureTask异步计算
  10. opencv 打印文字_如何使用OpenCV+Python去除手机拍摄文本底色
  11. 详解基于图卷积的半监督学习(附代码)
  12. Linux/Mono(C#) - System.Data.SQLite- Sqlite.Interop.dll not found 问题
  13. dna计算机 论文,科学网—阿德勒曼DNA计算机(科普) - 沈海军的博文
  14. 云智慧透视宝Java代码性能监控实现原理
  15. td-agent(Fluentd)的使用
  16. 领导绝不会告诉你的,提拔干部的三大关键因素
  17. 【小学】小学汉语拼音知识复习汇总
  18. 前端怎么加粗字体_安卓平板要怎么像ipad一样自由制作电子手帐
  19. python简单代码画曲线图教程-python画曲线
  20. [ecshop 经验 ]transport.js run error 68ecshop 小京东 火狐提示 同源策略和跨域访问 68ecshop

热门文章

  1. Unit Of Measure UOM in Oracle Applications Inventory
  2. 支付订单中未付款倒计时
  3. 计算机相关英语生词积累
  4. 那些年面挂的js手写题
  5. 杂记:Atmel sama5d3 DMA Controller (DMAC)
  6. Vin码识别功能实现
  7. 道路密度网arcgis
  8. Jni调用so动态库
  9. 【洛谷P1228】地毯填补问题【分治】【递归】【DFS】
  10. [LOJ6198]谢特