low_n/Unirep

  • 1.术语
  • 2.涉及模型
  • 3.主要流程
    • 3.1 Low-N全流程
    • 3.2 Unirep架构
    • 3.3 Evotune 数据集构建
    • 3.4 in silicon evolution 实现
  • 4.Github相关实现
    • 4.1 论文作者实现,基于tensorflow框架
    • 4.1 用jax框架实现,与unirep论文一致
    • 4.2 用pytorch框架实现,embedding与回归端到端训练
  • 参考文献

1.术语

  • WT:wild-type
  • Evotuning:Evolutionary fine tuning
  • JackHMMER:用于寻找同源序列
  • Evotune:select a subset of public sequences that are closer to the target protein and then fine tune the globally pre-trained weights on the UniRep multiplicative long short-term memory(mLSTM) model on this local sequence neighborhood;
  • error-prone PCR(易错聚合酶链反应): A common starting point for many protein engineering efforts
    应用低保真度DNA聚合酶,并选择适当的反应条件,提高PCR反应中的碱基错配率,由此得到含有随机突变的PCR产物,可以克隆入表达载体,构建随机突变的DNA文库的一种使DNA随机突变的技术。能用于体外分子定向进化、基因或DNA序列功能的研究、筛选得到经突变改良的蛋白质等。
  • Deep mutational scanning(DMS,深度突变扫描)

2.涉及模型

  • eUniRep(eUniRep 1/eUniRep 2):The avg_hidden representation obtained from evotuning the UniRep mLSTM that had already been globally trained on UniRef50. The additional suffixes ‘1’ or ‘2’ refer to replicates of the evotuning process.

  • Local UniRep:used the same dataset and training procedure as described above, but instead of using the globally pre-trained UniRep weights as initialization, we generated a random weight initialization from the same distribution that was used to initialize the original UniRep model.
    This is analogous to retraining the original UniRep model but only on the local sequence landscape, leading to the name Local UniRep.

  • Top model:This is a simple, low-parameter supervised model that is trained on training sequence representations to predict quantitative function. Ridge regression is an example top model.
    L1(Lasso–least-angle regression (LARS)) and L2-penalized (Ridge) top models, with L2 variants,ridge ‘sparse refit’ (SR)),ensembling (Ens) Ridge SR

3.主要流程

3.1 Low-N全流程

3.2 Unirep架构


关于LSTM及mLSTM的区别,更多内容见RNN/LSTM及其变种。

3.3 Evotune 数据集构建

流程比较繁琐,大致意思就是使用JackHmmer工具从一个大数据集里寻找同源序列,然后再各种过滤。

3.4 in silicon evolution 实现

在完成unirep fine-tuning及top model的训练之后,就可以执行下列操作完成in silicon evolution了。

4.Github相关实现

4.1 论文作者实现,基于tensorflow框架

https://github.com/churchlab/UniRep

4.1 用jax框架实现,与unirep论文一致

https://github.com/ElArkk/jax-unirep

4.2 用pytorch框架实现,embedding与回归端到端训练

https://github.com/songlab-cal/tape/blob/master/tape/models/modeling_unirep.py

参考文献

[1] https://github.com/churchlab/UniRep
[2] https://github.com/ElArkk/jax-unirep
[3] https://github.com/churchlab/low-N-protein-engineering
[4] https://github.com/Asplund-Samuelsson/furee
[5] jax-unirep: A performant reimplementation of the UniRep model in JAX
[6] Low-N protein engineering with data-efficient deep learning
[7] Unified rational protein engineering with sequence-based deep representation learning

low_n/Unirep相关推荐

  1. PLUS | 包含蛋白质特异性的新型预训练方案

    今天给大家介绍来自首尔国立大学Sungroh Yoon课题组在arXiv上发表的一篇文章.作者指出当前很多方法采用半监督学习来进行蛋白质序列建模,其中的预训练方法主要依赖于语言建模任务,并且常常表现的 ...

  2. NeurIPS TAPE | 用于评估蛋白质表示学习性能的多任务平台

    今天给大家介绍一篇加州大学伯克利分校研究人员发表在NeurlIPS2019上的一篇文章"Evaluating Protein Transfer Learning with TAPE" ...

  3. 聚焦:ZK-SNARK 技术

    聚焦:ZK-SNARK 技术 Vitalik建议他的订阅者关注ZK-SNARK技术,那今天就让我们仔细看看这一切都是如何运作的吧. 一些使用ZK-SNARK来保护隐私的方法 ZK-SNARK是一种强大 ...

  4. 区块链在非金融领域有哪些值得期待的应用

    引言 自己关注区块链好多年了,感觉大部分人都在炒币,或者所谓的搞金融.但是现在各国的审查都越来越严格,针对金融领域的审查尤其严格.在国内,基本上是禁止区块链应用有任何的发币行为的. 我个人也是觉得金融 ...

  5. 前缀和(一维数组+二维数组+差分)

    前缀和与差分 图文并茂 超详细整理(全网最通俗易懂)_林深不见鹿 的博客-CSDN博客_前缀和与差分 讲得非常的好,大幅度降低时间复杂度 特别是二维数组的前缀和 二维数组前缀和例题,利用二维数组的前缀 ...

  6. 有效扩展:来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型

    预训练周刊 关于周刊 本期周刊,我们选择了14篇预训练相关的论文,涉及短语检索.网络结构.文本排序.架构扩展.对话选择.语言检测.模型微调.机器翻译.属性注入.阅读理解.蛋白序列学习.蛋白质预测.蛋白 ...

  7. 基于深度表征学习特征的抗癌肽预测

    Anticancer peptides prediction with deep representation learning features 中科院分区:二区(Briefings in Bioi ...

  8. Nat. Commun.| 机器学习对可突变的治疗性抗体的亲和力和特异性进行共同优化

    这次为大家分享的是来自nature communications上的一篇题为<Co-optimization of therapeutic antibody affinity and speci ...

  9. 《预训练周刊》第26期:有效扩展:来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型...

    No.26 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了14篇预训练相关的论文,涉及短语检索.网络结构.文本排序.架构扩展.对话选择.语言检测.模型微调.机器 ...

最新文章

  1. 计算机操作系统开启审计功能,深入浅出理解操作系统安全
  2. 二维平面内无人机的路径规划——势场法-改进
  3. linux注册函数机制,Linux可信计算机制模块详细分析之函数实现机制(1)字符设备驱动...
  4. 给网游写一个挂吧(三) – 启动外挂下
  5. 简单的MFC画正弦曲线
  6. 4.5.1 条件语句
  7. 日料美食海鲜精品海报PSD分层模板,美味势不可挡
  8. kubernetes Istio是什么
  9. vscode 转到实现方法失效_动图炫技23个鲜为人知的VS Code快捷键
  10. Ubuntu18.04-albert编译安装记录
  11. 智慧泵房泵站无线远程监控检测系统方案
  12. 2021勒索病毒大盘点
  13. Apache Airflow调度中心发布任务步骤
  14. vue vue-element-ui组件 eltable 表头背景颜色
  15. 2017下半年软件测评师上午考试试题
  16. DDR3学习总结(二)
  17. 数据分析36计(22):分析师入门常见错误 幸存者偏差,如何用匹配和加权法规避...
  18. Windows系统简体中文版官方镜像大全
  19. 实现企业微信引流的三大思路
  20. 使用MATLAB绘制分段函数实现

热门文章

  1. div背景图自适应铺满
  2. UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9c in position 20: incomplete multibyte sequence
  3. 《思考的技术》读后感思维导图
  4. 企业最实用网络营销方式总结
  5. Navicat连接服务器数据库(超详细)
  6. android 键盘风格,小键盘大细节:浅析Keyboard在移动产品中的设计
  7. 数值模拟udec软件学习第一周
  8. 珊瑚海 - 一站式跨端动态化布局框架原理
  9. 总结 | Java字符串常用操作(方法)
  10. 蓝桥杯素数等差数列问题