日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛。这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预测一组蛋白质的功能。

该竞赛评估参与者对蛋白质序列的基因本体论(GeOntology, GO)术语的预测。

测试集分为三个子生物学:分子功能(MolecularFunction,MF)、生物过程(Biological Process,BP)和细胞成分(Cellular Component,CC)。参与者对每个子生物学分别进行评分。最后的性能指标是在三个子生物学上计算的最大F-measures的算术平均值。考虑到GO的层次结构,使用了加权精度和召回率。评估代码是公开的。

Baseline简析

对任何AI项目的建模过程如下(以往期为例):

part1: data preprocess()

1.1 从预训练的蛋白质功能预测模型(ProtBERT, T5等)中形成初始的embedding.

1.2 从train_terms生成标签,通过考虑蛋白质集中最常见的前k个GO项,为每个蛋白质生成长度为K的稀疏向量,用来指示K个GO项在蛋白质中的真实概率(0或1)

part2: build_transform()/ build_dataset()/ build_dataloader()

2.1 组合蛋白质ID以及对应的embedding到pytorch框架

part3: buiild_mode()

3.1 形式化建模为输入形状为(E,) 输出为(K, )的概率,此时可用任何分类模型进行探索实验,例如timm里面若干分类模型. 下面只是简单的CNN1D + MLP

part4: build_loss() & build_metric()

4.1 探索利用分类loss

4.2 利用F1-meature等指标进行验证

part5: train_one_epoch(), eval_one_epoch(), test_one_epoch()

由于篇幅关系,此处只贴部分代码

关注下方【学姐带你玩AI】

kaggle新赛:蛋白质功能预测大赛baseline相关推荐

  1. Kaggle 新赛 | GoDaddy 小微企业密度预测

    文章目录 一.比赛背景和目标 1. 背景 2. 比赛目标 二.提交.时间线和奖项 三.代码要求 四.解题思路 一.比赛背景和目标 1. 背景 美国政策领导人努力发展更具包容性和抗衰退能力的经济体.他们 ...

  2. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  3. Kaggle新赛:通过音频识别鸟类和青蛙物种

    出自:Kaggle 编辑:CV君 最近Kaggle的比赛蛮多的,已经跟大家分享了: Kaggle新赛:木薯叶疾病分类 Kaggle新赛:自动检测赛场上的头盔撞击事件 Kaggle新赛 | HuBMAP ...

  4. 计算机与科学唐家琪,基于网络分析的蛋白质功能预测方法研究

    摘要: 蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学.农业.医疗等领域的发展意义重大.传统的生物实验测定蛋白质的功能需要消耗大量的人力.物力.财力,并且效率低下,已无法满足数 ...

  5. 蛋白质功能预测中PSSM矩阵的生成

    一.蛋白质功能预测 蛋白质功能预测   近年来高通量实验方法快速发展,随之产生大量新型蛋白质,发现的蛋白质数量与其功能注释之间的差距越来越大,蛋白质功能预测成为分子生物学研究领域的核心问题.传统的蛋白 ...

  6. 【baseline】Kaggle新赛!信用违约预测大赛

    日前,Kaggle发布了American Express - Default Prediction 信用违约预测大赛.要求参赛者: 运用机器学习技能来预测信用违约 这是一个金融风控场景下的结构化数据挖 ...

  7. Kaggle新赛 | HuBMAP: 识别人体肾脏组织图像中的肾小球~总奖金 6 万美金

    ●赛题介绍● 近日Kaggle新上了一个比赛:HuBMAP: Hacking the Kidney ,(入侵肾脏),是人类生物分子图谱计划HuBMAP的一部分,希望以单细胞分辨率绘制人类肾脏图谱开始. ...

  8. Kaggle新赛 | 医学影像插管分类,总奖池 5 万美金

    (图片来自网络) ●赛题介绍● 近日 Kaggle 新上了一个比赛:RANZCR CLiP- Catheter and Line Position Challenge(插管分类:存在与否.位置是否准确 ...

  9. Kaggle新赛:Lyft 自动驾驶运动预测,发布迄今最大预测任务数据集

    近日,国外著名出行公司 Lyft 在Kaggle 竞赛平台发起自动驾驶汽车的运动预测挑战赛,旨在促进自动驾驶汽车的研究,并发布了迄今最大的运动预测数据集. 任务介绍 挑战参赛者对自动驾驶场景中出现的行 ...

最新文章

  1. HTTP Response中的Chunked编码
  2. tar从压缩包里解压出指定文件
  3. TCP/IP,Http,Socket的区别
  4. python jupyter 选择按钮,使用按钮选择数据
  5. react-native run-android报错的原因,license问题
  6. [HDU] 1533 Going Home
  7. (10)Microsoft office Word 2013版本操作入门_word表格
  8. 遇到一个难题:如何从java中调用到C的功能
  9. redis - 00 在centos安装
  10. aspect ratio - 宽高比
  11. 2020-4-18 深度学习笔记20 - 深度生成模型 2 (深度信念网络DBN,深度玻尔兹曼机DBM)
  12. 特征点检测FAST算法
  13. 醉林疯的OJ 1058: 求解不等式
  14. scala sortBy and sortWith
  15. 先电IAAS V2.2(2017版)平台搭建手册---脚本搭建
  16. python学习笔记——小插曲
  17. 计算机二级office第37套word,全国计算机等级考试 二级MS Office高级应用(Word部分:第11-20套)...
  18. 云南省自然保护区分布及功能区划
  19. 视频编辑器哪个好用?全民都在用的三款视频剪辑软件
  20. Android 如何实现google天气

热门文章

  1. mint-ui font icon
  2. 网易蜂巢简单学习笔记
  3. 斐波那契数列通项公式的求法
  4. android1pt等于多少px,Android中,長度單位詳解(dp、sp、px、in、pt、mm)具體解釋與換算(1)...
  5. 为什么要走上程序员这条道路
  6. eclipse设置护眼模式,改变代码颜色,保护视力!!!
  7. Davinci使用教程(安装配置、绘图流程、权限设置)
  8. 网络数据库教程(5日教程)
  9. 一件程序员的灵异事件,胆小者勿进!
  10. 低质量的页面以及如何修复它们