kaggle新赛:蛋白质功能预测大赛baseline
日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛。这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预测一组蛋白质的功能。
该竞赛评估参与者对蛋白质序列的基因本体论(GeOntology, GO)术语的预测。
测试集分为三个子生物学:分子功能(MolecularFunction,MF)、生物过程(Biological Process,BP)和细胞成分(Cellular Component,CC)。参与者对每个子生物学分别进行评分。最后的性能指标是在三个子生物学上计算的最大F-measures的算术平均值。考虑到GO的层次结构,使用了加权精度和召回率。评估代码是公开的。
Baseline简析
对任何AI项目的建模过程如下(以往期为例):
part1: data preprocess()
1.1 从预训练的蛋白质功能预测模型(ProtBERT, T5等)中形成初始的embedding.
1.2 从train_terms生成标签,通过考虑蛋白质集中最常见的前k个GO项,为每个蛋白质生成长度为K的稀疏向量,用来指示K个GO项在蛋白质中的真实概率(0或1)
part2: build_transform()/ build_dataset()/ build_dataloader()
2.1 组合蛋白质ID以及对应的embedding到pytorch框架
part3: buiild_mode()
3.1 形式化建模为输入形状为(E,) 输出为(K, )的概率,此时可用任何分类模型进行探索实验,例如timm里面若干分类模型. 下面只是简单的CNN1D + MLP
part4: build_loss() & build_metric()
4.1 探索利用分类loss
4.2 利用F1-meature等指标进行验证
part5: train_one_epoch(), eval_one_epoch(), test_one_epoch()
由于篇幅关系,此处只贴部分代码
关注下方【学姐带你玩AI】
kaggle新赛:蛋白质功能预测大赛baseline相关推荐
- Kaggle 新赛 | GoDaddy 小微企业密度预测
文章目录 一.比赛背景和目标 1. 背景 2. 比赛目标 二.提交.时间线和奖项 三.代码要求 四.解题思路 一.比赛背景和目标 1. 背景 美国政策领导人努力发展更具包容性和抗衰退能力的经济体.他们 ...
- Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...
今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...
- Kaggle新赛:通过音频识别鸟类和青蛙物种
出自:Kaggle 编辑:CV君 最近Kaggle的比赛蛮多的,已经跟大家分享了: Kaggle新赛:木薯叶疾病分类 Kaggle新赛:自动检测赛场上的头盔撞击事件 Kaggle新赛 | HuBMAP ...
- 计算机与科学唐家琪,基于网络分析的蛋白质功能预测方法研究
摘要: 蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学.农业.医疗等领域的发展意义重大.传统的生物实验测定蛋白质的功能需要消耗大量的人力.物力.财力,并且效率低下,已无法满足数 ...
- 蛋白质功能预测中PSSM矩阵的生成
一.蛋白质功能预测 蛋白质功能预测 近年来高通量实验方法快速发展,随之产生大量新型蛋白质,发现的蛋白质数量与其功能注释之间的差距越来越大,蛋白质功能预测成为分子生物学研究领域的核心问题.传统的蛋白 ...
- 【baseline】Kaggle新赛!信用违约预测大赛
日前,Kaggle发布了American Express - Default Prediction 信用违约预测大赛.要求参赛者: 运用机器学习技能来预测信用违约 这是一个金融风控场景下的结构化数据挖 ...
- Kaggle新赛 | HuBMAP: 识别人体肾脏组织图像中的肾小球~总奖金 6 万美金
●赛题介绍● 近日Kaggle新上了一个比赛:HuBMAP: Hacking the Kidney ,(入侵肾脏),是人类生物分子图谱计划HuBMAP的一部分,希望以单细胞分辨率绘制人类肾脏图谱开始. ...
- Kaggle新赛 | 医学影像插管分类,总奖池 5 万美金
(图片来自网络) ●赛题介绍● 近日 Kaggle 新上了一个比赛:RANZCR CLiP- Catheter and Line Position Challenge(插管分类:存在与否.位置是否准确 ...
- Kaggle新赛:Lyft 自动驾驶运动预测,发布迄今最大预测任务数据集
近日,国外著名出行公司 Lyft 在Kaggle 竞赛平台发起自动驾驶汽车的运动预测挑战赛,旨在促进自动驾驶汽车的研究,并发布了迄今最大的运动预测数据集. 任务介绍 挑战参赛者对自动驾驶场景中出现的行 ...
最新文章
- HTTP Response中的Chunked编码
- tar从压缩包里解压出指定文件
- TCP/IP,Http,Socket的区别
- python jupyter 选择按钮,使用按钮选择数据
- react-native run-android报错的原因,license问题
- [HDU] 1533 Going Home
- (10)Microsoft office Word 2013版本操作入门_word表格
- 遇到一个难题:如何从java中调用到C的功能
- redis - 00 在centos安装
- aspect ratio - 宽高比
- 2020-4-18 深度学习笔记20 - 深度生成模型 2 (深度信念网络DBN,深度玻尔兹曼机DBM)
- 特征点检测FAST算法
- 醉林疯的OJ 1058: 求解不等式
- scala sortBy and sortWith
- 先电IAAS V2.2(2017版)平台搭建手册---脚本搭建
- python学习笔记——小插曲
- 计算机二级office第37套word,全国计算机等级考试 二级MS Office高级应用(Word部分:第11-20套)...
- 云南省自然保护区分布及功能区划
- 视频编辑器哪个好用?全民都在用的三款视频剪辑软件
- Android 如何实现google天气