github源代码

赛题地址

数据地址

1 问题描述

这个比赛的任务是预测妊娠期妇女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病。一共有1000条训练样本,85维特征。线上测试样本为200条,采用F1值来评价结果好坏。由于样本较少所以很容易出现过拟合问题。在85维特征中,有30个是身体指标特征,诸如年龄、身高、体重、BMI、胆固醇指标等等,其他55个是基因特征,基因特征有3中取值0,1,2代表生物学中的AA、Aa、aa。下面介绍赛题思路。

1 连续特征类

查看数据的分布,采用不同的填充办法,比如平均值、中值、众数等 
  以平均值为标准值,添加和平均值的差值,以及差值的绝对值
  对连续特征做归一化处理,由于后面需要对特征之间做运算,所以需要把0替换成极小值

归一化处理后做加减乘除和反除,以得到组合特征。

2 离散特征类

离散特征采用one-ht编码

编码后的特征做与、或、异或、同或处理

2 特征筛选

线性回归筛选特征+非线性XGBoost筛选

3 模型

这里采用的模型主要有3种,LR、XGB和LGB,其中LR采用线性筛选得到的特征,XGB和LGB采用非线性筛选得到的特征

4 融合

这里采用简单的加权融合的办法,最终结果线上F1值0.6429,复赛排名57。总体上来说思路比较简单,传统,和排名靠前的选手有很大的差距。下面根据答辩的情况,对每位选手的方案作出总结

5 对答辩选手的总结

在数据填充中,选手不是采用简单的平均值和中位数的填充办法,而是Nuclear和范数填充的办法。对于特征处理,选手先去掉了相关度非常小的几个特征以剔除噪声。然后分析所有特征对于label的单调性,实际上也类似于相关度,筛选出强特征和弱特征,在对强特征之间做组合,又一次通过单调性筛选出强特征。一般迭代4,5次可以得到不错的结果。这个的筛选指标不仅仅可以使用单调性、相关度等,还可以使用 [IV值], [REFCV]的办法来筛选。这里面ACEID也是一个非常不错的特征,但是缺失值很多,容易发生过拟合,选手们的办法是不填充缺失值或者干脆这个特征不用。
  在模型选择上大家都大同小异,LR、SVM、RF、GBDT、XGB、LGB都试一遍,看看效果,有一个选手用了 [Catboost]的模型。在调参上面,有选手采用了遗传算法来调试出最佳的参数,思路不错。
  后处理,,对于不确定的结果,正例和负例相接近的(患病概率为0.49~0.50之间的也预测为患病),可以在一定程度上提高成绩。

天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结相关推荐

  1. 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

    大赛概况 进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...

  2. 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测

    在18年1月参加了天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测.我国有1.1亿人患有糖尿病,是世界上糖尿病患者最多的国家,每年用于糖尿病的医疗费用超过3000亿,与我们赛题相关的妊娠糖尿病是其中一 ...

  3. 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-企业科研_论文作业

    大赛概况 进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...

  4. 关于【天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测】的思考

    在18年初与来自几所牛校的学生组队参加了第一次天池大赛,最终由于乌龙没能在初赛获得前一百的成绩,止步复赛.前几天观看了决赛现场的答辩,感触良多,记录如下. 首先上一波图,这是我们参加比赛是的程序和数据 ...

  5. 阿里天池大赛[人工智能辅助糖尿病遗传风险预测]赛后总结

    题目以及数据介绍 人工智能辅助糖尿病遗传风险预测 Github 代码以及数据 Github 初始思想 1.从头开始,先看一下初始数据以及数据的简单分析吧 训练数据,最后一列是血糖: A榜测试数据 第九 ...

  6. 打榜前10名:天池AI医疗人工智能辅助糖尿病遗传风险预测

    向AI转型的程序员都关注了这个号

  7. 基于XGBOOST的糖尿病遗传风险预测(1)

    博客基于Xgboost方法对糖尿病遗传预测风险进行预测,实际上是对人体血糖值的预测.论文以天池精准医疗大赛--人工智能辅助糖尿病遗传风险预测为背景,对其提供的数据进行人体血糖值进行预测. 本质而言是使 ...

  8. 【参赛记录】糖尿病遗传风险预测

    [参赛记录]糖尿病遗传风险预测 一.选题背景 二.题目任务 2.1 数据集字段说明 2.2 训练集说明 2.3 测试集说明 三.评估指标 四.数据分析和处理 4.1 缺失值和异常值分析 缺失值 异常值 ...

  9. 讯飞:糖尿病遗传风险预测Coggle挑战赛公开

    导入数据------------------------- train_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛训练集.csv', encoding='gbk') ...

最新文章

  1. 提升权限_Azure权限提升漏洞
  2. 如何用架构师思维解读区块链技术?
  3. android queue用法,GitHub - rygz146/TQueue: Android 可以任意切换线程的任务队列, TQueue
  4. 在控制台中输出 出现SIGBAT或者EXC_BAD_ACCESS的原因的方法
  5. X86汇编语言从实模式到保护模式15:任务和任务的创建
  6. Maven项目的pom.xml配置文件格式初识
  7. Go基础:产生随机数
  8. 三包围结构的字是什么样的_四张图说清楷书结构技巧,学硬笔书法的有福了
  9. mac系统下安装pycharm
  10. 【无标题】java学习第二天
  11. Gradle剔除依赖
  12. 创建阿里云ecs实例Linux系统教程-Unirech阿里云代充
  13. PostgreSQL 生成空间热力图
  14. 11月更新!一口气上线20+新功能,3D架构拓扑图更具趣味性~
  15. 04.第五章、范围管理
  16. FaceNet使用简介
  17. Oracle 实验六:PL/SQL编程基础(1)
  18. Spring Cloud Dalston.RELEASE中文文档
  19. What I've learnt today(from youtube videos and comments)
  20. USB、USB转串口、串口通信的区别与实现

热门文章

  1. 还原混淆过的stacktrace
  2. 给你一个全新的软件,你就是负责人,你怎么去开展工作
  3. 什么是超融合数据中心?超融合数据中心的价值是什么?
  4. 【jzoj 5101】凡喵识图 / Image Recognition(鸽笼原理)(模拟)
  5. Pandas:深市股票代码前补足0
  6. 阿拉伯世界的历史现状与前景2019尔雅满分答案
  7. 修改Tomcat服务器启动图标
  8. java连连看解说_java—连连看-实现消除
  9. mysql insert 返回值是什么_各种SQL Insert 返回值
  10. Leetcode-1737-满足三条件之一需改变的最少字符数