在18年初与来自几所牛校的学生组队参加了第一次天池大赛，最终由于乌龙没能在初赛获得前一百的成绩，止步复赛。前几天观看了决赛现场的答辩，感触良多，记录如下。

首先上一波图，这是我们参加比赛是的程序和数据，耗费了很多时间和精力，得到的经验也很多，虽然最后的结果不太理想，也算是有所收获吧。

在决赛现场，聆听了六位选手的答辩，对冠军和季军的方案尤其佩服。冠军主要是由于和文献结合较为紧密，所以获得了评委老师们的肯定，从而夺冠；季军的理论和实践基础很扎实，所用的方案很有创新性。

先介绍一下季军方案：

---------------------------------------------------------------------------------------------------------------------------------

很幸运的在这次比赛中获得第二名的成绩，这个成绩确实有点意外，因为在复赛全样本线上测试中，我们最高也只是第三。虽然最后的结果和第一名的成绩还是有一定的差距，但在整个比赛中我们在不断探索确保成绩稳定的方案，最后的成绩也是对我们探索的肯定。这篇帖子主要从精准医疗这个问题的特点出发，来设计相关的算法，希望能给大家提供一个模型分析的思路。

写在开头：

因为我们团队属于金融公司，所以从一开始思考这个问题是并不是站在纯算法角度来思考的，也不是要设计新的算法来解决这个问题，而是将成熟的算法恰当的应用在这个问题上。因为我们平时也会遇到类似精准医疗类的问题，在复杂的结构化数据中，需要给客户提供一个可靠的、具有个性化的结果解释，所以此次比赛我们是按照可能出现的业务需求来制定算法标准。

第一部分：精准医疗数据中的难点

在医疗领域，数据质量差，数据量少是个常态。同时，再给出诊断结果时，还需要提供合理的解释，所以想通过海量数据来分析基本是不太现实的。我们需要预测的结果尽量稳定，并不追求当前数据集的极值，因为当前数据集的极值往往都是过拟合的。

本次比赛的数据集依然属于小样本量（1000），高维度（83个特征）与复杂的数据类型（离散、连续、缺失值的情况都存在），预测结果稳定（及偏差较小）是关键。常在钉钉群里看到大家在吐槽这是摸奖大赛，原因就是线下和线上的结果差距非常大。我们的团队一开始也遇到了类似的问题，为了提高线上与线下的稳定性，我们尝试过很多方法。在接下来的分析中我们会一步步的分析我们的解决方案。

第二部分：特征分析与筛选

特征筛选在这次比赛中起到了非常重要的作用。在样本少，特征多的情况下，如果能恰当的剔除噪音，会对模型的整体性能与稳定性起到质的提升。每个特征与组合特征的精确学习都需要一定量的样本。根绝此次比赛数据量的个数，我们会选择不超过30个特征作为输入的特征子集。最终我们选择了21个特征入模。

如果数据集量足够多，特征量较大或者测试集恒定不变，可以通过类似genetic algorithm（GA）很快的迭代出相对最佳的特征子集。这类自动筛选特征的方法实施难度低，通常效果优于人工筛选，一直在工业界收到青睐。当然，支撑此类方法的前提是有足够的计算资源。很可惜，这些假设条件在此次比赛中是不适用的。我们最开始也尝试了自动筛选特征的方法，但介于线上测试成绩的次数是有限的，线下筛选的特征有过拟合的风险，我们最后通过手动筛选出了21个特征。当然，这21个特征也借鉴了一些GA的筛选结果，再结合一阶特征的信息筛选出来。

常见的特征分析方法有很多，例如IV值分析（information value），入模分析，残差分析，PCA（principle component analysis），ANOVA（Analysis of variance）等等。考虑数据集的特点，以及对特征分析结果的可解释性，我们最后选择了残差分析的结果来入模。其他部分分析方法也适用，大家有时间也可以试一试，最后的分析结果差距也不算大，一般只是在排序上率有差距，子集包含的特征也极为相似。当然，这几种方法在原理上是不太一致的，能提供的信息含义也有所不同，各自有各自的优缺点，所以是需要理解不同的方法在什么时候用最好。我会在答辩后上传PPT，从自己实践的经验与理论上来给出几种方法在实际使用中的主要优缺点。不过要注意的是，ANOVA在这里不太适用，主要是因为数据量太小。当数据量非常大的时候，ANOVA是一种很好的方法。

那么，什么是残差分析呢？首先来看看残差分析的特点。

（1）残差分析属于单变量分析方法

（2）只能提供一阶重要性分析

（3）理解起来很简单，结果可直观的呈现出来。

残差分析，是一种衡量单变量在取值变化过程中，正负样本比例随取值变化的一个相对变化程度的总结。我们以下面这种图为例，

假设某个变量的取值范围为0-9（x轴），当X取值为x_i时，相对患病概率等于当前取值的患病率与全样本平均患病概率之差。举例说明，如果x取值为3时，当前取值下的患病为70%，而全样本的患病率约为46%，因此在x=3时的相对患病率（残差）为24%。该变量的整体影响即为每个值的残差乘上对应的人数占比（即权重）之和（面积）。有时还会用能量公式，用L2 norm求得残差的相对能量；或者对所有取值上的残差做归一化处理等等。

实际操作的时候，我们会将变量分为离散和连续两个类别。离散值的残差分析其实更像是柱状图，在处理连续值时，我们会利用等频或者等距分箱来离散化连续变量，从而求得残差加权面积的近似值。

这里我们给出了残差分析对几个特征的分析结果。

特征	序列	取值	人数	占比	患病率	相对患病率（残差）
SNP4	4	1	643	64.30%	47.59%	0.69%
SNP4	4	2	304	30.40%	45.39%	-1.51%
SNP4	4	3	42	4.20%	54.76%	7.86%
SNP4	4	缺失值	11	1.10%	18.18%	-28.72%
VAR00007	36	B_[1.19, 1.47)	256	16.60%	27.23%	-19.67%
VAR00007	36	C_[1.47, 1.53)	272	27.20%	37.36%	-9.4%
VAR00007	36	D_[1.53, 1.59)	222	22.20%	45.49%	-1.41%
VAR00007	36	E_[1.59, +Inf)	240	24.00%	78.75%	-31.85%
VAR00007	36	缺失值	10	1.00%	70.00%	23.10%

有了所有单变量相对患病率的分析结果后，需要确定什么变量留下，什么变量作为噪音或者影响模型稳定性的因素而被筛选出去。此次比赛中，大家明显能感觉到线上和线下稳定性是一个挑战，从名次上来讲，胜负可能就是多预测对了几个值。因此，我们会剔除可能影响稳定性，且一阶重要性较低的特征。从上表来看，SPN4的缺失值相对患病率较高，其他几个取值的相对患病率较低，因此这类变量会被剔除掉。VAR00007的整体表现比较好，因此会被保留下来。

整个变量筛选都按照这样的逻辑进行筛选，最终保留了21个变量。

第三部分：模型选择

由于比赛的成绩是线上测试，测试的次数也是有限的。因此我们不太可能尝试所有的建模方法与所有可能的模型组合等。我们首先需要选择一个大致的方向。下图是一些常见的模型，那么我们到底该怎么来选择这些模型呢？

首先，根据我们的实际问题与主办方的要求来看，深度学习这样的模型基本就可以排除了。常规的模型我们分成了两大类：树模型与非树模型。从Kaggle最近的比赛来看，Xgboost和LightGBM的表现是很抢眼的。比传统的决策树和随机森林的效果会好很多。这两个算法都属于GBDT类的算法。这类算法属于树的集成学习，对组合特征的探索与群体特征分析(个体或群体差异)都非常适合，与我们当前想要解决的问题也相当契合。因此已开始我们的重点探索目标就是此类GBDT模型。其他传统模型我们也有简单的尝试，但没有花过多的心思在上面。

经过几轮探索，我们发现Xgboost与LightGBD的线上与线下差距还是蛮大，需要大量调参并使用很多加强稳定性的手段（比如CV）才能缩小线上与线下的差距。这说明训练集与测试集的特征分布情况还是有较大的差距，比赛中能给我们测试算法的次数不多，特别是全样本测试。那么我们如果无法找到一个合适的方案来解决偏差的问题，最后的结果就和摸奖真的一样了。这个方案必须满足两个条件：（1）在无需过多的针对数据分布特点进行的调参下依然能够使得线上评分较高，（2）线上和线下F1值尽量接近。其实总结一下，就是实际偏差和期望偏差基本一致。所以我们又仔细思索了一些其他的解决方案，最后我们把目光聚焦在了catboost上。Catboost在公司的其他项目中也经常使用，常用在解决小样本数据集问题上。Catboost和lightGBM与Xgboost类似，都属于GBDT类的算法。但是catboost的一个优势在于，作者对实际采样的样本与真实样本之间的差异做了一个假设，认为他们的特征分布是不可能完全一致的。这类假设其实很符合实际中遇到的情况，特别是样本数量不足够充分的情况下。Catboost在公司的其他项目中的表现在小样本集上的稳定性是强于lightGBM和xgboost的。至于理论上的原因可参见论文《Fighting biases with dynamic boosting》，这里就不在细讲，有问题欢迎讨论。于是我们上线了Catboost算法。事实证明我们的选择是正确的。复赛第一篇数据集中线上成绩从0.73提高到了0.76.名次也提升到了前5. 线上和线下的F1差距也比较小。当然，catboost也不是没有缺点，它需要的计算资源特别多。这样我们很难用GA或者网格法去无脑的大规模探索模型超参数的选择。在使用超参数探索算法中，我们做了很多妥协与限定。使得搜索空间大大减小。

我们把几个使用过的模型得分放在了下表中。

模型方法	线下最高F1值	线下AUC	线上最大F1	线上平均F1
LR	0.73	0.79	0.7097	0.701
GBDT+LR	0.76	0.86	0.7184	0.702
SVM	0.72	0.77	0.707	0.694
FM	0.74	0.78	0.7035	0.698
XGboost	0.75	0.82	0.7184（全样本）	0.704
LightGBM	0.76	0.81	0.735	0.718
Catboost	0.77	0.84	0.7363（全样本）	0.728

第四部分：后处理

其实在得到模型线上分数之前，还有一个步骤在第三部分中没有提到，这是因为我们希望有一个部分来单独讲这个步骤。这个步骤对线上的结果影响非常大。同一个模型，同一个参数，但处理不好这个步骤，成绩就会差很多。这个步骤就是确定分类阈值。

为什么要确定分类阈值？在使用catboost或者xgboost,lightGBM这类工具的时候，如果直接使用predict这个函数，出来的结果将是0或1的标签。这个0或者1是怎么来的？其实是根据预测的置信度算出来的。从模型的结构设计来讲，最后给出是正样本的一个概率，即0-1范围内的一个小数。predict函数简单的将大于0.5的归位类别1，其余的为0。这里的0.5便是阈值。显然这个阈值的划分非常简单粗暴。很多人可能会认为，大于0.5的概率划分成类别1说的通啊，说明有超过的50%概率都是1了。简单的一思考，好像没什么大毛病。但实际上，这个0.5并不是真正的分类概率。所以我更愿意用置信度来描述它。参加过比赛的同学应该对这个阈值划分不陌生了。基本是必备技能之一。那么怎么来选这个阈值？

我们会从2个方向来思考这个问题。最后发现两个方向汇聚成的结果很一致：

（1）从业务场景需求来讲，在一个任意宽度的阈值范围内，对落在该阈值范围内的样本的预测准确率大于50%才有意义。因为训练集中，正负样本比值接近1：1.1 。如果区间准确率没有达到50%的话，对该阈值范围内的样本预测还不如随机猜。

（2）从F1值最大化的情况来看，在区间准确率大于某个值时，该区间下的样本预测为1会对F1值有增强效果。（最后发现在预测1的数量在130以内时，区间准确率达到40%以上对F1值都会有帮助，在考虑到训练集过拟合、以及测试集特征分布会出现变化，我们将这个准确率提到了50%）

那么，什么是区间准确率？其实就是模型对每个样本的预测值在排序后，按照一个区间固定的样本个数，将全样本划分成N个区间。（我们以5%的样本量为一个区间，一共划分了20个）。然后算得每个区间的准确率。在实际操作中，我们选取的阈值便是找到最后一个50%以上准确率的区间（在此区间之后再无区间的准确率达到过50%），然后取该区间的最小预测值为划分0和1标签的阈值。

举个例子，下面这个表是在1200个训练样本的基础上划分的区间准确率。

样本覆盖率（排序后）	Caboost(准确率）	Xgboost	LightGBM
5%	100%	100%	100%
10%	93.33%	93.33%	93.33%
15%	86.33%	86.33%	86.33%
20%	80.67%	80.00%	80.00%
25%	73.67%	73.16%	72.33%
30%	60%	60.5%	60.67%
35%	61.67%	60.67%	60.67%
40%	51.5%	51.67%	50.33%
45%	45.16%	45.50%	46.33%
50%	53.33%	50.00%	50.67%
55%	47.67%	50.33%	48.33%

从该表的情况来看，catboost 样本覆盖率50%以后就再无区间准确率超过50%的区间。因此该模型的阈值取在50%箱体中最小的预测值。同理，Xgboost取在55%，lightGBM取在50%区间。

通常在业务场景的探索工作就止步于此了。但比赛毕竟是比赛，我们需求追求极值。那么如何在保证稳定性的同时，又进一步提高F1值呢？

首先我们想到的就是集成学习。例如投票法，平均法等等。但其实这些效果并不好，因为我们并不是训练了一群能力相当，能力有差异的弱分类器。这种条件根本不满足。我们想到，只要某个区间的准确率能够超过50%，那么对F1值将会有较大的贡献。如果我们能提升catboost后50%的某些样本，使得对被选择的这些样本的预测准确率超过50%，且预测总数小于130个，就一定能提升F1值。

因此，我们采用了级联方法，将catboost作为主模型，让xgboost和lightGBM的模型作为副模型。这里级联的思路是，catboost预测出来的值如果排在后50%，但排在xgboost与lightGBM前25%的时候，这个样本将被认为是正样本。否则为负样本。之所以选择25%这个阈值，是因为这两个模型的训练结果上，排名前25%的样本区间准确度超过70%。这样我们用更高的要求防止因为训练自身以及训练与测试集特征分布差异带来的过拟合。

级联之后的效果，F1值从最好的0.7363涨到了0.761

我们把整个级联过程总结如下：

第五部分：重要性排序

说到重要性排序，其实之前的特征筛选过程中也是有这个概念的。ANOVA和PAC其实都会考虑到特征对全局的影响。但这类方法虽然考虑到了全局，但无法考虑到特征在群体样本（子样本集）的真实情况（效果容易被平均）。通过单变量分析筛选出来的变量，通常会使得模型表现更加稳定，但确实不包含一些组合特征信息。通常单变量筛选出来的重要特征，在考虑到组合特征的影响以后，可能会改变其重要性排名，但一般不会从重要特征的名单中消失。

考虑到GBDT类模型树分叉的特点，我们认为工具包从自带的feature importance这个函数已经可以对特征重要性做出说明。当某个特征之所以被考虑成分裂特征，也是因为这些特征在一定的数据子集里，拥有最好的全局影响力。再结合级联的分叉特性，这种判断方式也考虑到了特征之间的组合影响。

最终，我们的重要排序是将catboost,xgboost与lightGBM三模模型的feature importance输出后做了归一化，然后取了平均，得到了最终的重要性排序结果。

特征名	重要性分值	排名	特征名	重要性分值	排名
VAR00007	0.2545	1	收缩压	0.0363	7
孕前BMI	0.1455	2	舒张压	0.0182	8
SNP34	0.1272	3	SNP22	0.0182	8
TG	0.1090	4	SNP23	0.0182	8
SNP37	0.0727	5	孕次	0.0182	8
wbc	0.0545	6	孕前体重	0.0182	8
年龄	0.0545	6	Cr	0.0182	8
ALT	0.0363	7	SNP 40	0.0182	8

第六部分：模型解读

我们之所以选择集成树模型，另外一个重要的原因就是，它在精准医疗中有先天的可解释性优势。本次比赛当中，除了要提高模型精度以外，我们还要充分考虑到算法与实际应用相结合的情况。

我们可以列出了精准医疗中的一些难点：

那么，集成树模型是如何解决这个问题的呢？我们可以看到，GBDT类的树模型，是由很多棵小的决策树组成的，如下图所示（列出了其中2棵树）：

如何来解读这些树呢？我们来拿第一棵树举例。我们可以把这个树转化成3个判断语句：

If V(SNP37) >= 2.5 ,C1

If V(VAR00007<0.16253) and V(SNP37)<2.5, C2

If V(VAR00007>=0.16253) and V(SNP37)<2.5 , C3

由于每个判断语句是互斥的，那么其实我们可以统计所有样本满足这些条件的情况。当满足某些条件是，我们取值为1，否则为0，于是我们可以有以下这个表（举例）：

样本序号	条件C1	条件C2	条件C3	是否患病
1	0	1	0	0
2	1	0	0	0
3	0	1	0	0
4	0	1	0	1

我们对这三类条件做一个统计：

• 当满足 C1 时 , 一共有 41 个样本，其中 3 个患病，患病率仅 7.3%
• 当满足 C2 时，一共有 766 个样本，其中 317 个患病，患病率有 4 1.38%
• 当满足 C3 时，一共有 153 个样本，其中 133 个患病，患病率达 86.9%

换句话说：
• C1 条件下，样本是潜在糖尿病风险的概率非常小；
• C2 条件下，无法明显区分是否有患病风险，需要查看其他决策树结果；
• C3 条件下，样本是潜在糖尿病风险的概率十分高。

通过这样的解读与分析，我们能够更好的将模型的结果与实际医疗分析相结合起来。所有模型训练中得到条件，都可以进行保存并构建知识图谱，使得知识可以复用。同时，当数据发生变化时，可以对所有树结果进行阈值微调。

这就是我们团队对本次比赛的一些心得和解读，感谢本次比赛的主办方青梧桐基因与天池组织这次十分有意义的比赛。希望精准医疗在中国的发展越来越顺利。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上内容引用于：https://tianchi.aliyun.com/forum/new_articleDetail.html?spm=5176.8366600.0.0.8e43311fEPs4O0&raceId=231638&postsId=4687

我从中受教最深的是把级联分类器的思想运用到了大分类器上，从而得到了很好的效果。

下面来看一下冠军方案：

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1.赛题回顾

1.1. 竞赛背景与意义

GDM(妊娠期糖尿病)是仅限于妊娠期发生的糖尿病，多发生在坏孕3月后，分娩后大部分恢复正常，GDM孕妇产后5-16年，大约有17-63%发展成2型糖尿病；再次妊娠时GDM的复发率高达52-69%。

从数据挖掘、机器学习的方法上超早期精准评估GDM患病的风险，制定精准预防方案，保障母胎安全，降低GDM发病率。

1.2竞赛题目

复赛的主要内容是利用主办方提供的包含84个特征、1个0-1标签的1000条妊娠糖尿病样本，通过数据挖掘和机器学习的方法预测出有高风险患GDM的患者。

1.2评价指标

通过选手预测的妊娠糖尿病和实际正确的情况计算f1值。f1值取决于准确度和召回率，公式为:

2.数据预处理

2.1 填充空值

离散型变量的空值用null填充，连续型变量用平均值填充

2.2 对离散变量进行编码

所有的SNP* , BMI分类, ACEID一共58个离散变量进行进行编码，得到SNP1_1, SNP1_2, SNP1_3, SNP1_null，SNP2_1, SNP2_2, SNP2_3, SNP2_null ……BMI分类_1, BMI分类_2, ACEID_1, ACEID_2

2.3 线下线上的一致性

这是一个有监督的二分类问题，每个样本的预测结果为一个概率值，我们需要从中选取一个阈值来区分是否得了妊娠糖尿病。

auc

(1)线下的评价指标使用AUC进行调参。

(2)使用交叉验证确定线下最大的F1值时的阈值。

3.模型构建

3.1模型结构

3.2模型得分

4. 特征重要性

4.1 特征重要性排序

4.2 VAR00007

VAR00007越高越容易患GDM，怀疑是胰岛素抵抗指数(HOMA-IR)[1]

4.2 RBP4(视黄醇结合蛋白-4)

RBP4是视黄醇转运载体，主要由肝脏和脂肪组织分泌。其作为脂肪细胞因子参与了肥胖、胰岛素抵抗，妊娠本身即可导致血清RBP4的升高，升高的RBP4可能参与了妊娠胰岛素抵抗的发生，并且影响了妊娠期妇女的糖、脂代谢[2].

4.3 TG(甘油三酯)、孕前体重、孕前BMI和BMI分类

超重、肥胖的孕妇容易患GDM[3].

4.4 年龄、孕次、产次

再次妊娠时GDM的复发率更高[4]

4.5 DM家族史

具有DM家族史的孕妇GDM的发病率更高[3]

4.6 hsCRP（超敏C-反应蛋白)、wbc（白细胞）

当前身体状况偏差容易也会对GDM发病率升高[4]

4.7 收缩压、舒张压

血压偏高的孕妇GDM的发病率偏高[5]

4.8 SNP(单核苷酸多态性)的缺失

SNP5、SNP46缺失GDM发病率偏高

SNP20、SNP53缺失GDM发病率偏低

4.9 SNP34和SNP37

SNP34或者SNP37为2时GDM发病率偏高,SNP37为3时GDM发病率偏低. GDM与胰岛素抵抗和胰岛B细胞功能障碍有关，因此影响GDM的是那些调节胰岛素的功能和分泌的蛋白质，如钙蛋白酶基因calpain 10(CAPN10)的SNP-43、-63[6, 7]。

4.9 SNP34和SNP37联合特征

CAPN-10基因SNP-43、-63及其单倍型组合[6, 7]，SNP34和SNP37同时为2时GDM发病率为100%.

4.10 弱特征

AST和ALT和GDM没有直接联系

另外Cr(肌酐)、BUN(血尿素氮)、CHO(胆固醇)、HDLC(高密度脂蛋白胆固醇)、LDLC(低密度脂蛋白胆固醇)、ApoA1(载脂蛋白A1)、ApoB(载脂蛋白B)特征重要性也均很低。

4.11 特征重要性总结

超早期检测这些强重要性特征。精准预防

1、VAR00007越高越容易患GDM

2、超重、肥胖的孕妇容易患GDM

3、高龄孕妇容易患GDM

4、多孕多产次的孕妇易患GDM

5、具有DM家族史的孕妇GDM的发病率更高

6、当前身体状况偏差也会对GDM发病率升高

7、血压偏高的孕妇GDM的发病率偏高

8、SNP34、SNP37等单核苷酸多态性以及联合多态性

参考文献：

[1]王凤环,李华萍.妊娠期糖尿病患者胰岛素抵抗及胰岛素分泌功能的评估[J],上海交通大学学报(医学版),2017(3),364-368

[2]苏玉霞.血清RBP4与妊娠糖尿病及其产后转归的相关性研究[D],上海:上海交通大学,2009:1-7

[3]徐菁.妊娠期糖尿病危险因素分析及患者血清RBP4、leptin、Nesfatin-1水平变化[J].中国实验诊断学,2017(3),448-451

[4]霍志平,李红霞,杜巍妊.娠前体质指数和胎次对妊娠糖尿病发病的影响[J].临床与病理杂志,2016(2),161-167

[5]诸帆.孕期糖尿病与产后糖脂代谢紊乱及高血压的相关性研究[J].中国计划生育学杂志,2018(1),29-33

[6] Gabriela Castro-Martinez, Anna; Sanchez-Corona, Jose; Patricia Vazquez-Vargas, Adriana; et al.Association analysis of calpain 10 gene variants/haplotypes with gestational diabetes mellitus among Mexican women[J].CELLULAR AND MOLECULAR BIOLOGY,2018(3),81-86

[7] 田静,孙立洲.钙蛋白酶10基因单核苷酸多态性(SNP-43、-63)与妊娠糖尿病相关性研究[J],中国优生与遗传杂志.2011(10)

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------我们从以上内容可以看出，文中很多结论的得出都有参考文献，这也是我的导师一直强调的，确实很重要。

关于【天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测】的思考相关推荐

《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业
大赛概况进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测
在18年1月参加了天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测.我国有1.1亿人患有糖尿病,是世界上糖尿病患者最多的国家,每年用于糖尿病的医疗费用超过3000亿,与我们赛题相关的妊娠糖尿病是其中一 ...
《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-企业科研_论文作业
大赛概况进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质.人工智能(AI)能够处理分析海量医 ...
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结
github源代码赛题地址数据地址 1 问题描述这个比赛的任务是预测妊娠期妇女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病.一共有1000条训练样本,85维特征.线上测试样 ...
阿里天池大赛[人工智能辅助糖尿病遗传风险预测]赛后总结
题目以及数据介绍人工智能辅助糖尿病遗传风险预测 Github 代码以及数据 Github 初始思想 1.从头开始,先看一下初始数据以及数据的简单分析吧训练数据,最后一列是血糖: A榜测试数据第九 ...
打榜前10名：天池AI医疗人工智能辅助糖尿病遗传风险预测
向AI转型的程序员都关注了这个号
基于XGBOOST的糖尿病遗传风险预测（1）
博客基于Xgboost方法对糖尿病遗传预测风险进行预测,实际上是对人体血糖值的预测.论文以天池精准医疗大赛--人工智能辅助糖尿病遗传风险预测为背景,对其提供的数据进行人体血糖值进行预测. 本质而言是使 ...
【参赛记录】糖尿病遗传风险预测
[参赛记录]糖尿病遗传风险预测一.选题背景二.题目任务 2.1 数据集字段说明 2.2 训练集说明 2.3 测试集说明三.评估指标四.数据分析和处理 4.1 缺失值和异常值分析缺失值异常值 ...
讯飞：糖尿病遗传风险预测Coggle挑战赛公开
导入数据------------------------- train_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛训练集.csv', encoding='gbk') ...

关于【天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测】的思考