干货 | 自闭症预测 You can you up

最近两个月在做一个预测自闭症的项目(https://github.com/ramp-kits/autism)，提供的数据有被试的年龄，性别，用freesurfer提取的结构像数据，不同模板提取的resting-state的数据。类似于kaggle，有Public的datasets,大概1000多被试供参与者建立自己的模型，另外差不多也是1000多人的private的数据用来进行测试和排名。相比于kaggle， ramp这个平台知名度比较小，所以参加的人并不多。奖金个人觉得还是比较丰厚的，相对于参与人数来说。第一名E3000，第二名E2000，第三名E1000，第四到第十都是E500。刚开始参加的时候，觉得懂数据的人不一定了解脑科学，懂脑科学的人不一定会搞机器学习和预测，如果即懂数据分析，又懂脑科学的人成绩应该不会太差，所以就欣然上路了。。。直到kaggle最近发布了一个把所有特征匿名的比赛，才发现这一个误解，真正的数据科学家是不需要太多背景知识也可以搞定数据的。

未来的趋势

相比修改自己无聊透顶的文章来说（Btw, 我做个研究是一个大样本fMRI扫雷式的研究，以后有机会再吐槽），这个预测的项目充满了挑战，它诠释了you can you up/是骡子是马拉出来溜溜的实用主义。心理学（认知神经科学）中，p-hacking，数据分析中mistake, 小样本的bias，还有统计方法（比如假设检验）都是造成结果无法被重复的原因。另外一个方面，即使在使用机器学习方法进行预测的研究中，有很大一部分研究使用了相对较少的样本，样本数据来自同一个scanner，或者使用了leave-one-out的交叉检验，此外这类研究根本无法防止研究者overfit自己的数据，这些都可能造成结果的可重复性差。这个自闭症预测比赛的可贵之处在于，有1000+未知的数据可以用来检验模型的表现。这类比赛可能是防止研究者自己overfit自己数据的最有效方法，可能成为以后的趋势。【overfit是指根据数据A选最好的特征和模型及参数，然后放到同质的数据B上，模型表现极差，模型毫无意义】

分享几点感受：

1. 自己从未从导师的角度出发思考过这个问题，跟导师谈过这个竞赛，他说这样做比招博后省钱。确实如此一个博后一个月E2200+，做个两三年不一定产出个好的模型，而且搞不好自己在overfit自己的数据。【好吧，算是给别人做了两个月不拿工资的博后。。。导师以为我在专心修改论文】。

2. OOP才是python精华

碰到的第一个问题就是python的oop（面向对象编程），之前用python都是按照matlab的套路用的，spyder打开后python完全就是另外一个版本的matlab。几乎所有的sklearn的内容全部都是按照oop的方式编写的，这样给调用提供了很大的便利。在过程中感受到的oop的强大之处。

3. 本专业的知识没用上多少

唯一用到的相关知识是，motion的correction，看综述，使用了自己觉得正确的方法，矫正了头动+1st derivative+RMS，用correlation作为FC。小世界，低频振幅等rest常用的属性尝试过，但没时间去探索。对于功能连接只是用index表示，比如FC_01, FC_02，具体哪跟哪连接的也没有map到脑上看。如果有宽裕的时间的话，我应该会把具有区分度的fc画出来，结合所在脑区进行特征选择【这是心理学背景的人会想去做的事情，当然这样可能导致严重的overfitting】。

4. 基于自己的模型和数据来看，power 2011的模板比其他几个模板效果要好一点。Shen atlas 组织者没有提供，但是也是值得考察的一个模板。

最后的结果

public leaderboard 8

private leaderboard 大概30+

一个星期才缓过神。好吧，对特征的hardcoding是overfitting的元凶。值得一提的是public leaderboard上前10几乎都用了hardcoding，而且居然有人达到了0.99的AUC，之前还一直以为是大神用了不寻常model，心里非常膜拜。【Hardcoding就是使用各种手段，把认为最好的特征直接告诉你的算法。比如特征提取完了，你基于某些标准直接选第1，3，5，6，22..个特征作为模型的输入】最好的方法是将特征选择嵌入到算法中，所谓nested cross-validation。

在特征选择时，效应量是我使用的标准之一，虽然从机器学习的角度看，使用效应量可能让y label leaking，从增加了overfitting的风险，但按照心理学研究的逻辑，使用效应量选择两组间有差异的特征（FC），那么这些差异在另外同质的样本上应该也是显著差异的。比如从public的数据中，我发现了自闭症和正常被试的IFG和SMA的FC有显著差异（n=1000+), 那么对于private的数据，这种差异应该是依然存在的。但事实证明，这样做效果真的很差。这不得不让我重新审视这一逻辑，心理学研究可重复性到底有多少，效应/结论推广到更大的样本或者其他同质样本上是否还会存在？

无力吐槽的top10

真正让人无力吐槽的是前10的代码。自己对前10代码的期待是：

有对数据特点的考量，有特别的去头动矫正的方法
有高级的算法，比如深度学习，xgboost, 贝叶斯的应用
有除了FC新的特征，比如ALFF 小世界属性

事实是，前10的代码没有太多高明之处，一度让我怀疑自己对待这个活动太过认真，简单的有可能是最有效的。有人直接使用了组织者提供的代码，将所有可用的altlas提取的FC,stack一下；几乎没有人回归头动，更不要说RMS和1st derivative了;几乎所有代码都是组织者提供的代码稍作修改提交的，因此大部分人都用了默认的covariance而不是correlation作为FC；几乎都是清一色logistic regression, 甚至elastic net都没看到。估计组织者在看到top 10的代码时会比较失望。如果把比赛放在kaggle上，可能会有更好的效果。自己没有比较过矫正头动和不矫正头动的差别，也没有比较covariance和correlation定义FC的差别，但是如果模型表现好应该有其理由。

最后的最后

个人觉得在比赛进行一半的时候，公布一次private leaderboard是比较好的，这样可以提醒一大部分人他们是在overfitting。另外一个细思极恐的事实是在用机器学习的方法进行研究，发论文时，无论使用了怎么样的cross-validation的方法和花哨的模型，自己overfit自己的数据根本无法避免。如果一篇文章声称用了某些指标（比如 vbm, cortical thickness, rest的fc, 等）成功预测了某个结果（比如自闭症，ADHD，某个量表的得分，等），方法的可行性，读者需要有自己的判断（ with big caution) 。此外，此类方法的一大挑战是可解释性，简单的例子就是神经网络，RNN/CNN 广泛运用在图像识别，自然语言处理上，只看重结果，不需要解释，但如果用在脑科学的研究上，节点几乎无法解释，使用这种方法的意义不大。

原创文章，转载请注明

干货 | 自闭症预测 You can you up相关推荐

Lancet子刊：预测婴儿自闭症：进展与挑战
自闭症谱系障碍(以下简称自闭症)是一种神经发育状况,可在儿童18-24个月大时可靠地诊断出来.通过对1岁及以下年龄的婴儿进行前瞻性纵向研究,这些婴儿后来被诊断为自闭症,可以阐明自闭症的早期发展过程,并 ...
BP综述：自闭症中基于功能连接体的预测模型
自闭症是一种异质性的神经发育疾病,基于功能磁共振成像的研究有助于推进我们对其对大脑网络活动影响的理解.我们回顾了使用功能连接和症状的测量的预测建模如何帮助揭示对这种情况的关键见解.我们讨论了不同的预测 ...
基于功能连接组的自闭症预测模型
自闭症是一种异质性的神经发育状况,基于功能磁共振成像的研究已经有助于深化我们对大脑网络活动影响的理解.我们回顾了使用功能连接性和症状的预测建模如何帮助揭示这种病状的关键见解.我们讨论了不同的预测框架如 ...
剑桥女博士创立情绪识别 AI 公司，帮助自闭症患者理解他人表情
很多智能设备能预测我们下一步想要做什么,但是它们却无法知道为什么我们要那样做. 作者|DataGirls 本文经授权转载自DataGirls(ID:DataGirls) <她>(Her) ...
自闭症的白质微观结构研究
目前,神经影像学研究已表明ASD的大脑结构及功能方面存在诸多异常,近而衍生出一系列ASD皮质脑区连接异常的理论.这些理论共同认为,脑区连接异常是导致ASD的社会认知障碍等核心特征的神经基础.该观点将A ...
综述文章：支持自闭症谱系障碍青少年灵活认知和行为的大脑机制
<本文同步发布于"脑之说"微信公众号,欢迎搜索关注~~> 摘要认知灵活性使人们能够对不断变化的环境做出适当的反应,并与积极的生活结果有关.随着对向独立生活过渡的日益关 ...
自闭症青年的突显网络、默认模式网络和中央执行网络功能连接的差异
<本文同步发布于"脑之说"微信公众号,欢迎搜索关注~~> 摘要自闭症(ASD)和三个神经认知网络的功能连接变化有关,这三个网络被认为是ASD症状学的核心:突显网络(S ...
長井志江：AI模拟并协助自闭症患者，探究人类认知与意识本质｜42问AI与机器人未来...
42个AI与机器人大问题之-- 「AI如何帮我们理解认知和意识的本质?」本届大会由腾讯 AI Lab 携手Nature Research(自然科研)及旗下<自然-机器智能>.<自然 ...
自闭症和注意缺陷多动障碍默认模式网络的周期性动态改变
默认模式网络(DMN)中静息态功能连接的改变是自闭症谱系障碍(ASD)和注意缺陷/多动障碍(ADHD)的特征.静息态功能连接的标准分析流程关注于神经网络或感兴趣区域之间的激活时间过程中的线性相关性.这 ...

干货 | 自闭症预测 You can you up

干货 | 自闭症预测 You can you up相关推荐

最新文章

热门文章