系列文章目录

基于聚类演化随机森林的阿尔兹海默症的多模态数据分析


基于多模态成像遗传学数据来预测帕金森病相关基因和大脑区域的新型CERNNE方法

  • 系列文章目录
  • 前言
    • 阅览文章之前记得一键三联哦,做文章不容易,十分感谢大家的鼓励。
  • 一、提纲
    • 1.概述
    • 2.学术简称
  • 二、背景与问题
    • 1.背景
    • 2.问题
  • 三、目标与步骤
    • 1.目标
    • 2.步骤
  • 四、方法与创新点
    • 1.多峰数据集和预处理
    • 2.提取融合特征
    • 3.pearson相关分析方法
    • 4.GERNNE
  • 五、参数优化以及最可识别特征
    • 1.最可识别特征
    • 2.参数优化
  • 六、其他参数设置
  • 七、局限性与结论
  • 总结

前言

这几天在看一篇论文,想和大家分享一下。

阅览文章之前记得一键三联哦,做文章不容易,十分感谢大家的鼓励。

这里我只是用自己的话简单概括了文章的大致主体意思,由于这篇论文没有代码,所以我没办法复现。
主要还是学习方法和思想,如果想看原文,请移步网站,支持作者的创作成果。本博客全是基于自己的理解创作的,所以有大佬能够指出本博客的错误,在下定当万分感谢。

这篇文章来自Medical Image Analysis.

A novel CERNNE approach for predicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genetics data[1]

Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu

PII: S1361-8415(20)30194-8
DOI: https://doi.org/10.1016/j.media.2020.101830
Reference: MEDIMA 101830

T o appear in: Medical Image Analysis
Received date: 26 April 2020
Revised date: 24 July 2020
Accepted date: 1 September 2020


一、提纲

1.概述

  1. 设计了一种实用的多峰特征融合方法,以检测大脑区域和基因之间的序列信息的相关性,并提取出更多可识别的特征。

  2. 提出了一种创新的神经网络集成模型CERNNE,以分析样本的融合特征。该方法使用聚类演化策略来优化集成学习者,以获得更好的分类结果。

  3. 本文研究提供了检测PD相关基因和大脑区域的综合框架。

2.学术简称

本博客可能出现的名词缩写

PD 帕金森症
GERNNE 神经网络集成模型
AAL 解剖自动标记
ROI 感兴趣模块
ANN 人工神经网络
BPNN 反向传播神经网络
PNN 概率神经网络
ElmanNN 艾尔曼神经网络
LVQNN 学习矢量量化中心网络
Competitive NN 竞争性神经网络
FMRI 功能磁共振成像
SNP

二、背景与问题

1.背景

  1. FMRI单独用于识别PD,很少考虑融合数据。
  2. 大多数使用成像和遗传数据对PD进行的仅关注过程本身,忽略了对综合框架的分析。
  3. 人工神经网络在PD多峰研究中还有很大的潜力。

2.问题

  • 如何将fMRI数据与基因数据融合
  • 怎样设计基于机器学习的PD多模式融合框架设计

三、目标与步骤

1.目标

  • 将fMRI数据与基因数据融合是全面探讨PD的致病因素的可行方法
  • 挖掘ANN在PD多峰融合研究中的潜力
  • 基于机器学习的PD多模式融合框架的设计

2.步骤

  1. 测试多种相关分析方法,并选择了提取基因与大脑区域之间关联的最佳方法作为多峰数据的融合特征。
  2. 提出了一种改进的聚类演化随机神经网络集成(CERNNE)神经网络模型。引入层次聚类的思想,以进行自适应动态优化。
  3. 以CERNNE为核心,构建PD的多模态融合框架,以实现特征构造,患者识别和病因预测的多任务分析。

四、方法与创新点


此图片来自论文。
下面是我自己的理解

PD的多峰数据融合分析框架,该框架实现特征构建,患者识别和病变检测的功能。该框架由以下四个部分组成,包括多模式数据预处理,融合功能构建,样本分类和与PD相关的基因以及大脑区域预测。

  1. 用AAL模板预处理静态fMRI图像得到ROI,提取ROI功能时间时间序列。
  2. 与此同时,对SNP重组,得到基因序列
  3. 经过相关分析方法,得到融合特征矩阵
  4. 对GERNNE模型进行优化
  5. 提取到高频特征并可视化

接下来请听我娓娓道来

1.多峰数据集和预处理

所有功能磁共振成像数据均由DPARSF软件进行预处理。
SNP的预处理由PLINK软件执行

2.提取融合特征

  1. 通过AAL模板将预处理的fMRI图像分割为90个感兴趣区域(ROI),提取每个ROI的功能时间序列,其长度为 fl。
  2. 我们在NCBI和Ensemble网站上查询其参考SNP(rs)编号,以确定它们所属的基因。然后我们根据它们对应的基因对SNP进行分组,并根据基因中SNP的位置排列SNP组。我们选择SNP数量大于作为候选基因并离散地重新编码基因。这四个碱基A,T,C,G 根据PLINK(1.07)文档(Purcell,2012),将SNP中的SNP分别重新编码为1、2、3和4 ,从而获得基因组的数字序列。最终,ROI的时间序列长度通常大于基因序列长度。
  3. 截取ROI的时间序列长度等于基因序列长度从fMRI数据获得90个大脑区域的功能时间序列,并从遗传数据中提取23595个SNP。为了确保融合特征构建的有效性,我们控制了ROI和SNP序列的长度,以便将所有序列转换为相同的长度。详细地,我们保留了45个SNP组,其中包含40个以上的SNP,并离散化了每个SNP组的前40个SNP,以获得长度为80的基因数字序列。大脑区域的功能时间序列也被调整为80,我们选择的上述长度阈值是通过重复实验确定的,每个样本最终成为一组4050维融合特征。
  4. 通过Pearson相关分析方法,计算ROI和基因序列之间的关联作为融合特征。

3.pearson相关分析方法

Pearson相关系数

最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)

(1)两变量呈直线相关关系,如果是曲线相关可能不准确。

(2)极端值会对结果造成较大的影响

(3)两变量符合双变量联合正态分布。


Wr代表ROI的功能时间序列,Ss是基因序列,l代表每个ROI或者基因的长度

4.GERNNE

简化版叙述

  1. 随机抽30%为测试样本,这其中7:3分为训练,验证

  2. 从融合特征中随机选择作为分类器的输入特征

  3. 构造单个分类器,Z次,Z个。

  4. 对分类器进行聚类学习,相似性的衡量标准DM
    假设两个分类器ANN1和ANN2
    Z00:两个分类器都识别错误的样本数量
    Z01:只有ANN2识别错误的样本数量
    Z10:只有ANN1识别错误的样本数量
    Z11:ANN1和ANN2都是别正确的样本数量

  5. 构造相似度矩阵Matrixs

    这里DM(z,1)表示ANNZ与ANN1分类器之间的差异度
    相似度越高,DM越小

  6. 聚类演化
    保留集群中具有最佳性能的基本分类器
    在分类器集群中留下最终达到演化时间所设阈值的分类器

    ANNensemble表示该W下的所保留的基础分类器的数量
    W表示对应的整体学习器峰值性能的演化时间
    Z表示初始分类器的数量
    cl表示迭代步长,也就是每次W下优化掉的分类器的个数

  7. 最终模型的投票决策
    也就是如何在最佳分类器集群中得到最终的结果。
    这里很简单,平均值,每个分类器享有同等的投票权。
    结果集:
    等式计算分类结果


最大值的标签

这里x为测试样本,fk(x)表示第k个分类器的分类结果。
I(∗)为指示函数,如果第i个分类器预测测试样本x属于A类,则I(fi(X)=A)的值为1,否则为0。最大值的标签是未分类样本的最终类别

下面附上原论文中的流程表

五、参数优化以及最可识别特征

1.最可识别特征

输入特征对分类器的分类影响很大,所以如何提取最佳特征是一件非常重要的事。

  1. 对重复出现的不同融合特征,在这其中选取高频特征
  2. 反向序列搜索算法,采取e高频降序搜索
  3. 单独分析,对包含在融合特征中大脑区域和基因做单个分量提取并分别统计出现的频率。

在对最佳CERNNE的集成性能进行了多次测试之后,平均分类精度为88.6%
第一阶段,我们计算了最佳CERNNE模型中基本分类器中输入特征的频率,并为下一阶段的特征提取了400个高频特征。分析。通过上述操作,可以将最容易识别的特征的搜索范围缩小到400维。
第二阶段400个高频特征被分为融合特征的几个子集。具体来说,第一个特征子集由前70个高频特征组成。然后,我们按照频率递减的方式逐渐增加子集中特征的数量,步长为5,直到子集中包含所有400个高频特征。

2.参数优化

  1. 分类器类型,演化数,ANN数量
  2. 类型BPNN,PNN,ElmanNN,LVQNN,CompetitiveNN
  3. 数量K,
  4. 采用网格搜索最佳参数(分类器的个数[c,d])聚类演化

六、其他参数设置

具体而言,将BP NN,Elman NN和LVQ NN的隐藏层数设置为5,将其他网络的参数设置为MATLAB平台的默认参数。此外,所有神经网络基础分类器的迭代训练数量为300。对于任何类型的神经网络集合,我们将其基础分类器的训练样本数量和随机输入特征分别设置为50和64,并将初始集成学习器中的基本分类器设置为500。

七、局限性与结论

  1. 局限性
    实验数据少
    模型性能还有提升空间

  2. 结论
    本文试图设计一种实用的多峰融合分析框架。主要贡献包括三个部分。通过相关性分析检测基因与大脑区域之间的相互作用,并根据多峰信息互补的优势,构建具有更多识别能力的融合特征。本文提出了一种新的集成学习器来分析融合特征,实现了对PD患者的识别准确率达到88.57%。通过搜索对于分类有意义的特征,可以检测到PD在基因和脑功能图像方面的致病因素

总结

该论文还有一些可视化数据和方法的对比部分我没有写出来,不过总体内容基本上都有。没有数据,没有代码,也算是了解学习一下。

[1]Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu, A novel CERNNE approach for pre-dicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genet-ics data, Medical Image Analysis (2020),
doi: https://doi.org/10.1016/j.media.2020.101830

基于多模态成像遗传学数据来预测帕金森病相关基因和大脑区域的新型CERNNE方法相关推荐

  1. 【GWAS文献】基于GWAS与群体进化分析挖掘大豆相关基因

    Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improv ...

  2. 论文小结——影像学和基因组学多模态数据融合在肺癌复发预测中的应用

    系列文章目录 基于多模态成像遗传学数据来预测帕金森病相关基因和大脑区域的新型GERNNE方法 基于聚类演化随机森林的阿尔兹海默症的多模态数据分析 影像学和基因组学多模态数据融合在肺癌复发预测中的应用 ...

  3. 基于Logistic回归的上市公司ROE预测

    基于Logistic回归的上市公司ROE预测 目录 基于Logistic回归的上市公司ROE预测 前言 基于Logistic回归的上市公司ROE预测 导入相关库 读取并查看数据基本情况 划分自变量与因 ...

  4. 基于多模态脑连接体的晚年抑郁症患者自杀风险预测

    自杀意念.自杀计划和自杀行为在老年人群中是非常严重的健康问题,其导致死亡的可能性远远高于任何其他年龄组.老年抑郁症发病率的增加反映了对老年抑郁症患者自杀风险进行有效筛查的迫切需要.采用横断面设计(注: ...

  5. 生物信息学|通过基于多模态注意机制的卷积编码器进行可解释的抗癌化合物灵敏度预测

    0. 摘要     根据最近神经网络在药物设计和灵敏度预测方面的进展,我们提出了一种新的模型,利用基于多模态注意机制的卷积编码器对抗癌化合物灵敏度进行可解释预测.我们的模型基于药物敏感性的三个关键数据 ...

  6. Keras之ML~P:基于Keras中建立的回归预测的神经网络模型(根据200个数据样本预测新的5+1个样本)——回归预测

    Keras之ML~P:基于Keras中建立的回归预测的神经网络模型(根据200个数据样本预测新的5+1个样本)--回归预测 目录 输出结果 核心代码 输出结果 核心代码 # -*- coding: u ...

  7. Keras之ML~P:基于Keras中建立的简单的二分类问题的神经网络模型(根据200个数据样本预测新的5个样本)——概率预测

    Keras之ML~P:基于Keras中建立的简单的二分类问题的神经网络模型(根据200个数据样本预测新的5个样本)--概率预测 目录 输出结果 核心代码 输出结果 核心代码 # -*- coding: ...

  8. Keras之ML~P:基于Keras中建立的简单的二分类问题的神经网络模型(根据200个数据样本预测新的5+1个样本)——类别预测

    Keras之ML~P:基于Keras中建立的简单的二分类问题的神经网络模型(根据200个数据样本预测新的5+1个样本)--类别预测 目录 输出结果 核心代码 输出结果 核心代码 # -*- codin ...

  9. 打开应用蜂窝移动数据就关闭_基于移动应用行为数据的客户流失预测

    打开应用蜂窝移动数据就关闭 In the previous article, we created a logistic regression model to predict user enroll ...

最新文章

  1. linux centos 7 bash升级到5.0
  2. java sync和async区别_GCD中串行、并行与async、sync的区别
  3. 写论文时的一些高大上词句
  4. 【图像超分辨率】SR for RS via Local–Global Combined Network
  5. 直男的回答能多出乎意料?
  6. IndexError: invalid index of a 0-dim tensor. Use `tensor.item()` in Python or `tensor.item<T>()` in
  7. 阿里云 x 蒙牛 | 打通数据孤岛,基于MaxCompute实现产销协同的智慧运营
  8. 别再吼孩子骂孩子了,他们的脑子真的会受伤变形
  9. Hive 元数据库表信息
  10. pexpect与fabric
  11. websphere配置oracle数据源,Websphere - 配置Oracle数据源
  12. 双重特异性酪氨酸磷酸化调节激酶1A行业调研报告 - 市场现状分析与发展前景预测
  13. putty提示Network error:Software caused connection abort
  14. 如何 shuffle 一个 vector 以及 vectorvector
  15. 背包问题(背包九讲)
  16. linux capability
  17. 短视频矩阵系统H5形式视频分享如何开发?
  18. unity 条目换位效果_Unity AI主题博客条目
  19. python写的百度贴吧邮箱采集(带界面)
  20. python爬取网站时,一键获取headers、url等信息(真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽)

热门文章

  1. swif学习之自定义运算符
  2. MRTK眼动追踪教程
  3. 二分图最大匹配(HK)
  4. 批量处理资源3号(ZY3)卫星数据——正射校正/大气校正/融合
  5. 为什么测试环境测试通过,线上还会有bug?
  6. 切身经历,经理都慌了!云服务器连接成功蓝屏,桌面没有任何图标显示
  7. 5G临时牌照或将发放,商用大幕已经开启
  8. winxp如何锁定计算机,如何锁定winXP电脑的桌面?
  9. ThinkPHP5.1 Hook(钩子)的理解及应用示例
  10. 有源钳位反激电路和无源钳位反激