原论文:Feature Selection for High-Dimensional Genomic Microarray Data

介绍

基因数据通常具有较高的维度,同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据,如何对其建立分类模型?或者如何减少特征维度?

通常,相比对高维数据直接建模,先减少特征维度后建模的方法具有更好的评估表现。

论文提出了使用特征筛选的方法,该特征筛选包含三个阶段:非条件的单因素混合高斯建模,计算信息增益,Markov Blanket筛选。最终筛选出对目标变量有显著影响的特征。

下面将重点介绍这三个处理方法。更多细节可查看原论文。

1. Unconditional Mixture Modeling

首先,假设基因表达量的活动可以看作【off/on】两种状态下的活动。所以基于这个假设,我们可以将基因表达水平想象为一个含有两个分量的高斯混合模型(off状态下的表达水平,on状态下的表达水平):P(fi∣θi)P(f_i|\theta_i)P(fi​∣θi​),fif_ifi​表示第iii基因的表达量,是一个连续型变量,θ\thetaθ表示模型的参数,包括均值,标准差,分量选择的概率分布。

我们可以使用EM算法估计模型参数,得到关于基因表达量的高斯混合模型。

假设上述的高斯混合模型准确地描述了基因表达量的概率分布的话,那么这个模型的贝叶斯误差率则为:

1N(∑j:zj=0P(zj=1∣xj,θ)+∑j:zj=1P(zj=0∣xj,θ))\frac{1}{N}(\sum_{j\ :\ z_j=0}P(z_j=1|x_j,\theta)+\sum_{j\ :\ z_j=1}P(z_j=0|x_j,\theta))N1​(∑j : zj​=0​P(zj​=1∣xj​,θ)+∑j : zj​=1​P(zj​=0∣xj​,θ))

其中zjz_jzj​表示第jjj个样本的标签或者类别(zj∈{0,1}z_j\in \{0, 1\}zj​∈{0,1}),上式也可以表示如下,原文称其为mixture overlap probability
e=P(z=0)P(d(fi)=1∣z=0)+P(z=1)P(d(fi)=0∣z=1)e=P(z=0)P(d(f_i)=1|z=0) + P(z=1)P(d(f_i)=0|z=1)e=P(z=0)P(d(fi​)=1∣z=0)+P(z=1)P(d(fi​)=0∣z=1)

P(d(fi)=1)P(d(f_i)=1)P(d(fi​)=1)表示利用上述的高斯混合模型将基因表达水平为fif_ifi​的样本判断其类别为1的概率。

注意,得到的每个基因的高斯混合模型可以用来离散化连续变量(计算后验概率P(z=j∣fi)P(z=j|f_i)P(z=j∣fi​),将后验概率最大的jjj值作为新的离散值)。同时,每个基因高斯混合模型的贝叶斯误差率可以用来衡量特征重要性。

2. Information Gain Ranking

信息增益(Information Gain)常用作估计类分布条件概率的方法。假设类标签(假设有 CCC 个分类)将数据划分为S1,...,SCS_1,...,S_CS1​,...,SC​ ,特征 FiF_iFi​ 将数据划分为 E1,...,EKE_1,...,E_KE1​,...,EK​ ,则由于特征 FiF_iFi​ 带来的信息增益为:
Igain=H(P(S1),...,P(SC))−∑k=1KP(Ek)H(P(S1∣Ek),...,P(SC∣Ek))I_{gain} = H(P(S_1),...,P(S_C))-\sum_{k=1}^{K}P(E_k)H(P(S_1|E_k),...,P(S_C|E_k))Igain​=H(P(S1​),...,P(SC​))−k=1∑K​P(Ek​)H(P(S1​∣Ek​),...,P(SC​∣Ek​))
使用信息增益可以衡量每个特征对于类标签的重要程度。由此可以得到特征的重要性排序。

3. Markov Blanket Filtering

关于马尔可夫毯,原文给出了如下参考资料:



简单来说,某个特征的马尔可夫毯就是一个特征集合,它使得在给定了这个特征集合后,该特征与剩下的所有变量没有任何依赖关系。

也就是说,如果特征 FiF_iFi​ 与其它一些变量集和类标签 CCC 没有任何依赖关系的话,我们可以移除 FiF_iFi​,这个时候特征 FiF_iFi​ 是存在马尔可夫毯的。

所以,我们可以利用这个性质。马尔可夫毯更进一步证明了使用序列化特征筛选步骤,在这个步骤中,不必要的特征被一步步移除,而这个被移除的特征的马尔可夫毯不需要被知道。

通常情况下,我们寻找近似化的马尔可夫毯,然后计算下式:
△(Fi∣M)=∑fM,fiP(F=fi,M=fM)⋅D(P(C∣F=fi,M=fM)∣∣P(C∣M=fM))\triangle(F_i|M)=\sum_{f_M,f_i}P(F=f_i,M=f_M)\cdot D(P(C|F=f_i,M=f_M)||P(C|M=f_M))△(Fi​∣M)=fM​,fi​∑​P(F=fi​,M=fM​)⋅D(P(C∣F=fi​,M=fM​)∣∣P(C∣M=fM​))
其中函数D(P∣∣Q)D(P||Q)D(P∣∣Q) 表示K-L散度。当 MMM 为特征 FiF_iFi​ 的马尔可夫毯时,△(Fi∣M)=0\triangle(F_i|M)=0△(Fi​∣M)=0。近似化的马尔可夫毯可以使用与FiF_iFi​相关程度(Pearson系数)较高的kkk个特征。具体特征筛选算法伪代码如下:

这种启发式的特征选择方法比其他搜索特征子空间的方法高效得多,只需要计算P(C∣F=fi,M=fM),P(C∣M=fM)P(C|F=f_i,M=f_M), P(C|M=f_M)P(C∣F=fi​,M=fM​),P(C∣M=fM​)。

【论文笔记】高维基因数据中的特征选择相关推荐

  1. 【论文笔记】监控视频中异常事件检测及异常事件摘要

    论文作者林巍峣做的一次关于其发表在2015 neurocomputing 上的论文的讲座.因为是讲座+后期自己稍微看了一下原文,所以在这的介绍只是一个大概,属于科普方法类论文笔记- 论文链接:Summ ...

  2. 【大数据论文笔记】大数据技术研究综述

    大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大 ...

  3. 图情论文笔记 | 主题图书馆建设中的若干问题与发展思考(柯平)

    文章目录 1. 前言 2. 主题图书馆 2.1 主题图书馆的发展背景和条件 2.2 主题图书馆与特色图书馆的关系 2.3 主题图书馆的功能价值 2.4 主题图书馆的杭州模式 2.4.1 杭州模式的五大 ...

  4. Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法

    论文的前一部分 FEATURE SELECTION ON CONVENTIONAL DATA Similarity based Methods Laplacian Score SPEC FEATURE ...

  5. 【论文解读】NN如何在表格数据中战胜GBDT类模型!

    作者:一元,四品炼丹师 TabNet: Attentive Interpretable Tabular Learning(ArXiv2020) 01 背景 本文提出了一种高性能.可解释的规范深度表格数 ...

  6. 经验 | 深度学习中从基础综述、论文笔记到工程经验、训练技巧

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:本文授权转自知乎作者跑者小越,https://zhuanla ...

  7. 论文笔记 -- Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界

    论文笔记 – Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界 @(论文笔记) 文章目录 论文笔记 -- Commun ...

  8. 科学论文1-软件缺陷预测中基于聚类分析的特征选择方法

    国家科学基地有超级工程:两弹一星.航天发射中心,有国家科学研究院所和企业研发基地,包括山东的高速铁路研发中心,天津.广东广州和江苏无锡的高性能计算中心等.在此创建科学论文阅读中心,主要是计算机.电子系 ...

  9. 高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据...

    原文链接:http://tecdat.cn/?p=23378 1 介绍 在本文中,我们将研究以下主题 证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...

最新文章

  1. 工欲善其事必先利其器,一款开源编码辅助工具~
  2. C语言高级编程:函数指针的用法
  3. FOI冬令营 Day 3
  4. 传统的线性降维方法效果不佳。_10分钟数据降维入门
  5. java 内部类 作用_java内部类的作用分析
  6. 良好的树结构设计会让开发更舒爽
  7. windows 10安装python2.7、python3.6并配置环境变量
  8. 电大与152双向数据同步的方案
  9. jsp九大内置对象所属类及作用
  10. Linux学习笔记总结
  11. 2019牛客暑期多校训练营(第八场) Beauty Values
  12. Android那些事!
  13. 从传统外企到阿里 P9,这位 Java 工程师经历了什么?
  14. 1、软件工程基础理论
  15. EasyUI学习笔记7:MIS开发利器_ datagrid插件(中)
  16. 景观设计主题命名_景观设计主题
  17. Matlab 实现图像的直角坐标系和极坐标系的相互转化
  18. Java中间件之介绍
  19. java我的世界w_Minecraft我的世界Java版19w02a已发布
  20. 计算机专业口号 十六个字,计算机学院标语口号,16字计算机与信息学院运动会口号...

热门文章

  1. 让资源管理器变得像Chrome一样标签化
  2. 让docsify-katex支持化学公式mhchem扩展
  3. 安装MATLAB_R2013b_X64_x32激活及破解方法
  4. VS中使用Qt方法详解
  5. 美丽苏大,清华博士,年轻硕导,招收研究生了!
  6. <OS Concepts> 1- Intro
  7. 绕任一向量旋转矩阵计算思考与实现
  8. 【盲解调】基于频率和滤波器参数估计的FH-GFSK调制信号盲解调算法matlab仿真
  9. 海淀服务器维修,服务器维修服务器维修防御升级、数据恢复、对接出错等维修服务...
  10. 汽车估损师跟二手车评估师的区别及鉴定方法