【论文笔记】高维基因数据中的特征选择
原论文:Feature Selection for High-Dimensional Genomic Microarray Data
介绍
基因数据通常具有较高的维度,同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据,如何对其建立分类模型?或者如何减少特征维度?
通常,相比对高维数据直接建模,先减少特征维度后建模的方法具有更好的评估表现。
论文提出了使用特征筛选的方法,该特征筛选包含三个阶段:非条件的单因素混合高斯建模,计算信息增益,Markov Blanket筛选。最终筛选出对目标变量有显著影响的特征。
下面将重点介绍这三个处理方法。更多细节可查看原论文。
1. Unconditional Mixture Modeling
首先,假设基因表达量的活动可以看作【off/on】两种状态下的活动。所以基于这个假设,我们可以将基因表达水平想象为一个含有两个分量的高斯混合模型(off状态下的表达水平,on状态下的表达水平):P(fi∣θi)P(f_i|\theta_i)P(fi∣θi),fif_ifi表示第iii基因的表达量,是一个连续型变量,θ\thetaθ表示模型的参数,包括均值,标准差,分量选择的概率分布。
我们可以使用EM算法估计模型参数,得到关于基因表达量的高斯混合模型。
假设上述的高斯混合模型准确地描述了基因表达量的概率分布的话,那么这个模型的贝叶斯误差率则为:
1N(∑j:zj=0P(zj=1∣xj,θ)+∑j:zj=1P(zj=0∣xj,θ))\frac{1}{N}(\sum_{j\ :\ z_j=0}P(z_j=1|x_j,\theta)+\sum_{j\ :\ z_j=1}P(z_j=0|x_j,\theta))N1(∑j : zj=0P(zj=1∣xj,θ)+∑j : zj=1P(zj=0∣xj,θ))
其中zjz_jzj表示第jjj个样本的标签或者类别(zj∈{0,1}z_j\in \{0, 1\}zj∈{0,1}),上式也可以表示如下,原文称其为mixture overlap probability:
e=P(z=0)P(d(fi)=1∣z=0)+P(z=1)P(d(fi)=0∣z=1)e=P(z=0)P(d(f_i)=1|z=0) + P(z=1)P(d(f_i)=0|z=1)e=P(z=0)P(d(fi)=1∣z=0)+P(z=1)P(d(fi)=0∣z=1)
P(d(fi)=1)P(d(f_i)=1)P(d(fi)=1)表示利用上述的高斯混合模型将基因表达水平为fif_ifi的样本判断其类别为1的概率。
注意,得到的每个基因的高斯混合模型可以用来离散化连续变量(计算后验概率P(z=j∣fi)P(z=j|f_i)P(z=j∣fi),将后验概率最大的jjj值作为新的离散值)。同时,每个基因高斯混合模型的贝叶斯误差率可以用来衡量特征重要性。
2. Information Gain Ranking
信息增益(Information Gain)常用作估计类分布条件概率的方法。假设类标签(假设有 CCC 个分类)将数据划分为S1,...,SCS_1,...,S_CS1,...,SC ,特征 FiF_iFi 将数据划分为 E1,...,EKE_1,...,E_KE1,...,EK ,则由于特征 FiF_iFi 带来的信息增益为:
Igain=H(P(S1),...,P(SC))−∑k=1KP(Ek)H(P(S1∣Ek),...,P(SC∣Ek))I_{gain} = H(P(S_1),...,P(S_C))-\sum_{k=1}^{K}P(E_k)H(P(S_1|E_k),...,P(S_C|E_k))Igain=H(P(S1),...,P(SC))−k=1∑KP(Ek)H(P(S1∣Ek),...,P(SC∣Ek))
使用信息增益可以衡量每个特征对于类标签的重要程度。由此可以得到特征的重要性排序。
3. Markov Blanket Filtering
关于马尔可夫毯,原文给出了如下参考资料:
简单来说,某个特征的马尔可夫毯就是一个特征集合,它使得在给定了这个特征集合后,该特征与剩下的所有变量没有任何依赖关系。
也就是说,如果特征 FiF_iFi 与其它一些变量集和类标签 CCC 没有任何依赖关系的话,我们可以移除 FiF_iFi,这个时候特征 FiF_iFi 是存在马尔可夫毯的。
所以,我们可以利用这个性质。马尔可夫毯更进一步证明了使用序列化特征筛选步骤,在这个步骤中,不必要的特征被一步步移除,而这个被移除的特征的马尔可夫毯不需要被知道。
通常情况下,我们寻找近似化的马尔可夫毯,然后计算下式:
△(Fi∣M)=∑fM,fiP(F=fi,M=fM)⋅D(P(C∣F=fi,M=fM)∣∣P(C∣M=fM))\triangle(F_i|M)=\sum_{f_M,f_i}P(F=f_i,M=f_M)\cdot D(P(C|F=f_i,M=f_M)||P(C|M=f_M))△(Fi∣M)=fM,fi∑P(F=fi,M=fM)⋅D(P(C∣F=fi,M=fM)∣∣P(C∣M=fM))
其中函数D(P∣∣Q)D(P||Q)D(P∣∣Q) 表示K-L散度。当 MMM 为特征 FiF_iFi 的马尔可夫毯时,△(Fi∣M)=0\triangle(F_i|M)=0△(Fi∣M)=0。近似化的马尔可夫毯可以使用与FiF_iFi相关程度(Pearson系数)较高的kkk个特征。具体特征筛选算法伪代码如下:
这种启发式的特征选择方法比其他搜索特征子空间的方法高效得多,只需要计算P(C∣F=fi,M=fM),P(C∣M=fM)P(C|F=f_i,M=f_M), P(C|M=f_M)P(C∣F=fi,M=fM),P(C∣M=fM)。
【论文笔记】高维基因数据中的特征选择相关推荐
- 【论文笔记】监控视频中异常事件检测及异常事件摘要
论文作者林巍峣做的一次关于其发表在2015 neurocomputing 上的论文的讲座.因为是讲座+后期自己稍微看了一下原文,所以在这的介绍只是一个大概,属于科普方法类论文笔记- 论文链接:Summ ...
- 【大数据论文笔记】大数据技术研究综述
大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大 ...
- 图情论文笔记 | 主题图书馆建设中的若干问题与发展思考(柯平)
文章目录 1. 前言 2. 主题图书馆 2.1 主题图书馆的发展背景和条件 2.2 主题图书馆与特色图书馆的关系 2.3 主题图书馆的功能价值 2.4 主题图书馆的杭州模式 2.4.1 杭州模式的五大 ...
- Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法
论文的前一部分 FEATURE SELECTION ON CONVENTIONAL DATA Similarity based Methods Laplacian Score SPEC FEATURE ...
- 【论文解读】NN如何在表格数据中战胜GBDT类模型!
作者:一元,四品炼丹师 TabNet: Attentive Interpretable Tabular Learning(ArXiv2020) 01 背景 本文提出了一种高性能.可解释的规范深度表格数 ...
- 经验 | 深度学习中从基础综述、论文笔记到工程经验、训练技巧
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:本文授权转自知乎作者跑者小越,https://zhuanla ...
- 论文笔记 -- Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界
论文笔记 – Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界 @(论文笔记) 文章目录 论文笔记 -- Commun ...
- 科学论文1-软件缺陷预测中基于聚类分析的特征选择方法
国家科学基地有超级工程:两弹一星.航天发射中心,有国家科学研究院所和企业研发基地,包括山东的高速铁路研发中心,天津.广东广州和江苏无锡的高性能计算中心等.在此创建科学论文阅读中心,主要是计算机.电子系 ...
- 高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据...
原文链接:http://tecdat.cn/?p=23378 1 介绍 在本文中,我们将研究以下主题 证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
最新文章
- 工欲善其事必先利其器,一款开源编码辅助工具~
- C语言高级编程:函数指针的用法
- FOI冬令营 Day 3
- 传统的线性降维方法效果不佳。_10分钟数据降维入门
- java 内部类 作用_java内部类的作用分析
- 良好的树结构设计会让开发更舒爽
- windows 10安装python2.7、python3.6并配置环境变量
- 电大与152双向数据同步的方案
- jsp九大内置对象所属类及作用
- Linux学习笔记总结
- 2019牛客暑期多校训练营(第八场) Beauty Values
- Android那些事!
- 从传统外企到阿里 P9,这位 Java 工程师经历了什么?
- 1、软件工程基础理论
- EasyUI学习笔记7:MIS开发利器_ datagrid插件(中)
- 景观设计主题命名_景观设计主题
- Matlab 实现图像的直角坐标系和极坐标系的相互转化
- Java中间件之介绍
- java我的世界w_Minecraft我的世界Java版19w02a已发布
- 计算机专业口号 十六个字,计算机学院标语口号,16字计算机与信息学院运动会口号...
热门文章
- 让资源管理器变得像Chrome一样标签化
- 让docsify-katex支持化学公式mhchem扩展
- 安装MATLAB_R2013b_X64_x32激活及破解方法
- VS中使用Qt方法详解
- 美丽苏大,清华博士,年轻硕导,招收研究生了!
- <OS Concepts> 1- Intro
- 绕任一向量旋转矩阵计算思考与实现
- 【盲解调】基于频率和滤波器参数估计的FH-GFSK调制信号盲解调算法matlab仿真
- 海淀服务器维修,服务器维修服务器维修防御升级、数据恢复、对接出错等维修服务...
- 汽车估损师跟二手车评估师的区别及鉴定方法