最大信息系数 (Maximal Information Coefficient, MIC)详解(1)

四年前看过的一篇论文,当时还在组会上报告过,很确信当时把它弄懂了,由于当时是用机器学习的方法来做预测,一直没有用到它,很多都忘了,只记得Science上有这么一篇文章,里面讲了个最大信息系数,能度量各种关系,看起来很NB的样子。现在分析高通量测序数据,能用到它了,没办法又浪费了至少20个小时重看了一遍,弄懂后记下来,便于交流和以后自己查看。

那篇NB paper:

David N. Reshef, et al. (2011).Detecting Novel Associations in Large Data Sets.Science, 334(6062), 1518-1524.

这篇论文的一作去年还来过学校做过报告,可惜忘了去了!

下面会尽量解释清楚这篇论文的正文和补充材料里的所有内容。

1. 背景

首先回顾一下为了完全看懂这篇论文的正文和补充材料需要了解的相关背景知识,主要是统计学和信息论中的基本概念。

假设有两个变量X和Y,抽样得到了n对样本值(各有n个观测值):

样本均值和标准差:

皮尔逊(积矩)相关系数(Pearson product-moment correlation coefficient):

也就是通常说的(线性)相关系数,一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示线性无关,-1 表示完全负相关。绝对值越大表示线性关系越强,但它不能度量线性关系的斜率以及非线性关系,当然也不能度量非函数关系。

斯皮尔曼(秩次,等级)相关系数(Spearman's rank correlation coefficient):

把X中的n个数从小到大排列,若Xi排在了第Ai个位置,则Xi的秩次为Ai,从而可得X所对应的秩次向量A,同理可得Y的所对应的秩次向量B:

A和B之间的皮尔逊相关数就是X与Y之间的斯皮尔曼相关系数:

斯皮尔曼秩相关数可以在一定程度上反应出非线性关系,若Y是X的严格单调递减(增)函数,则斯皮尔曼秩相关数是-1 (+1).

可决系数(coefficient of determination):

设Yi是观测值,fi是线性回归对应的预测值( fi(X1, X2, ......, Xn) ),则,

R2是拟合优度(Goodness of Fit)的一个统计量, 是指回归直线对观测值的拟合程度。R2越接近1,说明回归直线对观测值的拟合程度越好(在总变差中,由模型作出了解释的部分占的比重越大);反之,R2越接近0,说明回归直线对观测值的拟合程度越差(在总变差中,由模型作出了解释的部分占的比重越小)。

自信息量(self-information, information content, Quantities of information, amount of information):

假设X和Y中都只有s个不同的值,即都只有s个基本事件,从而可以根据样本来求出这s个基本事件的频率,用来当作概率。

这里以2为低,单位是bit;若以10为低,单位是Hartley;若以e为低,单位是nat。信息量只表示随机性的减少程度,xi发生的概率越小, 当xi真的发生以后,提供的信息量就越大。 从而有:

从而,必然事件发生以后,信息量为0.  不可能事件发生以后,信息量为无穷大。

转载本文请联系原作者获取授权,同时请注明本文来自彭勇科学网博客。

链接地址:http://blog.sciencenet.cn/blog-830496-872998.html

上一篇:一次注目,改变一生!‏ (One Look, Changes Your Life)

下一篇:Histone Modifications and Nucleosome Turnover

matlab mic系数_科学网—最大信息系数 (Maximal Information Coefficient, MIC)详解(1) - 彭勇的博文...相关推荐

  1. 【转】Maximal Information Coefficient (MIC)最大互信息系数详解与实现

    Maximal Information Coefficient (MIC)最大互信息系数详解与实现 ---------------- 版权声明:本文为CSDN博主「Font Tian」的原创文章,遵循 ...

  2. Maximal Information Coefficient (MIC)最大互信息系数详解与实现

    MIC MIC 即:Maximal Information Coefficient 最大互信息系数. 使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Informatio ...

  3. matlab stract结构_科学网—[MATLAB]方便快捷读取结构体里数个结构体内的数据 - 胡振东的博文...

    clc;clear;close all cd F:\01_DATA\Data_process\Glide load('Glide0.mat') % Glide0.mat里的Glide结构体有G1,G2 ...

  4. matlab nan 无色_科学网—Matlab 关于NaN值的填充 - 肖鑫的博文

    以前认为很麻烦的事往往一行命令就能搞定,代码如下 figure('position',[100 100 600 500],'PaperPositionMode', 'auto') m_proj('Sa ...

  5. endnote文件enl突然没了_科学网—实际操作中的Endnote库文件损坏修复方法 - 尹卓忻的博文...

    Endnote是保存文件的神器,将文献的详细信息输入标签之后,插入文献只用点一下.不过就算是神器也有掉链子的时候,有时内力不够,刚打开就跳出以下界面:    按对话框的信息,问题是可以通过重启恢复 , ...

  6. python读取tiff影像_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...

    (1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...

  7. pg数据库json数据类型_科学网—如何使用PostgreSQL中的JSONB数据类型(PG JSON系列2) - 孙鹏的博文...

    上一篇 使用PostgreSQL中的row_to_json()直接获得JSON(PG JSON系列1)主要针对现有的非json/jsonb类型如何输出json结果,这一篇主要写一下在数据库设计中直接使 ...

  8. python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...

    此文转载于XXXXXX处... Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数 ...

  9. python序列_科学网—Python:序列(字符串、列表、元组)和序列函数 - 刘洋洋的博文...

    Python中的序列,包括字符串(String).列表(List).元组(Tuple). 序列的索引 通过索引(index)访问及获得的序列的一个或多个元素,也叫切片. 正序: 0 到 N-1 倒序: ...

最新文章

  1. java原生封装_[Java教程]原生AJAX封装
  2. What happens when clicking interaction record work center?
  3. 2013-3-14 生活日记
  4. 输电线路巡检机器人PPT_国网泰安供电公司开展输电线路无人机精细化巡检
  5. Java 清除指定目录文件夹下文件
  6. Item 22: 当使用Pimpl机制时,在实现文件中给出特殊成员函数的实现
  7. JSP+JavaBean+Servlet工作原理实例讲解
  8. 哪些软件翻译英文文献比较准确呢?
  9. 操作系统死锁 四个必要条件
  10. 仿TT语音,语音游戏陪玩APP源码,社交属性强大
  11. 一杯免费咖啡引发的ERP上云思考
  12. MATLAB编程之PTB: 实验暂停
  13. python numpy 矩阵乘法以及列向量与行向量乘法
  14. 计算机专业学生社会实践,计算机专业学生社会实践报告
  15. Python Fitter 判断数据样本的分布函数拟合
  16. 游戏多开计算机内存不足,技术宅 解决天刀多开单开内存不足问题
  17. 使用树莓派3B、RTL-SDR、OpenWebRX搭建无线电监测站
  18. 什么平台制作表单工具效率高?
  19. 【设计模式】之适配器(Adapter)
  20. OneFlow 如何做静态图的算子对齐任务

热门文章

  1. Servlet 03
  2. 安卓Android基于百度云平台人脸识别学生考勤签到系统设计
  3. std::tuple、std::tie(可用于结构体大小比较)、std::pair用法
  4. 洛谷P2738 [USACO4.1]篱笆回路Fence Loops 题解
  5. 限制允许某些IP访问服务器
  6. Ruby学习记录 - 安装Ruby
  7. 包装类中Integer类最全详解
  8. 怎么提升工作能力?怎么制定计划?
  9. 智慧社区系统开发,智慧社区平台搭建解决方案
  10. 打开损坏的Word文档-word修复_目前只用过打开并修复