摘要

识别大型数据集中变量对之间的有趣关系变得越来越重要。在这里，我们提出了两个变量关系的依赖性度量：最大信息系数（MIC）。 MIC 捕获了功能性和非功能性的广泛关联，并且对于功能性关系提供的分数大致等于数据相对于回归函数的决定系数 (R2)。 MIC 属于更大类的基于最大信息的非参数探索 (MINE) 统计，用于识别和分类关系。我们将 MIC 和 MINE 应用于全球健康、基因表达、大联盟棒球和人类肠道微生物群的数据集，并确定已知和新的关系。

引入

想象一个包含数百个变量的数据集，其中可能包含重要的、未被发现的关系。有数以万计的变量对——太多了，无法手动检查。如果您还不知道要搜索什么样的关系，您如何有效地识别重要的关系？这种规模的数据集在基因组学、物理学、政治学和经济学等不同领域越来越普遍，这使得这个问题成为一个重要且不断增长的挑战。
开始探索大型数据集的一种方法是搜索密切相关的变量对。为此，我们可以计算每对的依赖程度，按分数对它们进行排名，并检查得分最高的对。为了使这种策略发挥作用，我们用来衡量依赖性的统计数据应该具有两个启发式属性：普遍性和公平性。
概括地说，我们的意思是，如果样本量足够大，统计数据应该捕捉到广泛的有趣关联，不限于特定的函数类型（如线性、指数或周期性），甚至不限于所有函数关系。后一种情况是可取的，因为不仅关系采用许多函数形式，而且许多重要的关系——例如，函数的叠加——不能很好地由函数建模 (4-7)。
通过公平性，我们的意思是统计数据应该对不同类型的同样嘈杂的关系给出相似的分数。例如，我们不希望嘈杂的线性关系从列表顶部驱动强正弦关系。
一般而言，公平性很难对关联进行形式化，但在函数关系的基本情况下有一个清晰的解释：公平表统计应该为具有相似 R2 值的函数关系提供相似的分数（给定足够的样本量）。
在这里，我们描述了一个探索性数据分析工具，即最大信息系数 (MIC)，它满足这两个启发式属性。我们通过证明建立 MIC 的普遍性，通过模拟展示其在函数关系上的公平性，并观察到这转化为更普遍的关联上的直观公平行为。此外，我们说明 MIC 产生了更大的统计家族，我们将其称为 MINE，或基于最大信息的非参数探索。
MINE 统计不仅可以用来识别有趣的关联，还可以根据非线性参数和单调性等属性来表征它们。我们展示了 MIC 和 MINE 在健康、棒球、基因组学和人类微生物群中的数据集的应用。

最大信息系数。直观地说，MIC 是基于这样一种思想，即如果两个变量之间存在关系，则可以在两个变量的散点图上绘制一个网格，将数据分区以封装该关系。因此，为了计算一组双变量数据的 MIC，我们探索所有网格直到最大网格分辨率，这取决于样本大小（图 1A），计算每对整数 (x,y) 中最大的通过应用于数据的任何 x-by-y 网格可实现的可能的相互信息。然后我们对这些互信息值进行归一化，以确保不同维度网格之间的公平比较，并获得 0 和 1 之间的修改值。我们定义特征矩阵 M = (mx,y)，其中 mx,y 是由任何 x-by-y 网格实现的最高归一化互信息，统计量 MIC 是 M 中的最大值（图 1，B 和 C）。

更正式地说，对于一个网格 G，让 IG 表示概率分布的互信息在 G 的盒子上引起的归因，其中盒子的概率与落在盒子内的数据点的数量成正比。特征矩阵的第 (x,y) 项 mx,y 等于 max{IG}/log min{x,y}，其中最大值取自所有 x-by-y 网格 G。MIC 是 mx,y 在有序对 (x,y) 上的最大值，使得 xy < B，其中 B 是样本大小的函数；我们通常设置 B=n0.6（参见 SOM 第 2.2.1 节）图 2. MIC 与现有方法的比较 (A) 几种不同统计数据对各种无噪声函数关系的评分 (8, 12, 14, 19)。
每列中的最高分数被强调。（B 到 F）MIC、Spearman 相关系数、互信息（Kraskov 等人估计器）、最大相关性（使用 ACE 估计）和基于主曲线的 CorGC 依赖性测量，分别与 27 种不同的函数关系添加独立的均匀垂直噪声，因为数据相对于无噪声函数的 R2 值会发生变化。每种形状和颜色对应于函数类型和样本大小的不同组合。在每个图中，成对的缩略图显示了获得相同分数的关系；对于数据探索，我们希望这些对具有相似的噪声水平。有关这些图中的函数和样本大小的列表以及具有其他统计数据、样本大小和噪声模型的版本，请参见图。 S3 和 S4。 (G) MIC 在没有被函数很好地建模的关联上的性能，因为噪声水平会发生变化。有关其他统计数据的性能，请参见图。 S5 和 S6。
M 的每个条目都介于 0 和 1 之间，MIC 也是如此。由于互信息的对称性，MIC也是对称的[即MIC(X, Y) = MIC(Y, X)]，并且由于IG仅取决于数据的秩顺序，因此MIC在顺序下是不变的- 保留轴的变换。值得注意的是，尽管互信息用于量化每个网格的性能，但 MIC 并不是互信息的估计（SOM 第 2 节）。
为了计算 M，我们理想地优化所有可能的网格。为了计算效率，我们改为使用动态规划算法，该算法在可能的网格的子集上进行优化，并且在实践中似乎很好地逼近了 MIC 的真实值（SOM 第 3 节）。
MIC的主要特性。我们已经在数学上证明了 MIC 在上述意义上是通用的。我们的证明表明，随着样本量的增加，概率接近 1，（i）MIC 将趋向于 1 的分数分配给所有从不恒定的无噪声函数关系； (ii) MIC 对较大类别的无噪声关系（包括无噪声函数关系的叠加位置）分配趋于 1 的分数； (iii) MIC 将趋于 0 的分数分配给统计独立变量。
具体来说，我们已经证明，对于一对随机变量 X 和 Y，(i) 如果 Y 是 X 在任何开区间上都不是常数的函数，那么从 (X,Y) 中提取的数据将获得 MIC 趋向随着样本量的增加，概率为 1； (ii) 如果 (X,Y ) 的支持由形式为 c(t)=[x(t),y(t)] 的可微分曲线的有限联合来描述，对于 t 在 [0,1] 中，则如果 dx/dt 和 dy/dt 在有限多个点上均为零，则从 (X,Y ) 中提取的数据将收到一个 MIC 趋向于 1，随着样本量的增加，概率为 1； (iii) 当且仅当 X 和 Y 在统计上独立时，从 (X,Y) 提取的数据的 MIC 随着样本量的增加而收敛到零的概率。我们还证明了噪声函数关系的 MIC 从下方受其 R2 的函数限制。
（有关证明，请参阅 SOM。）我们通过模拟测试了 MIC 的公平性。这些模拟证实了数学结果，即无噪声函数关系（即 R2 = 1.0）获得接近 1.0 的 MIC 分数（图 2A）。他们还表明，对于具有不同样本大小、噪声水平和噪声模型的大量测试函数集合，MIC 大致等于相对于每个相应无噪声函数的确定系数 R2。这使得解释和比较各种函数类型的分数变得容易（图 2B 和图 2）。
S4)。例如，在合理的样本量下，噪声水平为 R2 = 0.80 的正弦关系和具有相同 R2 值的线性关系获得几乎相同的 MIC 分数。对于没有很好地由函数建模的各种关联，我们还表明，随着噪声的添加，MIC 分数会以直观的方式下降（图 2G 和图 S5 和 S6）。
与其他方法的比较。我们将 MIC 与多种方法进行了比较——包括围绕 Rényi (8) 开发的依赖度量公理框架制定的方法、其他最先进的依赖度量以及几种非参数曲线估计技术可用于根据变量对估计曲线的拟合程度对变量对进行评分

Detecting Novel Associations in Large Data Sets
David N. Reshef et al.
Science 334, 1518 (2011);
DOI: 10.1126/science.1205438

Detecting Novel Associations in Large Data Sets（检测大型数据集中的信息关联性，数据相关性）相关推荐

检测和识别机动车驾驶证信息OCR
文章目录前言接口文档 1.描述 2.调用URL 3.调用方法 4.请求体格式 5.请求参数 6.返回值说明 7.main数组和second数组中单个元素的结构 8.返回值示例 9. 当前API特有 ...
轨迹压缩文献阅读 TrajStore: An Adaptive Storage System for Very Large Trajectory Data Sets
论文:TrajStore: An adaptive storage system for very large trajectory data sets 概述 TrajStore是一种存储系统,它被设 ...
基于网络的入侵检测数据集研究综述（A Survey of Network-based Intrusion Detection Data Sets）
A Survey of Network-based Intrusion Detection Data Sets 基于网络的入侵检测数据集研究综述摘要:标记数据对于基于异常的网络入侵检测系统的训练和评 ...
The writeAsCsv() method can only be used on data sets of tuples.
故障代码: DataSet<Sales> ds2=env.readCsvFile(inPath).lineDelimiter("\n").fieldDelimiter( ...
【Elasticsearch】Data too large, data for which is larger than the limit of
1.概述参考:elasticsearch报Data too large异常处理在线上ES集群日志中发现了如下异常,elasticsearch版本为7.3.2 [2021-03-16T21:05:1 ...
文献记录(part107)--Detecting Meaningful Clusters From High-Dimensional Data ...
学习笔记,仅供参考,有错必纠博客阅读索引:博客阅读及知识获取指南文章目录 Detecting Meaningful Clusters From High-Dimensional Data: A S ...
[fielddata] Data too large, data for [_id] would be [13181907968/12.2gb]
问题描述使用ES search after查询报如下错误,fielddata缓存熔断异常. org.frameworkset.elasticsearch.ElasticSearchException ...
点云配准论文阅读笔记--Comparing ICP variants on real-world data sets
目录写在前面点云配准系列摘要 1引言(Introduction) 2 相关研究(Related work) 3方法( Method) 3.1输入数据的敏感性 3.2评价指标 3.3协议 4 模块 ...
kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享
kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享今天kaggle Talking Data结束了,开榜前踩着金牌最后一名提心吊胆,最后虽然选的结果是第7好的,但还是前进 ...
（两百八十八）Android R data stall检测机制学习
1.简介 data stall检测机制就我现在的理解看来是Android 在网络校验成功后,对网络的一种持续监控措施,一旦发现当前网络断网,则通知ConnectivityService,进行相应的处理 ...

Detecting Novel Associations in Large Data Sets（检测大型数据集中的信息关联性，数据相关性）

摘要

引入

Detecting Novel Associations in Large Data Sets（检测大型数据集中的信息关联性，数据相关性）相关推荐

最新文章

热门文章

Detecting Novel Associations in Large Data Sets（检测 大型数据集中的信息关联性，数据相关性）

摘要

引入

Detecting Novel Associations in Large Data Sets（检测 大型数据集中的信息关联性，数据相关性）相关推荐

最新文章

热门文章

Detecting Novel Associations in Large Data Sets（检测大型数据集中的信息关联性，数据相关性）

Detecting Novel Associations in Large Data Sets（检测大型数据集中的信息关联性，数据相关性）相关推荐