additive tree

衡量相似性通常有2中做法：

1 spatial model: 计算点间的距离，夹角等

2 network model: ultrametric tree, additive tree.

additive tree与ultrametric tree的不同之处是， additive有如下特性：

1) 类内距离可能大于类间距离

2) 外部点到类中点的距离不一样。 a, b属于D， ac != bc

3) ultra tree中所有叶节点到根等距离，但additive tree不是。 additive tree中距离不依赖于root，可以表示成unroot的形式

S记为点的距离矩阵（对称的，对角线为0），如果S中任意3点x,y,z满足 d(x,y) <= max{d(x,z), d(y,z)}则称为ultrametric inequility

如果任意4点x,y,u,v满足d(x,y)+d(u,v) <= max{ d(x,u)+d(y,v), d(x,v)+d(y,u)} 则称为additive inequility

tight cluster, if A of S:

max d(x,y) < min d(x, z), x, y in A, z in S-A

loose cluster, if A of S:

d(x,y) + d(u,v) < min{d(x,u)+d(y,v), d(x,v)+d(y,u)}; x,y in A, u, v in S-A

additive tree是 loose cluster

=======================================20100810===============================

additive tree中有三类距离

Dij，应用的输入、观测到的；

Lij， i、j之间的branches之和； i,j不可能同时为两个叶节点

Sij, i、j为nearest neighbour时，整个additive tree的所有branches的和. S的计算公式为：

S12 = sigma(D1k+D2k)/(2n-2) + D12/2 + sigma(Dij)/(n-2); i,j,k不为1,2；且i < j

每次挑选Sij最小的ij做为nearest neighbour; 然后更新D矩阵：

D(i-j)k = (Dik + Djk)/2

得到最小的S（假设S12最小），以及更新了D之后，再来衡量L1x, L2x; x为内部节点，1、2的parent

L1x=(D12+D1z-D2z)/2, L2x=(D12+D2z-D1z)/2

D1z=sigma(D1i)/(n-2), D2z=sigma(D2i)/(n-2); i 不为1、2; z表示不包含1、2的其他所有节点

========？？=========可是至此为止， L并没有用。该算法复杂度为o(n**5). 计算Sij需要N**2; 需要计算N**2个Sij; 需要迭代N轮。

studier & keppler 使用Mij代替Sij，保证两者同时取到最小值，复杂度O(N**3)

Mij = Dij - (ri + rj)/(N-2). ri = sigma(dik) 第i行的d之和。这种算法称作simleNJ, 复杂度o(N**3)

假设M12最小, x为1、2合并后的parent，也就是新节点：

此时， L1x = D12/2 + (r1-r2)/(2n-2), L2x = D12 - L1x

更新D：

Dkx = (D1k + D2k - D12)/2； k为不是1、2的其他节点

还有一种rapidNJ, 复杂度在o(N**2 * logn)

additive tree相关推荐

【论文阅读】查询搜索中的安全和效率权衡（ACM 10.1145）
英文标题: Privacy and Efficiency Tradeoffs for Multiword Top K Searchwith Linear Additive Rank Scoring 中 ...
LeetCode Additive Number(递归)
问题:给出一个字符串,问组成它的数字是否可以形成累加序列.序列至少包含32上数,除了最开始的两个数外,字符串中的其他数等于前两个数之和.字符串只包含0-9,同时数字不能以0开头. 思路:先检测前两个数 ...
GBDT(Gradient Boosting Decision Tree
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由 ...
Boosted Tree：一篇很有见识的文章
Boosted Tree:一篇很有见识的文章 6,125 次阅读 - 文章作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究. 注解:truth4sex 编者按: ...
Gradient Boosting Decision Tree学习
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple ...
机器学习算法总结之Boosting：Boosting Tree、GBDT
写在前面上一篇机器学习算法总结之Boosting family:AdaBoost 提到Boost但是没说它的整个框架及分类,在这里记一下. Boosting(提升方法) = 加法模型 + 前向分步 ...
机器学习中的算法：决策树模型组合之GBDT（Gradient Boost Decision Tree）
转载自:http://blog.csdn.net/holybin/article/details/22914417 前言决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速 ...
提升树（Boosting tree）算法总结
提升树(Boosting tree)算法总结发表于 2018-05-20 | 分类于机器学习 | 浏览 K 本文是综合了之前的以往多个笔记汇总而成,内容包含: 一.Boosting基本概念二.前 ...
【可解释机器学习】Shapley Values and SHAP (SHapley Additive exPlanations)
Introduction 在这一章节首先我们介绍什么是shapley value(夏普利值)和什么是SHAP.接下来先从原理上解释shapley的数学原理. for example 假设以下场景:你训 ...

additive tree

additive tree相关推荐

最新文章

热门文章