additive tree
衡量相似性通常有2中做法:
1 spatial model: 计算点间的距离, 夹角等
2 network model: ultrametric tree, additive tree.
additive tree与ultrametric tree的不同之处是, additive有如下特性:
1) 类内距离可能大于类间距离
2) 外部点到类中点的距离不一样。 a, b属于D, ac != bc
3) ultra tree中所有叶节点到根等距离, 但additive tree不是。 additive tree中距离不依赖于root, 可以表示成unroot的形式
S记为点的距离矩阵(对称的,对角线为0), 如果S中任意3点x,y,z满足 d(x,y) <= max{d(x,z), d(y,z)}则称为ultrametric inequility
如果任意4点x,y,u,v满足d(x,y)+d(u,v) <= max{ d(x,u)+d(y,v), d(x,v)+d(y,u)} 则称为additive inequility
tight cluster, if A of S:
max d(x,y) < min d(x, z), x, y in A, z in S-A
loose cluster, if A of S:
d(x,y) + d(u,v) < min{d(x,u)+d(y,v), d(x,v)+d(y,u)}; x,y in A, u, v in S-A
additive tree是 loose cluster
=======================================20100810===============================
additive tree中有三类距离
Dij, 应用的输入、观测到的;
Lij, i、j之间的branches之和; i,j不可能同时为两个叶节点
Sij, i、j为nearest neighbour时,整个additive tree的所有branches的和. S的计算公式为:
S12 = sigma(D1k+D2k)/(2n-2) + D12/2 + sigma(Dij)/(n-2); i,j,k不为1,2;且i < j
每次挑选Sij最小的ij做为nearest neighbour; 然后更新D矩阵:
D(i-j)k = (Dik + Djk)/2
得到最小的S(假设S12最小),以及更新了D之后, 再来衡量L1x, L2x; x为内部节点,1、2的parent
L1x=(D12+D1z-D2z)/2, L2x=(D12+D2z-D1z)/2
D1z=sigma(D1i)/(n-2), D2z=sigma(D2i)/(n-2); i 不为1、2; z表示不包含1、2的其他所有节点
========??=========可是至此为止, L并没有用。 该算法复杂度为o(n**5). 计算Sij需要N**2; 需要计算N**2个Sij; 需要迭代N轮。
studier & keppler 使用Mij代替Sij, 保证两者同时取到最小值, 复杂度O(N**3)
Mij = Dij - (ri + rj)/(N-2). ri = sigma(dik) 第i行的d之和。 这种算法称作simleNJ, 复杂度o(N**3)
假设M12最小, x为1、2合并后的parent,也就是新节点:
此时, L1x = D12/2 + (r1-r2)/(2n-2), L2x = D12 - L1x
更新D:
Dkx = (D1k + D2k - D12)/2; k为不是1、2的其他节点
还有一种rapidNJ, 复杂度在o(N**2 * logn)
additive tree相关推荐
- 【论文阅读】查询搜索中的安全和效率权衡(ACM 10.1145)
英文标题: Privacy and Efficiency Tradeoffs for Multiword Top K Searchwith Linear Additive Rank Scoring 中 ...
- LeetCode Additive Number(递归)
问题:给出一个字符串,问组成它的数字是否可以形成累加序列.序列至少包含32上数,除了最开始的两个数外,字符串中的其他数等于前两个数之和.字符串只包含0-9,同时数字不能以0开头. 思路:先检测前两个数 ...
- GBDT(Gradient Boosting Decision Tree
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由 ...
- Boosted Tree:一篇很有见识的文章
Boosted Tree:一篇很有见识的文章 6,125 次阅读 - 文章 作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究. 注解:truth4sex 编者按: ...
- Gradient Boosting Decision Tree学习
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple ...
- 机器学习算法总结之Boosting:Boosting Tree、GBDT
写在前面 上一篇 机器学习算法总结之Boosting family:AdaBoost 提到Boost但是没说它的整个框架及分类,在这里记一下. Boosting(提升方法) = 加法模型 + 前向分步 ...
- 机器学习中的算法:决策树模型组合之GBDT(Gradient Boost Decision Tree)
转载自:http://blog.csdn.net/holybin/article/details/22914417 前言 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速 ...
- 提升树(Boosting tree)算法总结
提升树(Boosting tree)算法总结 发表于 2018-05-20 | 分类于 机器学习 | 浏览 K 本文是综合了之前的以往多个笔记汇总而成,内容包含: 一.Boosting基本概念 二.前 ...
- 【可解释机器学习】Shapley Values and SHAP (SHapley Additive exPlanations)
Introduction 在这一章节首先我们介绍什么是shapley value(夏普利值)和什么是SHAP.接下来先从原理上解释shapley的数学原理. for example 假设以下场景:你训 ...
最新文章
- AI 医生正式上岗了?AI 医疗结合迎爆发点!
- 为什么输出流会有一个flsh_交流会| “流量”还是“留量”,如何成为电商风口上的赢家?...
- 180608-Git工具之Stash
- 非maven配置SpringBoot框架
- MATLAB 在图像处理和机器视觉的应用举例01 - 官网培训视频笔记(上)-- 图像分割和图像配准
- 卡西欧计算机怎么传程序,卡西欧计算器程序传输软件fa-124的使用方法
- python代替shell脚本_自动化shell脚本except与python的pexpect模块
- 论文阅读笔记(一)——DESCENDING THROUGH A CROWDED VALLEY—BENCHMARKING DEEP LEARNING OPTIMIZERS
- Atitit避免出现空指针异常解决方案
- 【学习笔记】Nake Statistics
- 【Android Studio使用教程2】Android Studio创建项目
- 六西格玛dfss_六西格玛设计DFSS.pdf
- freeswitch ws php,针对FreeSwitch的呼叫中心接口
- 史上最全面的苏州工业园区虚拟住房补贴申请攻略
- 计算机存储的发展(块存储,文件存储,对象存储)
- 软件质量管理体系 type:pdf_荆门医疗器械软件注册价格,三类医疗器械注册_上海峦灵...
- 石墨笔记,Onenote,Effie哪个更适合评论家?
- HDLBits 系列(7)——Sequential Logic(Counters、Shift Registers、More Circuits)
- 电脑远程qq怎么连接服务器未响应,win10系统打开qq提示未响应需要联机检查的还原技巧...
- 孢子2 java_孢子2之生物陆地进化