Similarity Forests

相似森林

Saket Sathe IBM T. J. Watson Research Center  YorktownHeights, NY 10598

Charu C. Aggarwal  IBM T. J. Watson Research Center  Yorktown Heights, NY 10598

KDD’17, August 13–17,2017, Halifax, NS, Canada

本文讲了什么问题?

随机森林因其精确性和效率性,已经成为数据挖掘中最成功的分类算法之一;但是它的运用主要局限于多维数据中。本文提出了一种扩展随机森林的方法---随机森林,只要数据对象之间有相似之处就可以在数据对象之间进行计算。例如在很多应用数据中,像时间系列数据、离散序列或图中,高维表达也许是不存在的;但相似函数计算的问题已经得到很好的研究,并且有可能计算数据对象之间的相似性。但在很多领域中,计算相似性耗费耗时;因此本文也提出了将对象之间的距离转化为相似性的想法。

解决问题方法

SIMFOREST算法

假设对象 O1 . ..On 可以嵌入一些多维空间作为点X(—)1 . . .X(—)n.,SimForest方法在数据对象中随机找到一对来确定一个方向,再把其他数据对象映射到这个方向上,通过方向上的相似分割点划分数据对象。如下图所示:

1.如上图所示,选择了X(—)i,X(—)j来确定一个方向,而其他点在这个方向上的投影如下计算:例如数据对象Ok在方向上的投影:

S代表相似度

2.分割点a的选择标准是它最小化子节点的加权基尼指数:

一个节点N的基尼指数为:

当N被分为两个子节点N1和N2,那么加权基尼指数为:

数据对象Ok归于决策树中的哪条路径要看是否:

第九篇论文读后总结-相似森林相关推荐

  1. 读8篇论文,梳理BERT相关模型进展与反思

    作者 | 陈永强 来源 |  微软研究院AI头条(ID:MSRAsia) [导读]BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒.随后 ...

  2. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale推荐 作者:Richmond Alake,来源:机器之心 在科研领域中,读论文 ...

  3. 读论文七步走!CV老司机万字长文:一篇论文需要读4遍

      视学算法报道   编辑:LRS [新智元导读]读论文对于AI新手和工程师来说可能是一件比较难的事.最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅 ...

  4. 覆盖近2亿篇论文还免费!沈向洋旗下团队「读论文神器」登B站热搜

      视学算法报道   编辑:小咸鱼 好困 [新智元导读]无意中发现B站上有个叫ReadPaper的在线论文阅读笔记神器冲上了热榜!ReadPaper由沈向洋博士创办的IDEA旗下团队研发,其收录了近2 ...

  5. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文

    选自Medium 作者:Richmond Alake 机器之心编译 参与:杜伟.小舟.魔王 在科研领域中,读论文大概是大家的日常基本操作了.但如何读论文,才能实现效率最大化呢?斯坦福大学教授吴恩达在斯 ...

  6. 【转】如何读一篇论文

    转载,原文地址 第一遍阅读看结构. 第二遍阅读看内容,不是细节.(写调研看到这里) 第三遍阅读看细节,复现.在复现过程序中学习论文中的没有说明的条件和假设.(重要) 重新看到了走向秃顶的路. 原文下载 ...

  7. 不明觉厉!用了近10年,才有人读懂这篇论文

    绘图:Andreas de Santis 来源:环球科学 "数学物理开放问题"网站列出了数学物理领域最令人费解的13道难题.对科学家来说,解开其中任意一题,都是至高无上的荣誉.10 ...

  8. 这33篇区块链必读论文, 读过5篇以上的竟不到1%

    作者 | Bhaskar Krishnamachari 译者 | Guoxi 责编 | Aholiab 出品 | 区块链大本营(blockchain_camp) 区块链行业中,很多开发者都是半路出家的 ...

  9. 读Google三篇论文有感

    读Google三篇论文有感 在这一个星期内,我认真读了谷歌的三篇重要论文,下面是我的读后感.这三篇论文分别是Google FS.MapReduce.Bigtable.Google没有公布这三个产品的源 ...

最新文章

  1. MySQL 学习笔记(4)— 组合查询、子查询、插入数据、更新/删除表数据、增加/删除表中的列以及重命名表
  2. java查询mysql装载bean_jsp与javabean链接mysql数据库并查询数据表的简单实例源码
  3. vc应用CPictureEx类(重载CStatic类)加载gif动画
  4. 生产制造类企业从企业邮箱切换到自建系统的方案
  5. vmware-安装vmware tools教程190915
  6. 4.7 什么是深度卷积网络?
  7. Entity Framework(EF)数据查询
  8. 如何批量下载《大数据分析实用技术案例》的学习视频
  9. Composite(组合)
  10. excel模板 基金账本_专项基金拨款记录EXCEL图表
  11. 69、【backtrader期货策略】十大经典策略之Dual Thrust策略(2021-10-28更新)
  12. 显微镜C接口_激光共聚焦扫描显微镜搭建DIY
  13. w ndows英文读音,英语名词变复数的发音规则
  14. 【Android】实现自定义标题栏
  15. glusterfs:Server-quorum和Client Quorum
  16. wps 的直接登录URL
  17. 灯具如何利用网络打造品牌品牌实现销售增长?
  18. Z-STACK之cc2530LED驱动详解
  19. Redis集群搭建失败 connected_slaves:0
  20. list序列化为string存入数据库

热门文章

  1. dwz使用mysql_Dwz_group
  2. java trim函数的使用方法_java trim的用法实例详解
  3. J0ker的CISSP之路:How CISSP(2)
  4. linux_bash/zsh ls(dircolor)_文件夹背景颜色去除(绿色背景)(fit to wsl)(simple solution)
  5. 幼儿园教案我和计算机比本领,幼儿园说课稿:比本领
  6. OriginPro2021安装注意事项(详细)
  7. 读书笔记008:《伤寒论》- 手太阳小肠经
  8. cocos2dx系列--颜色混合BlendFunc
  9. 语言与区域设置ID (Language ID、Locales ID / LCID)
  10. Android Binder机制浅析及AIDL的使用