“远在天边,近在眼前”,距离是一个需要定义的概念,对距离进行量化需要一个合适的坐标参考体系。在诗句里,距离可以很浪漫,“世界上最遥远的距离,不是生与死的距离,不是天各一方,而是,我就站在你的面前,你却不知道我爱你”。在机器学习里,距离是严谨的,需要一个精确的公式来计算。

许多机器学习的常见算法都需要用到距离函数,即用于计算两个不同观测(obs)之间的距离。以癌症组织的转录组测序数据为例,不同的癌症样本即不同的观测,两个样本间的距离越短,意味着它们之间越相似,在各种非监督聚类算法中更容易被归为同一类。距离函数五花八门,欧氏距离应该算得上其中“最简单”和“最直观”的距离函数了。

在数学上,欧氏距离是欧氏空间里两点间的直线距离。在一个二维空间里,两个点p1和p2的坐标分别为(x1, y1), (x2, y2)。那么p1和p2的距离d(p1, p2)等于sqrt((x1-x2)2+(y1-y2)2)。同理,在一个三维空间里,两个点p1和p2的坐标分别为(x1, y1), (x2, y2) , (z2, z2)。那么p1和p2的距离d(p1, p2)等于sqrt((x1-x2)2+(y1-y2)2+(z1-z2)2)。简单的说,在二维和三维空间里,两个点间的距离就是它们在欧氏空间里的真实距离。事实上,两个数据点的情形就是毕达哥拉斯定理用两个直角边计算斜边的公式。

现实中,我们的数据维度往往高于三维。对于n维空间里的两个点p1和p2,它们的坐标分别为(p11, p12, …, p1n), (p21, p22, …, p2n)。这两个点的欧氏距离可以用如下公式定义:

这种距离公式有什么用呢?在非监督机器学习算法k-means聚类中,我们事先并不知道我们的观测(obs)应该属于哪个类别。距离公式对于这样的场景尤为重要。通常,我们随机选择n个数据中心,作为n个不同类别的“中心”;随后,其他观测将通过欧式距离公式定义的距离“就近”被分配到不同类别中。新的中心被计算,观测与新中心的距离重新计算,类别重新定义,不断迭代这个过程直至最终结果不再改变。

欧氏距离只是“一棵树”,它之外还有一片森林。感兴趣的可以安装R包philentrophy,里面有46种不同的距离算法可以调用。

参考文献

1.Drost HG. Philentropy: Information Theory and Distance Quantification with R. Journal of Open Source Software (2018).<doi:10.21105/joss.00765>
2.https://www.brandidea.com/kmeans.html

机器学习里的欧氏距离相关推荐

  1. 【机器学习基础】一文搞懂机器学习里的L1与L2正则化

    文章来源于SAMshare,作者flora 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化 ...

  2. halcon机器视觉算法原理与编程实战_快速弄懂机器学习里的集成算法:原理、框架与实战...

    作者:  博观厚积 简书专栏:https://www.jianshu.com/u/2f376f777ef1 1. 关于集成学习算法 集成学习算法,通俗地讲就是:三个臭皮匠,顶个诸葛亮,这在很多地方都有 ...

  3. 怎样搞定机器学习里的数学?斯坦福高手教你具体问题具体分析

    夏乙 栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI 做机器学习需要多少数学基础?这是很多初学者最关心的问题,答案也众说纷纭. 有人说,概率论线性代数要预先精通:有人说,微积分要懂一点:也 ...

  4. 清华大学计算机科学与技术系朱军教授:机器学习里的贝叶斯基本理论、模型和算法...

    雷锋网[AI科技评论]按:3月3日,中国人工智能学会AIDL第二期[人工智能前沿讲习班]在北京中科院自动化所举行,本期讲习班的主题为[机器学习前沿].周志华教授担任学术主任,前来授课的嘉宾均为中国机器 ...

  5. 清华大学计算机科学与技术系朱军教授:机器学习里的贝叶斯基本理论、模型和算法

    [转] http://www.leiphone.com/news/201703/djm3u9LLqylr3C8N.html 雷锋网[AI科技评论]按:3月3日,中国人工智能学会AIDL第二期[人工智能 ...

  6. 机器学习里的贝叶斯基本理论、模型和算法

    本文转自中国人工智能学会通讯第3期,已获授权,特此感谢! 欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至heyc@csdn.net 3月3日,中国人工智能学会AIDL第二期[人工智能前沿讲习 ...

  7. 机器学习里的bias的一些处理方法和思考

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:砍手豪 链接:https://zhuanlan.zhihu. ...

  8. 机器学习里的 kernel 是指什么?

    机器学习里的 kernel 是指什么? 先给个定义:核函数K(kernel function)就是指K(x, y) = <f(x), f(y)>,其中x和y是n维的输入值,f(·) 是从n ...

  9. 机器学习里的kernel是指什么?

    先给个定义:核函数K(kernel function)就是指K(x, y) = ,其中x和y是n维的输入值,f(·) 是从n维到m维的映射(通常而言,m>>n).是x和y的内积(inner ...

最新文章

  1. 录音降噪哪家强?搜狗西工大联合团队DNS挑战赛夺冠
  2. 每天一个linux命令(14):head 命令
  3. HarmonyOS之HiTrace日志跟踪定位分析
  4. Idea Maven报错找不到程序包
  5. python下载图片到文件夹_请教大佬:下载图片,运行后文件夹创立了,但里边没有图,为什么...
  6. Vue「五」—— 动态组件、插槽、自定义指令
  7. Maven公共仓库/镜像站收集及使用技巧
  8. 《iOS9开发快速入门》——第2章,第2.1节Xcode 7.0的新特性
  9. 解决H61、H81、B85以上的主板安装XP系统蓝屏
  10. 07 ,矩阵的转置,矩阵的行列式,方阵 ( 2阶行列式,3阶行列式,n 阶行列式 ) :
  11. Markdown语法大全
  12. 深信服虚拟化服务器,深信服虚拟化asv体验
  13. 首届华为开发者大赛沙龙牵手大连-与开发者共话赛事
  14. Revit打印工具 RevitPrinter
  15. Linux中升级GLIBC,终结版,测试通过
  16. 【数理统计】F检验与单因素方差分析
  17. nginx 如何使用rewrite
  18. 文件上传漏洞之——漏洞进阶(读文件,写文件,包含图片马,包含日志文件,截断包含)
  19. 【web学习之mysql】 mysql- 学习 - 城市选择
  20. MacOS对文件夹加密的方法

热门文章

  1. 学校计算机及网络保密总结,学校保密工作总结范文
  2. 测试软件之显示器测试-DisplayX
  3. 电商平台销量查询:2023年1月牛奶乳品热门排行榜
  4. 讨教大学|聊聊可靠性工程师的就业前景怎么样?
  5. 城市智慧灯杆管理云平台-星创易联
  6. 拒绝断网失联!卫星电话成为户外徒步、海洋通信等领域的必备终端
  7. ZooKeeper-3.3.4集群安装配置
  8. 校招 | 梅特勒托利多2023届校招
  9. 手机如何投屏到电视?苹果手机的3种投屏方法,5分钟全部搞定!
  10. Linux安装rar