范数与距离的关系以及在机器学习中的应用

1 范数

向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。

向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。

常用的向量的范数:
L1范数:  ||x|| 为x向量各个元素绝对值之和。
L2范数:  ||x||为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
Lp范数:  ||x||为x向量各个元素绝对值p次方和的1/p次方

L∞范数:  ||x||为x向量各个元素绝对值最大那个元素的绝对值,如下:

椭球向量范数: ||x||A  = sqrt[T(x)Ax], T(x)代表x的转置。定义矩阵C 为M个模式向量的协方差矩阵, 设C’是其逆矩阵,则Mahalanobis距离定义为||x||C’  = sqrt[T(x)C’x], 这是一个关于C’的椭球向量范数。

2 距离

欧式距离(对应L2范数):最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n维空间中两个点x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的欧氏距离:

也可以用表示成向量运算的形式:

曼哈顿距离:曼哈顿距离对应L1-范数,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的点P1与坐标(x2, y2)的点P2的曼哈顿距离为:,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。

切比雪夫距离,若二个向量或二个点x1和x2,其坐标分别为(x11, x12, x13, ... , x1n)和(x21, x22, x23, ... , x2n),则二者的切比雪夫距离为:d = max(|x1i - x2i|),i从1到n。对应L∞范数。

闵可夫斯基距离(Minkowski Distance)闵氏距离不是一种距离,而是一组距离的定义。对应Lp范数,p为参数。

闵氏距离的定义:两个n维变量(或者两个n维空间点)x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的闵可夫斯基距离定义为:

其中p是一个变参数。

当p=1时,就是曼哈顿距离,

当p=2时,就是欧氏距离,

当p→∞时,就是切比雪夫距离,

根据变参数的不同,闵氏距离可以表示一类的距离。

Mahalanobis距离:也称作马氏距离。在近邻分类法中,常采用欧式距离和马氏距离。

3 在机器学习中的应用

L1范数和L2范数,用于机器学习的L1正则化、L2正则化。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

其作用是:

L1正则化是指权值向量w中各个元素的绝对值之和,可以产生稀疏权值矩阵(稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. ),即产生一个稀疏模型,可以用于特征选择;

L2正则化是指权值向量w中各个元素的平方和然后再求平方根,可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。

至于为什么L1正则化能增加稀疏性,L2正则化能防止过拟合,原理可查看参考资料。

参考资料:

http://blog.csdn.net/v_july_v/article/details/8203674

http://blog.csdn.net/jinping_shi/article/details/52433975

范数与距离的关系以及在机器学习中的应用相关推荐

  1. 几种常用范数与距离的关系

    1 范数 向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离. 向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性|| ...

  2. 范数和机器学习中的范数

    什么是范数? 我们知道距离的定义是一个宽泛的概念,只要满足非负.自反.三角不等式就可以称之为距离.范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则.有时候为了便于理解,我们可以把范数 ...

  3. 欧几里得范数_浅谈机器学习中的范数

    机器学习中范数的广义定义: 一个范数是一个真实的向量空间V中的关于|| . ||的一个函数映射关系,其满足以下3个条件 (1)||x|| ≥ 0,当且仅当 x=0的时候等号成立 (2)||αx|| = ...

  4. 机器学习中的范数规则化之L0、L1、L2范数

    我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正. 本篇博客主要是为了解决机器学习中的过拟合 ...

  5. 机器学习中的距离公式

    1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为: (1)二 ...

  6. l2范数求导_理解L1,L2 范数在机器学习中应用

    理解L1,L2 范数 L1,L2 范数即 L1-norm 和 L2-norm,自然,有L1.L2便也有L0.L3等等.因为在机器学习领域,L1 和 L2 范数应用比较多,比如作为正则项在回归中的使用 ...

  7. 机器学习中的分类距离

    https://www.toutiao.com/a6710061523777094151/ 生活中,距离通常是用于形容两个地方或两个物体之间的远近.在人工智能机器学习领域,常使用距离来衡量两个样本之间 ...

  8. 机器学习中的数学基础(1)——向量和范数

    https://www.toutiao.com/i6668553958534939144/ 从今天开始,我将开设一个机器学习数学基础的系列.主要介绍机器学习中经常用到的那些数学知识,方便大家入门.一说 ...

  9. 欧几里得范数_机器学习中的范数究竟是个什么鬼?

    今天说一个深度学习和机器学习里面经常出现,但是未必人人都能 get 到直观感受的概念:范数,英文名叫 norm. 1.直观感受 本质上来讲,范数是用来衡量一个向量(vector)的规模的,我个人觉得中 ...

最新文章

  1. LeetCode实战:买卖股票的最佳时机 II
  2. IT人应该具备的几种技能
  3. PL/SQL连接oracle数据库
  4. PHP多进程之pcntl扩展的使用详解
  5. C/C++ 读取16进制文件
  6. java学习笔记之条件语句(if...else)
  7. Android官方开发文档Training系列课程中文版:后台服务之响应IntentService的处理结果
  8. UILabel和NSAttributedString那些事
  9. [net]ftp ssh http telnet https服务及端口
  10. 关于百万用户服务器架构能力(一)QQ游戏服务器架构
  11. ie11只能用管理员身份打开解决办法
  12. win10分屏快捷键无法使用_win10分屏快捷键如何使用
  13. 2020千月最新影视源码 对接苹果影视app小白零基础搭建视频教学可赚钱影视APP
  14. spring整合kaptcha验证码
  15. conda命令:管理包、管理环境
  16. ORA-12170:TNS:连接超时 详细解决方法
  17. C语言学习(十)C语言中的小数
  18. SOC 时钟源PLL锁相环详细介绍——IC设计时序逻辑的灵魂
  19. DIY多快充协议太阳能充电器!----快充协议实现原理
  20. VMware ESX 4.1版本,浏览器无法访问问题【已解决】

热门文章

  1. php+实现群发微信模板消息_php实现发送微信模板消息的方法,php信模板消息_PHP教程...
  2. 服务器如何安装虚拟声卡,虚拟声卡如何运作起来 分享介绍虚拟声卡安装使用方法...
  3. iptables 流量速率控制
  4. mysql查询不到邮件_mysql – sql查询通过电子邮件获取用户列表
  5. java 502错误,Spring Boot连接超时导致502错误的实战案例
  6. linux脚本获取当前用户,bash shell 获取当前正在执行脚本的绝对路径
  7. html语言剖析,HTML语言剖析(十三) 其他标记
  8. fmt打印不显示 go_golang打印输出fmt和log
  9. 故障模块名称kernelbase.dll_固定资产管理系统_资产分类名称(通讯导航有线电及测量仪器篇)...
  10. Centos 7 全网备份Rsync