机器学习原理篇:基础数学理论 Ⅱ

文章目录

  • 机器学习原理篇:基础数学理论 Ⅱ
    • 一、前言
    • 二、概率论
    • 三、数理统计
    • 四、最优化理论
      • 1、目标函数
      • 2、线性规划
      • 3、梯度下降法
    • 五、思考
      • 1、微积分的主要思想是什么?微积分中哪些主要概念与人工智能相关?
      • 2、如何理解线性代数的核心意义在于提供了一种看待世界的抽象视角?线性代数中的哪些内容能在人工智能中直接应用?
      • 3、在机器学习中,数理统计方法与概率论方法在对待离散数据时有何不同。
    • 六、最后我想说

一、前言

前面我们总结了有关微积分和线性代数的知识,本期我们继续总结有关概率论、数理统计以及最优化理论的知识。

二、概率论

概率论是研究随机先行数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。概率论是学习人工智能必备的数学知识。概率论已经替代了逻辑主义的功能,被广泛应用于人工智能算法研究。概率论代表了一种看待世界的方式,其关注的焦点是无处不在的可能性,对随机事件发生的可能性进行规范的数学描述是概率论的公理化过程。因此,机器学习算法中经常使用概率统计工具来解决不确定量或随机量。事件的概率是衡量该事件发生的可能性的度量。虽然在一次随机试验中某个事件的发生时带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

现阶段人工智能研究需要处理的行业信息、数据、资料等都爆发式增长,这使得概率统计成了机器学习的一个关键内容。概率论中,人们认为数据分布是固定不变的,参数要经过计算才能得知,而贝叶斯观念却认为数据分布具有随机性,参数要进行概率最大化后进行计算。

概率论中存在两个学派,即“频率学派”和“贝叶斯学派”。两种概率学派的核心区别在于对先验分布的认识。频率学派认为,假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓,因而在计算具体事件的概率时,要先确定概率分布的类型和参数,然后以此为基础进行概率推演。相比之下,贝叶斯学派则认为,固定的先验分布是不存在的,参数本身是随机数。换而言之,假设本身取决于观察结果,是不确定且可以修正的。数据的作用是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。

目前,很多机器学习算法是由概率统计的理论作为基础支撑推导出来的,比如代价函数的最小二乘形式、逻辑回归算法都基于对模型的最大似然估计。

概率论中的高斯函数及中心极限定理被广泛应用于人工智能算法。独立同分布的不同随机变量之和会随着变量数的增加而趋向于高斯分布,因此,很多模型假设都采用了高斯函数进行建模。

三、数理统计

在人工智能技术中,概率论与数理统计的知识占据重要的地位。数理统计理论有助于对机器学习算法和数据挖据的结果做出解释,只有做出百理的解1例,记X据Dw组方P比够体现。数理统计以概率论为基础,研究大量随机现家的统计规律性。根掂观宗头桠得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。

基础性的数理统计可以协助我们对机器学习算法及数据挖掘的结果进行统计、分析。只有经过科学、严谨的分析和处理,数据结果才能用于实际情况。这种数理统计可以迪过观察和研究,对数据、结果、信息做进一步纵回和横口的对比,同时进行科学的审查和预估,得出客观的结果。

尽管数理统计将概率作为理论来源,但两者之间有根本上的区别。概率论作用的前提是随机变量的分布已知,其根据已知的分布来分析随机变量的特征与规律﹔数理统计的研究对象则是分布未知的随机变量,其研究方法是对随机变量进行独立重复的观察,根据得到的观察结果对原始分布做出推断,数理统计可以看作逆向性的概率论。

若检验是通过随机抽取的样本来对一个总体的判断结果进行认可或否定,则可以将其用于估计机器学习模型的泛化能力。

四、最优化理论

人工智能的目标就是最优化,就是在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题最后都会归结为一个优化问题的求解,因此,最优化理论同样是学习、研究人工智能必备的基础知识。

最优化理论研究的问题是判定给定目标函数的最大值或最小值是否存在,并找到令目标函数取到最大值或最小值的数值。如果把给定的目标函数看成连绵的山脉,最优化的过程就是找到顶峰(谷底)且到达顶峰(谷底)的过程。

最优化理论的研究内容主要包括线性规划、(不)精确搜索、最速下降法、牛顿法、共辄梯度法、拟牛顿法、(非)线性最小二乘法、约束优化最优性条件、二次规划、罚函数法和信赖域法等。

1、目标函数

要实现最小化或最大化的函数称为目标函数,大多数最优化问题都可以通过使目标函数f(x)最小化解决,最大化间题也可以通过最小化f(x)来解决。实际的最优化方法可能找到的是目标函数的全局最小值,也可能是局部极小值,两者的区别在于全局最小值比定义域内所有其他点的函数值都小,而局部极小值只比所有邻近点的函数值小。

当目标函数的输入参数较多、解空间较大时,大多数实用的最优化方法都不能满足全局搜索对计算复杂度的要求,因而只能求出局部极小值。但是,在人工智能和深度学习的应用场景中,只要目标函数的取值足够小,就可以把这个值当作全局最小值使用,以此作为对性能和复杂度的折中。

2、线性规划

根据约束条件的不同,最优化问题可以被分为无约束优化和约束优化两类。无约束优化对自变量x的取值没有限制,约束优化则把x的取值限制在特定的集合内,也就是其要满足一定的约束条件。

典型的约束优化方法是线性规划,其解决的问题通常是在有限的成本约束下取得最大的收益。约束优化问题通常比无约束优化问题更加复杂,但通过引入拉格朗日乘子,可以将含有n个变量和k个约束条件的约束优化问题转化成含有n+k个变量的无约束优化问题。

3、梯度下降法

无约束优化问题最常用的方法是梯度下降法。梯度下降法是求解无约束优化问题最常用的方法,它是一种迭代方法。直观地说,梯度下降法就是沿着目标函数值下降最快的方向寻找最小值。当函数的输入为向量时,目标函数的图像就变成了高维空间上的曲面,此时的梯度就是垂直于曲面等高线并指向高度增加方向的向量,其携带了高维空间中关于方向的信息。而要让目标函数以最快的速度下降,就需要让自变量在负梯度的方向移动,用数学语言表示就是“多元函数沿其负梯度方向下降最快”。

梯度下降法实现简单,一般情况下,其解不保证是全局最优解。而当目标函数是凸函数时,梯度下降法的解是全局最优解。由于梯度下降法只用到目标函数的一阶导数,因而其下降的速度未必是最快的。

五、思考

1、微积分的主要思想是什么?微积分中哪些主要概念与人工智能相关?

微积分最重要的思想就是用"微元"与"无限逼近",好像一个事物始终在变化你不好研究,但通过微元分割成一小块一小块,那就可以认为是常量处理,最终加起来就行。 微积分学是微分学和积分学的总称。 它是一种数学思想,'无限细分’就是微分,'无限求和’就是积分。

在机器学习中,微积分主要用到了微分部分,作用是求函数的极值,就是很多机器学习库中的求解器所实现的功能,其中导数和偏导的定义与计算方法、梯度向量的定义、极值定理、泰勒展开式、拉格朗日乘数法等等都与人工智能相关。

2、如何理解线性代数的核心意义在于提供了一种看待世界的抽象视角?线性代数中的哪些内容能在人工智能中直接应用?

万事万物都可以被抽象成某些特征的组合,并在由预置规则定义的框架之下以静态和动态的方式加以观察。

标量、向量、张量:求模(大小)、向量夹角(点积或内积)、一个向量在另一向量上的投影以及依据自定义的轴向量对向量的描述和表示,矩阵、矩阵中的长度平方采样、奇异值分解、低秩逼近和SVD都能在人工智能中直接应用。

3、在机器学习中,数理统计方法与概率论方法在对待离散数据时有何不同。

这问题的答案有大佬知道吗?欢迎各位大佬前来评论,谢谢!

六、最后我想说

接下来我还会持续更新基础部分的内容,下期的内容是有关初等数学的知识。

谢谢阅读!期待得到你们支持!

机器学习原理篇:基础数学理论 Ⅱ相关推荐

  1. [机器学习-原理篇]学习之线性回归、岭回归、Lasso回归

    线性回归.岭回归.Lasso回归 前言 一,线性回归--最小二乘 二,Lasso回归 三,岭回归 四, Lasso回归和岭回归的同和异 五, 为什么 lasso 更容易使部分权重变为 0 而 ridg ...

  2. [机器学习-原理篇]支持向量机(SVM)深入理解

    支持向量机SVM 1,SVM概念 1.1 支持向量机包含三种: 2.准备知识 KKT条件 点到直线的距离 3. 线性可分支持向量机(hard margin) 线性可分支持向量机建立超平面: 函数间隔: ...

  3. Python3《机器学习实战》学习笔记(八):支持向量机原理篇之手撕线性SVM

    原 Python3<机器学习实战>学习笔记(八):支持向量机原理篇之手撕线性SVM 置顶 2017年09月23日 17:50:18 阅读数:12644 转载请注明作者和出处: https: ...

  4. 机器学习之LR算法理论和实战(实战篇)

    1. python 原生实现 这里的原生实现异常粗糙(没有正则项,随机梯度上升),就是上一篇 原理篇 的代码实现,数据集直接来自sklearn iris(3分类问题),另外,手工提出了0,1两类,仅做 ...

  5. ​产品经理如何学机器学习——一篇以产品为中心的机器学习概论

    我现在常常听说产品负责人/经理.技术经理和设计师通过网上课程学习机器学习.我一直鼓励这种做法--实际上,我本人曾学习过那些课程(并且在博客上发表了相关内容). 但是,对于某些希望从事机器学习产品设计. ...

  6. 学习机器学习,究竟是理论重要,还是公式推导重要?

    随着近几年机器学习的火爆,其从业门槛也越来越高,以至于出现面试者需要现场手推对数几率回归和手写反向传播代码的情况.不论是对机器学习本身的研究,还是岗位的需求,都需要我们对算法有很深的了解,对公式本质有 ...

  7. 机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测

    机器学习 聚类篇--DBSCAN的算法原理.参数选择及其应用于离群值检测 摘要 1. DBSCAN算法原理 1.1 基本概念定义 1.2 算法流程 2. 参数选择 2.1 领域半径:Eps的选取方法( ...

  8. 原理篇 | 推荐系统之矩阵分解模型

    导语:本系列文章一共有三篇,分别是 <科普篇 | 推荐系统之矩阵分解模型> <原理篇 | 推荐系统之矩阵分解模型> <实践篇 | 推荐系统之矩阵分解模型> 第一篇用 ...

  9. 【原理篇】推荐系统之矩阵分解模型

    导语: 上次给大家分享了本系列文章第一篇<[科普篇]推荐系统之矩阵分解模型>,第一篇用一个具体的例子介绍了MF是如何做推荐的.今天给大家带来第二篇<[原理篇]推荐系统之矩阵分解模型& ...

最新文章

  1. vscode 集成终端改成cmd模式
  2. How to get information of all attachments belonging to a given appointment
  3. 华东理工计算机与金融专业,2019年华东理工大学各专业录取分数线
  4. 关于 SQL Server Analysis Services
  5. mysql的select的排序_mysql数据分组和排序及SELECT子句顺序
  6. 51黑单片机论坛c语言,51黑论坛_51单片机轻松入门—基于STC15W4K系列
  7. excel删除无尽空白行_如何在EXCEL中隔行插入空行与批量删除空行
  8. A4打印时宽高mm对应像素px
  9. POJ 1062 昂贵的聘礼【经典的最短路问题】
  10. 2018校招携程测评,赞RP
  11. Gunicorn配置详解
  12. 辨析:分段函数是不是初等函数?
  13. 表白代码制作(附源码)
  14. CMMI2.0之我见-管理性能和度量MPM
  15. 【MATLAB教程案例12】基于GA遗传优化算法的函数极值计算matlab仿真及其他应用
  16. ADSL常见网络故障及排除
  17. 2016中国大数据技术大会在北京盛大召开
  18. 攻防世界_Crypto_sherlock
  19. 小米十年,做不好售后
  20. 石油工业计算机应用是核心期刊吗,石油工业计算机应用杂志 征稿

热门文章

  1. 容积式水表与速度式水表对比
  2. python小工具之pdf转excel
  3. 有没有便宜的易优cms授权(易优cms授权便宜获取)
  4. 科兴未来-2022年下半年宁波市镇海区“雄镇英才”高端项目引进公告
  5. Java - 批量录入Excel数据优化 (一)
  6. 对接腾讯企业邮箱(授权免登,获取未读邮件数量)
  7. [STM32] Mac开发STM32之Makefile
  8. 通过java遍历文件夹的文件并通过条件筛选
  9. UnityShader Reversed-Z的理解
  10. 小黑重装WIFI之解 - 硬件无线电已关闭 802.11无线通信 禁用状态无法启用