1 高等数学

内容大部分参考自https://blog.csdn.net/v_JULY_v/article/details/8308762

1.1 微积分

微积分是概数统计基础,概数统计则是DM&ML之必修课。

1.1.1 极限

极限分为数列的极限和函数的极限。

  • 数列的极限

  • 函数的极限

极限和极值的区别:

可见函数的每个点上都可能有极限但是一般而言极值和最值在某个区间(全局)上才存在一个,区别还是比较大的。

1.1.2 导数

导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f′(x)f^{'}(x)f′(x)或dydx\frac{dy}{dx}dxdy​。

导数是函数的局部性质。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。导数的本质是通过极限的概念对函数进行局部的线性逼近。例如在运动学中,物体的位移对于时间的导数就是物体的瞬时速度。

导数指的是一个点,导函数指的是连续的导数点构成的函数。

  • 常见函数求导:

  • 复合函数求导:

  • 链式法则

  • 一阶导数求增减,二阶导数求凹凸,三阶导数求偏度

1.1.3 微分

微分和导数在某种意义上是等价的,但是微分通常更适合用来做高阶替代,比如说泰勒展开。

知乎回答

1.1.4 积分

  • 不定积分

    一个函数的不定积分,也称为原函数或者反导数:

  • 定积分

    给定一个正实值的函数f(x)f(x)f(x),在一个实数区间[a,b][a,b][a,b]上的定积分:

定积分和不定积分的区别在于不给定区间。即,不定积分的定义域是整个定义域,而定积分是部分区间。

  • 积分中值定理:假设函数f(x)f(x)f(x)在闭区间[a,b][a,b][a,b]上连续,则在积分区间至少存在一个点使得下式成立

  • 牛顿-莱布尼茨公式

这个公式打通了原函数与定积分之间的联系。这是一个非常有效的降维手段。

​ 可参考微积分到底是什么?

1.2 泰勒公式

泰勒公式可以用若干项连加式来表示一个函数,这些相加的项由函数在某一点的导数求得。

可参考怎样更好地理解并记忆泰勒展开式?

在神经网络中,我们用一个高阶多项式来拟合我们的任务,如果想要拟合成功,就要满足泰勒公式的需求,那么就要保证两点:

  • 网络的可导级数越高越好,这与网络的非线性能力以及深度有关,激活函数的设计(从这点考虑,sigmoid比relu要好)。
  • 训练时,学习率不宜设得过大,保证梯度更新时每一项系数符合泰勒展开。

1.3 偏导数

对于二元函数z = f(x,y) 如果只有自变量x 变化,而自变量y固定 这时它就是x的一元函数,这函数对x的导数,就称为二元函数z = f(x,y)对于x的偏导数。

  • 从求偏导可以引申出在手写BP代码时的一个小细节,梯度校验。这里的核心思想即对某个参数求偏导等同于求整层的导数。

具体可参考梯度校验

  • 老师上课时说过,一个模型足够鲁棒的话,则意味着它对于不同的输入敏感程度相同,那么是否和这里一样?对模型的每个参数都进行这样的微调,如果网络的输出始终保持不大幅度的变化,意味着网络也是足够稳定的?

2 概率论

2.1 基本概念

2.1.1 样本空间

随机试验EEE的所有结果构成的集合称为EEE的样本空间,记为S=ES={E}S=E,称SSS中的元素eee为样本点,一个元素的单点集称为基本事件。

2.1.2 条件概率,联合概率,边缘概率

  • 条件概率就是事件A在另外一个事件B已经发生条件下的发生概率,条件概率表示为P(A∣B)P(A|B)P(A∣B),读作"在B条件下A的概率"

  • 联合概率表示两个事件同时成立的概率,记作P(A,B)P(A,B)P(A,B)或者P(AB)P(AB)P(AB),需要注意的是所有条件需要同时成立。

  • 边缘概率,与联合概率对应,仅与单个随机变量有关。P(X=a)P(X=a)P(X=a)或P(Y=B)P(Y=B)P(Y=B)

    我们可以得到后验概率:
    P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)​
    同时,
    P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=P(A|B)\frac{P(B)}{P(A)} P(B∣A)=P(A∣B)P(A)P(B)​

2.2 全概率公式和贝叶斯公式

2.2.1 全概率公式

假设Bn:n=1,2,3...{B_n:n=1,2,3...}Bn​:n=1,2,3...是一个概率空间的有限或者可数无限的分割,且每个集合BnB_nBn​是一个可测集合,则对任意事件A有全概率公式:
P(A)=∑nP(ABn)P(A) = \sum_nP(AB_n) P(A)=n∑​P(ABn​)
因为
P(ABn)=P(A∣Bn)P(Bn)P(AB_n)=P(A|B_n)P(B_n) P(ABn​)=P(A∣Bn​)P(Bn​)
所以在这里P(A∣B)P(A|B)P(A∣B)是B发生后A的条件概率,所以全概率公式又可以写成
P(A)=∑nP(A∣Bn)P(Bn)P(A) = \sum_nP(A|B_n)P(B_n) P(A)=n∑​P(A∣Bn​)P(Bn​)

2.2.2 贝叶斯公式

这里直接上结论:
P(A∣B)=P(B∣A)P(A)P(B)P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)​
这里以我的角度看来就是,已知A,B两种事件概率(先验),并且得知P(B∣A)P(B|A)P(B∣A)(后验概率),需要求P(A∣B)P(A|B)P(A∣B)后验概率,从集合的角度来看,我只要求得联合概率P(AB)P(AB)P(AB),那么就能够求得条件概率了。

2.3 随机变量及其分布

2.3.1 基本概念

  • 离散随机变量,给定样本空间(S,F)(S,F)(S,F),其上的实值函数X:S→RX:S\rightarrow RX:S→R称为随机变量,如果随机变量XXX的取值是有限的或者是可数无穷尽的值,则称为离散随机变量,即X={x1,x2,x3...}X=\lbrace{x1,x2,x3...\rbrace}X={x1,x2,x3...},一般以加法的形式处理概率和
  • 连续随机变量,即取值范围为全部实数或者一部分区间,连续且不间断的,即−∞<x<∞-\infty<x<\infty−∞<x<∞,一般以积分形式求概率和
  • 组合
  • 排列

2.3.2 离散分布之0-1分布

也叫做两点分布或者伯努利分布,即:
KaTeX parse error: Can't use function '$' in math mode at position 80: … q \end{array}$̲
上式中p+q=1p+q=1p+q=1。

也可以表示为X⋅0−1(p)或B(1,p)X\cdot0-1(p)或B(1,p)X⋅0−1(p)或B(1,p),也可以表示为P(X=k)=pk(1−p)1−k,k=0,1.P(X=k)=p^k(1-p)^{1-k},k=0,1.P(X=k)=pk(1−p)1−k,k=0,1.

2.3.3 离散分布之二项分布

二项分布是n个独立的是/非实验中成功的次数的离散概率分布,其中每次实验的成功概率为p。单次实验称为伯努利实验,举个例子,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。

假设有一个n重伯努利实验,其中A事件的概率为p,那么对应k次的概率为:
P(X=k)=Cnkpk(1−p)n−k,k=0,1...nP(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1...n P(X=k)=Cnk​pk(1−p)n−k,k=0,1...n

2.3.4 离散分布之泊松分布

若随机变量XXX的概率分布律为
P(X=K)=λke−λk!,k=0,1,2,...,λ>0P(X=K)=\frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2,...,\lambda>0 P(X=K)=k!λke−λ​,k=0,1,2,...,λ>0
则称xxx服从参数为λ\lambdaλ的泊松分布。泊松分布的数学期望与方差相等

在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物

后续有时间可以看下推导。Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。用到了自然底数公式,极限思想,需要注意n无穷时,x是有限的。

2.3.5 极大似然估计(可以用来证明泊松分布和二项分布的相关性)

通俗的解释是,已知某事件发生,通常有很多原因导致这个事情发生,我们需要找到其中最可能的那个原因,这就叫极大似然估计。在概率统计中,似然和概率是两个不同的概念,有点类似反函数的意思,概率指已知参数时,随机变量的输出结果;而似然则是已知结果,未知参数的可能取值; 例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。在数值上,以下两者相等:
L(θ∣x)=P(X=x∣θ)L(\theta|x)=P(X=x|\theta) L(θ∣x)=P(X=x∣θ)
左边表示给定输出xxx时,关于参数θ\thetaθ的似然函数,右式表示给定参数θ\thetaθ后变量xxx的概率。(这里的参数指的什么意思?我们建立模型的原始目的是是使得模型输出某种结果的概率最大,但是参数通常我们难以得知;而网络训练的过程是,已知结果,去寻找参数,这很明显就是一个似然估计。)

通常对多个样本值(独立),其联合概率等于单个样本概率的连乘,那么其似然函数也是连乘的形式,而连乘不利于计算,所以加上log,让连乘变成连加(泊松分布):
L(λ)=log∏i=1nf(ki∣λ)=∑i=1nlog(e−λλkiki!)L(\lambda)=log\prod_{i=1}^nf(k_i|\lambda)=\sum_{i=1}^nlog(\frac{e^{-\lambda}\lambda^{k_i}}{k_i!}) L(λ)=logi=1∏n​f(ki​∣λ)=i=1∑n​log(ki​!e−λλki​​)
未完待续(这部分从极大似然证得泊松分布和二项分布在某些情况下相等,这里要证明参数应该取什么值)…

疑问:连续变量和离散变量的期望计算为什么不相同?

似然和概率使用同一个公式,只不过前者要求自变量(参数),而后者要求输出(输出就是概率)。

2.3.6 随机变量分布函数和概率密度

  1. 分布函数:随机变量xxx,对任意实数X,称函数F(x)=P(x∈X)F(x)=P(x\in X)F(x)=P(x∈X)为x的概率分布函数,简称分布函数。有以下性质:

    • 0≤F(x)≤10\leq F(x)\leq 10≤F(x)≤1
    • 右连续。即F(x+0)=F(x)F(x+0)=F(x)F(x+0)=F(x)
  2. 概率密度:对于随机变量xxx的分布函数F(x)F(x)F(x)如果存在非负函数f(t)f(t)f(t),使得对于任意实数下,有这个公式 F(x)=∫−∞xf(t)dtF(x)=\int_{-\infty}^{x}f(t)dtF(x)=∫−∞x​f(t)dt,就把xxx称为连续型随机变量,f(t)f(t)f(t)就叫做x的概率密度函数,简称概率密度。它有以下性质:
    • 非负
    • 积分为1
    • ∀−∞<a<b<∞,P[a<x≤b]=FX(b)−FX(a)=∫abfX(x)dx\forall -\infty<a<b<\infty,P[a<x\leq b]=F_X(b)-F_X(a)=\int_a^bf_X(x)dx∀−∞<a<b<∞,P[a<x≤b]=FX​(b)−FX​(a)=∫ab​fX​(x)dx

2.3.7 均匀分布

f(x)={1b−a,x∈(a,b)0,其他f(x) = \begin{cases} \frac{1}{b-a}, & {x \in (a,b)} \\ 0, & \text{其他} \end{cases} f(x)={b−a1​,0,​x∈(a,b)其他​

性质:

  • f(x)>0f(x)>0f(x)>0
  • 期望为a+b2\frac{a+b}{2}2a+b​

2.3.8 指数分布

f(x)={λe−λxx>00,x≤0f(x) = \begin{cases} \lambda e^{-\lambda x} & x>0 \\ 0, & x\leq0 \end{cases} f(x)={λe−λx0,​x>0x≤0​

λ\lambdaλ为常数,常常记作E(x)E(x)E(x)

2.3.9 正态分布

正态分布又叫做高斯分布,假设随机变量xxx服从X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),那么它就服从高斯分布,概率密度函数为:
f(x)=1σ2πe−(x−μ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π​1​e−2σ2(x−μ)2​
有以下性质:

  • f(x)f(x)f(x)关于x=μx=\mux=μ对称

  • 最大值为f(μ)=1σ2πf(\mu)=\frac{1}{\sigma\sqrt{2\pi}}f(μ)=σ2π​1​

  • $ \lim_{\mid x-\mu\mid\to\infty}f(x)=0,一般而言当方差超出了,一般而言当方差超出了,一般而言当方差超出了\pm3\sigma^2$时,它的值就非常接近0了

连续分布中,可以求出某段区间的概率,但是很难求出某个点的概率.

2.3.10 数学期望

期望就是求得平均点。描述的是整体的属性。

  1. 离散变量期望
    E[x]=∑ipixiE[x]=\sum_ip_ix_i E[x]=i∑​pi​xi​

  2. 连续变量期望,由于无法直接求得概率,所以通常使用概率密度的积分来表示概率
    E[x]=∫−∞∞xf(x)dxE[x]=\int_{-\infty}^{\infty}xf(x)dx E[x]=∫−∞∞​xf(x)dx

2.3.11 方差

方差描述的是离散程度,也即变量距离期望值的距离。
σ2=1N∑i=1N(xi−μ)2=1N(∑i=1Nxi2−Nμ2)\sigma^2=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2=\frac{1}{N}(\sum_{i=1}{N}x_i^2-N\mu^2) σ2=N1​i=1∑N​(xi​−μ)2=N1​(i=1∑​Nxi2​−Nμ2)
也可以写成Var(X)=E(X2)−E(X)2Var(X)=E(X^2)-E(X)^2Var(X)=E(X2)−E(X)2,符号为D(X)D(X)D(X)

2.3.12 标准差

为方差的算术平方根。

2.3.13 协方差和相关系数

描述变量之间是否具有相关性,主要是同变性,最好的是0,表示互不相关。具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

  1. 当相关系数为0时,X和Y两变量无关系。
  2. 当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
  3. 当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

这里存在一个疑问,即这里的计算是point wise的,所以如果X和Y的顺序发生改变了,其协方差是否会改变?

2.3.13 协方差矩阵和主成分分析

主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值)用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。

这部分没看明白

2.3.14 中心极限定理

中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。

未完待续…

数学复习[高等数学,微积分,线性代数]相关推荐

  1. Python在高等数学和线性代数中的应用

    Python在高等数学和线性代数中的应用 科学运算设计数值运算和符号运算,数值运算可以使用Numpy库和Scipy库,符号运算则可以使用Sympy工具库,数值计算的表达式.矩阵变量中不允许有未定义的自 ...

  2. 用计算机解决线性代数,高等数学、线性代数、概率论与数理统计、离散数学与计算机的关系...

    高等数学.线性代数.概率论与数理统计.离散数学与计算机的关系 作者:钟炽贤 (广东第二师范学院计算机科学系,广东广州510800) 摘要: 高等数学.线性代数.概率论与数理统计.离散数学与计算机的关系 ...

  3. 吴恩达机器学习+林轩田机器学习+高等数学和线性代数等视频领取

    机器学习一直是一个热门的领域.这次小编应大家需求,整理了许多相关学习视频和书籍. 本次分享包含:台湾大学林轩田老师的[机器学习基石]和[机器学习技法]视频教学.吴恩达老师的机器学习分享.徐小湛的高等数 ...

  4. Java和线性代数的关系_高等数学,线性代数与计算机的关系?

    谢邀. 如果你从事算法方面(包括图像处理,机器学习,深度学习等),那么数学用到的地方真是多了去了.我现在从事深度学习计算机视觉方面的东西,用到的数学知识有:线性代数.矩阵论.概率论.优化方法.数值计算 ...

  5. 数学复习全程规划及方法指导(武忠祥笔记)

    本博文源于作者参加2023考研 文章目录 1.全程规划 1.1 课程体系(四轮进阶) 1.1.1 教材基础(21年9月-22年3月) 1.1.2 复习资料 1.1.3 考点精讲(22年4月-22年7月 ...

  6. 考研数学复习建议与资料

    回答这个问题已经一年多了,这个回答的赞同数已经直逼20K,这是我起初没有料想到的,因为这个相对有些影响力,所以在此我要多叮嘱你们几句,要有选择性的复习,没有任何一份资料适合所有人,再者看视频的多少决定 ...

  7. 人工智能高等数学--微积分_导数意义_求导公式_绝对值函数_relu函数_导数物理意义_几何意义---人工智能工作笔记0025

    实际上这里看了看,这些数学的概念,有一定作用,但是综合来看,也可以先把人工智能课程都看一遍,大概知道怎么回事, 带着目的再来看人工智能的高等数学部分,这里,这些内容很花时间... 首先看人工智能用到的 ...

  8. 初等数学复习之方程和方程组(多项式的待定系数法)

    把遇到的数学中不清楚的地方,再顺一遍.也为2021年下半年高等数学考试算是作准备. 一元二次方程:详见<2020-1-9初等数学复习之一元二次方程的解法>下面只记录没有部分内容 概念:形如 ...

  9. 2011考研数学复习注意三点 不提倡题海战术

    2010年考研已经结束,仔细分析一下2010年的考研数学真题可以看出,简单题及中等基本题约占据到整套试卷的70%左右,难题及新颖题约占30%左右,整套试卷注重考察学生对基本概念.基本理论.基本方法的理 ...

最新文章

  1. vue-music 音乐网站
  2. SAP CAR 的主要优势
  3. opencv编程解决warning C4003: “max”宏的实参不足
  4. [WebService] xml WebService学习1
  5. java key值_java-必须为此操作提供PartitionKey值
  6. NYOJ 137 取石子(三)
  7. Python随机数生成方法
  8. linux部署tomcat项目404_Tomcat部署项目的几种常见方式
  9. WPF学习笔记一 依赖属性及其数据绑定
  10. 美股本周第二次熔断:道指大跌近10% 费城半导体指数大跌11%
  11. linux下时区的一些认识
  12. liunx下pytorch(python2.7)先前几个版本的安装(由于官网点击先前版本进不去)
  13. Spring系列(三) Bean装配的高级技术
  14. uva-110-没有for循环的排序
  15. UISegmentedControl触发事件的错误
  16. 三台虚拟机如何通过GNS3互通
  17. 搜索引擎广告的检索和匹配算法
  18. RS-232与RS485通信方式区别
  19. 常见排序算法的最好、最坏、平均时间复杂度以及空间复杂度
  20. linux中vim保存快捷键设置,Linux中vim操作快捷键非常简洁

热门文章

  1. POJ题目分类(按初级\中级\高级等分类,有助于大家根据个人情况学习)
  2. 网络电台搭建教程(jetcast)
  3. TCP SYN ACK RST UTG PSH FIN
  4. 【嵌入式08】基于IIC和SPI协议的温湿度采集与OLED显示
  5. 严重 [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.ContainerBase.addChildInternal Contain
  6. 斩获三大电商平台销量与销售额双冠军:iQOO Z5首销火爆
  7. Injective Protocol官方文档翻译(三) -Injective EVM RPC provider、Injective ⮂ Ethereum Bridge
  8. 两百多的鞋穿还不到五六次就破了又买了双意尔康皮鞋
  9. 【传智播客上海校区】分支结构 - 条件语句
  10. postgre——case、union、小计总计(GROUP BY ROLLUP)写法