吴恩达机器学习课程笔记一
吴恩达机器学习课程笔记
- 前言
- 监督学习---`Supervised learning`
- 无监督学习---`Unsupervised learning`
- 聚类
- 异常检测
- 降维
- 增强学习---`Reinforcement learning`
- Linear regression
- 一些机器学习的名词
- 参考博客
- 损失函数
- 参考博客
- 梯度下降的实现
- 学习率alpha的选择
- 学习率过小
- 学习率过大
- 线性回归的梯度下降求法
- Multiple linear regression
- 多特征线性回归
- 向量化
- 多元线性回归的梯度下降
- 归一化
- 对梯度下降的影响
- 归一化具体操作
- 判断梯度下降是否收敛
- 自动收敛测试(Automatic convergence test)
- 学习率alpha的选择
- 逻辑回归(Logistic Regression)
- 决策边界
- 逻辑回归的损失函数
- 欠拟合与过拟合
- 欠拟合
- 过拟合
- 如何解决过拟合问题
- 正则化
- 正则化线性回归
- 正则化逻辑回归
通用人工智能—AGI
机器学习—机器无需明确编程即可学习的研究领域(非正式定义)
前言
监督学习—Supervised learning
监督学习指的是数据集有输出标签,每个数据样本都有输出标签—right answers
,监督学习在实际应用中使用较多
监督学习主要有分类---Classification
和回归---Regression
两大类别,分类和回归都是对输入进行预测,不同之处在于分类预测的结果是有限的(一组有限的可能输出类别),而回归预测的结果是无限的(如经典的房价预测)
无监督学习—Unsupervised learning
区别与监督学习,无监督学习的数据没有标签。因为没有数据标签,无监督学习并没有预测功能,我们使用无监督学习算法来找到数据集中的某种结构或某种模式,或者只是找到数据中一些有趣的特性。这就是无监督学习,并不是试图监督算法给每个输入一个正确的答案。
无监督学习可能决定数据可以分为不同的组或者集群,
聚类
将相似的数据点聚集在一起
异常检测
用于检测异常事件
降维
压缩大的数据集得到小数据集,并且丢失尽可能少的信息
增强学习—Reinforcement learning
Linear regression
一些机器学习的名词
线性回归模型−−−一条拟合数据的直线输入变量x−−−feature(特征)输出变量y−−−target(目标)x(输入特征)⟶f(model:模型)⟶y^(评估预测的结果)算法预测结果:y^或者y−hat,y^是对正确结果y的估计或者预测线性回归模型---一条拟合数据的直线\\ 输入变量x---feature(特征) \\ 输出变量y---target(目标) \\ x(输入特征)\longrightarrow f(model:模型)\longrightarrow \hat{y}(评估预测的结果) \\ 算法预测结果:\hat{y}或者y-hat,\hat{y}是对正确结果y的估计或者预测\\ 线性回归模型−−−一条拟合数据的直线输入变量x−−−feature(特征)输出变量y−−−target(目标)x(输入特征)⟶f(model:模型)⟶y^(评估预测的结果)算法预测结果:y^或者y−hat,y^是对正确结果y的估计或者预测
最主要的是如何构建 模型:f
参考博客
一元线性回归_Chen的博客的博客-CSDN博客_一元线性回归法
损失函数
为了实现线性回归,关键步骤是定义一个损失函数(cost function)
损失函数J(w,b)=12m∑i=1m(y^(i)−y(i))2为什么要除以2m?:如果不除于m,损失函数值会随着样本数增加而变大,除以2应该是为了方便下一步计算,约去系数损失函数J(w,b)=\frac{1}{2m}\sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})^2\\ 为什么要除以2m?:如果不除于m,损失函数值会随着样本数增加而变大,除以2应该是为了方便下一步计算,约去系数 损失函数J(w,b)=2m1i=1∑m(y^(i)−y(i))2为什么要除以2m?:如果不除于m,损失函数值会随着样本数增加而变大,除以2应该是为了方便下一步计算,约去系数
平方差成本函数是线性回归最普遍的损失函数
我们要求得使得损失函数最小的参数 w 和 b
线性回归的平方差成本函数只有一个全局最小值,是一个凸函数
参考博客
单变量梯度下降_Chen的博客的博客-CSDN博客
梯度下降的实现
w=w−α∂∂wJ(w,b)α(Learningrate):学习率,通常取值在0−1之间,通俗的说α决定了你下坡的幅度,α非常大代表着下坡时迈出一大步,α过小则迈小步下坡,如何选择一个合适的α是个问题∂∂wJ(w,b):代表着往哪个方向下坡此外,b=b−α∂∂bJ(w,b)重复上面两个不断更新的步骤,直到算法收敛,达到算法的局部最小值如何同时更新w和b(更新其中一个,另一个不受影响)呢?temp_w=w−α∂∂wJ(w,b)temp_b=b−α∂∂bJ(w,b)w=temp_wb=temp_b梯度下降的正确方式是参数同时更新w=w-\alpha\frac{\partial}{\partial w}J(w,b) \\ \alpha(Learning\ \ rate):学习率,通常取值在0-1之间,通俗的说\alpha决定了你下坡的幅度,\\ \alpha非常大代表着下坡时迈出一大步,\alpha过小则迈小步下坡,如何选择一个合适的\alpha是个问题\\ \frac{\partial}{\partial w}J(w,b):代表着往哪个方向下坡\\ 此外,b=b-\alpha\frac{\partial}{\partial b}J(w,b) \\ 重复上面两个不断更新的步骤,直到算法收敛,达到算法的局部最小值\\ 如何同时更新w和b(更新其中一个,另一个不受影响)呢?\\ temp\_w=w-\alpha\frac{\partial}{\partial w}J(w,b)\\ temp\_b=b-\alpha\frac{\partial}{\partial b}J(w,b)\\ w=temp\_w\\ b=temp\_b\\ 梯度下降的正确方式是参数同时更新 w=w−α∂w∂J(w,b)α(Learning rate):学习率,通常取值在0−1之间,通俗的说α决定了你下坡的幅度,α非常大代表着下坡时迈出一大步,α过小则迈小步下坡,如何选择一个合适的α是个问题∂w∂J(w,b):代表着往哪个方向下坡此外,b=b−α∂b∂J(w,b)重复上面两个不断更新的步骤,直到算法收敛,达到算法的局部最小值如何同时更新w和b(更新其中一个,另一个不受影响)呢?temp_w=w−α∂w∂J(w,b)temp_b=b−α∂b∂J(w,b)w=temp_wb=temp_b梯度下降的正确方式是参数同时更新
学习率alpha的选择
学习率过小
学习率过小,梯度下降算法照样可以起作用,但是需要重复很多的步骤,需要花费大量的时间
学习率过大
学习率过大可能永远都不会找到局部最小值,变量不能收敛,甚至可能使得变量发散
线性回归的梯度下降求法
线性回归模型:fw,b=wx+b损失函数:J(w,b)=12m∑i=1m(fw,b(x(i))−y(i))2梯度下降算法:temp_w=w−α∂∂wJ(w,b),其中∂∂wJ(w,b)=1m∑i=1m(fw,b(x(i))−y(i))x(i)temp_b=b−α∂∂bJ(w,b),其中∂∂bJ(w,b)=1m∑i=1m(fw,b(x(i))−y(i))w=temp_wb=temp_b线性回归模型:f_{w,b}=wx+b\ \ \ \ \ \ \ \ \\ 损失函数:J(w,b)=\frac{1}{2m}\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})^2\\ 梯度下降算法: \\ temp\_w=w-\alpha\frac{\partial}{\partial w}J(w,b),其中\frac{\partial}{\partial w}J(w,b)=\frac{1}{m}\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})x^{(i)}\\ temp\_b=b-\alpha\frac{\partial}{\partial b}J(w,b),其中\frac{\partial}{\partial b}J(w,b)=\frac{1}{m}\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})\\ w=temp\_w\\ b=temp\_b\\ 线性回归模型:fw,b=wx+b 损失函数:J(w,b)=2m1i=1∑m(fw,b(x(i))−y(i))2梯度下降算法:temp_w=w−α∂w∂J(w,b),其中∂w∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))x(i)temp_b=b−α∂b∂J(w,b),其中∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))w=temp_wb=temp_b
线性回归的平方差损失函数只有一个局部局最小值,即全局最小值,是一个凸函数
下图为梯度下降的过程图:
左上图为模型和数据图,右上为损失函数等高线图,下图为损失函数表面图
Multiple linear regression
多特征线性回归
考虑更加复杂,更加符合实际的线性回归–特征变多
x2(3)表示第3个样本点的第2个特征fw,b(x)=w1x1+w2x2+w3x3+......+wnxn+b向量w→=[w1,w2,w3....wn]b表示数字,不是向量x→=[x1,x2,x3....xn]fw→,b(x→)=w→∗x→+b=w1x1+w2x2+w3x3+......+wnxn+bx^{(3)}_2表示第3个样本点的第2个特征\\ f_{w,b}(x)=w_1x_1+w_2x_2+w_3x_3+......+w_nx_n+b \\ 向量\overrightarrow{w}=[w_1,w_2,w_3....w_n]\\ b表示数字,不是向量\\ \overrightarrow{x}=[x_1,x_2,x_3....x_n]\\ f_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b=w_1x_1+w_2x_2+w_3x_3+......+w_nx_n+b\\ x2(3)表示第3个样本点的第2个特征fw,b(x)=w1x1+w2x2+w3x3+......+wnxn+b向量w=[w1,w2,w3....wn]b表示数字,不是向量x=[x1,x2,x3....xn]fw,b(x)=w∗x+b=w1x1+w2x2+w3x3+......+wnxn+b
向量化
现实生活中,线性回归问题的变量,都不止包含一个特征值,即x1,x2,x3.....,fw→,b(x→)=w1x1+w2x2+w3x3+......+wnxn+b可以用向量来表示:x→=[x1,x2,x3.....xn]同样,w也要变为w→=[w1,w2,w3.....wn]其中,x2(3)表示第3个样本点的第2个特征fw→,b(x→)=w→∗x→+b现实生活中,线性回归问题的变量,都不止包含一个特征值,即x_1,x_2,x_3.....,\\ f_{\overrightarrow{w},b}(\overrightarrow{x})=w_1x_1+w_2x_2+w_3x_3+......+w_nx_n+b\\ 可以用向量来表示:\\ \overrightarrow{x}=\begin{bmatrix} x_1,x_2,x_3.....x_n \end{bmatrix} \\同样,w也要变为 \overrightarrow{w}=\begin{bmatrix} w_1,w_2,w_3.....w_n \end{bmatrix}\\ 其中,x^{(3)}_2表示第3个样本点的第2个特征\\ f_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b \\ 现实生活中,线性回归问题的变量,都不止包含一个特征值,即x1,x2,x3.....,fw,b(x)=w1x1+w2x2+w3x3+......+wnxn+b可以用向量来表示:x=[x1,x2,x3.....xn]同样,w也要变为w=[w1,w2,w3.....wn]其中,x2(3)表示第3个样本点的第2个特征fw,b(x)=w∗x+b
向量化可以使得代码更短,运行更加高效
Python
中,使用numpy
包
w=np.array([1.0,2.5,-3.3])
b=4
x=np.array([10,20,30])
fw→,b(x→)=w→∗x→+b=w1x1+w2x2+w3x3+......+wnxn+b没有向量化的情况:(1)f=w[0]∗x[0]+w[1]∗x[1]+w[2]∗x[2]+b(2)fw→,b(x→)=∑j=1nwjxj+bf=0forjinrange(0,n):f=f+w[j]∗x[j]f=f+b向量化后:w→=[w1,w2,w3.....wn]x→=[x1,x2,x3.....xn]fw→,b(x→)=w→∗x→+b只需要一行代码即可f=np.dot(w,x)+b向量化后不仅代码变短,而且代码的运行速度比上面两种都要快,原因是numpy可以使用GPU来加速矩阵运算计算机可以并行的将每个wi∗xi,再使用专门的硬件高效求和∑i=1nwi∗xif_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b=w_1x_1+w_2x_2+w_3x_3+......+w_nx_n+b \\ 没有向量化的情况: \\ (1)f=w[0]*x[0]+ \\ w[1]*x[1]+\\ w[2]*x[2]+b \\ (2)f_{\overrightarrow{w},b}(\overrightarrow{x})=\sum_{j=1}^nw_jx_j+b\\ f=0\\ for\ \ \ \ j\ \ \ \ in\ \ \ \ range(0,n): \\ \ \ \ \ \ \ \ f=f+w[j]*x[j]\\ f=f+b \\ 向量化后:\\ \overrightarrow{w}=\begin{bmatrix} w_1,w_2,w_3.....w_n \end{bmatrix} \\ \overrightarrow{x}=\begin{bmatrix} x_1,x_2,x_3.....x_n \end{bmatrix} \\ f_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b \\ 只需要一行代码即可 \\ f=np.dot(w,x)+b \\ 向量化后不仅代码变短,而且代码的运行速度比上面两种都要快,原因是{numpy}可以使用GPU来加速矩阵运算 \\计算机可以并行的将每个w_i*x_i,再使用专门的硬件高效求和\sum_{i=1}^{n}w_i*x_i \\ fw,b(x)=w∗x+b=w1x1+w2x2+w3x3+......+wnxn+b没有向量化的情况:(1)f=w[0]∗x[0]+w[1]∗x[1]+w[2]∗x[2]+b(2)fw,b(x)=j=1∑nwjxj+bf=0for j in range(0,n): f=f+w[j]∗x[j]f=f+b向量化后:w=[w1,w2,w3.....wn]x=[x1,x2,x3.....xn]fw,b(x)=w∗x+b只需要一行代码即可f=np.dot(w,x)+b向量化后不仅代码变短,而且代码的运行速度比上面两种都要快,原因是numpy可以使用GPU来加速矩阵运算计算机可以并行的将每个wi∗xi,再使用专门的硬件高效求和i=1∑nwi∗xi
向量化在多元线性回归中的显著作用:
w→=[w1,w2,w3.....wn]d→=[d1,d2,d3.....dn],di为关于wi的偏导wj=wj−αdj(j=1−n)没有矢量化的情况:\overrightarrow{w}=\begin{bmatrix} w_1,w_2,w_3.....w_n \end{bmatrix}\\ \overrightarrow{d}=\begin{bmatrix} d_1,d_2,d_3.....d_n \end{bmatrix},d_i为关于w_i的偏导 \\ w_j=w_j-\alpha d_j\ \ (j=1-n)\\ 没有矢量化的情况: \\ w=[w1,w2,w3.....wn]d=[d1,d2,d3.....dn],di为关于wi的偏导wj=wj−αdj (j=1−n)没有矢量化的情况:
for in range(0,n):w[j]=w[j]-alpha*d[j]
在并行情况下,wi∼n并行的减去α∗di∼n,而不需要依次的计算wi∼n=wi∼n−α∗di∼n在并行情况下,w_{i\sim n}并行的减去\alpha*d_{i\sim n},而不需要依次的计算 \\ w_{i\sim n}=w_{i\sim n}-\alpha*d_{i\sim n} 在并行情况下,wi∼n并行的减去α∗di∼n,而不需要依次的计算wi∼n=wi∼n−α∗di∼n
当特征非常多或者数据集非常大时,矢量化后用numpy
加速计算就会很有用
多元线性回归的梯度下降
fw→,b(x→)=w→∗x→+b=w1x1+w2x2+w3x3+......+wnxn+bfw→,b(x→)=w→∗x→+b损失函数:J(w1,...,wn,b)=J(w→,b)=12m∑i=1m(w→∗x(i)→+b−y(i))2temp_wj=wj−α∂∂wjJ(w1,..wn,b)temp_b=b−α∂∂bJ(w1,..wn,b)可以写成:temp_wj=wj−α∂∂wjJ(w→,b)temp_b=b−α∂∂bJ(w→,b)f_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b=w_1x_1+w_2x_2+w_3x_3+......+w_nx_n+b \\ f_{\overrightarrow{w},b}(\overrightarrow{x})=\overrightarrow{w}*\overrightarrow{x}+b\\ 损失函数:J(w_1,...,w_n,b)=J(\overrightarrow{w},b)=\frac{1}{2m}\sum_{i=1}^{m}(\overrightarrow{w^{}}*\overrightarrow{x^{(i)}}+b-y^{(i)})^2\\ temp\_w_j=w_j-\alpha\frac{\partial}{\partial w_j}J(w_1,..w_n,b)\\ temp\_b=b-\alpha\frac{\partial}{\partial b}J(w_1,..w_n,b)\\ 可以写成:\\ temp\_w_j=w_j-\alpha\frac{\partial}{\partial w_j}J(\overrightarrow{w},b)\\ temp\_b=b-\alpha\frac{\partial}{\partial b}J(\overrightarrow{w},b)\\ fw,b(x)=w∗x+b=w1x1+w2x2+w3x3+......+wnxn+bfw,b(x)=w∗x+b损失函数:J(w1,...,wn,b)=J(w,b)=2m1i=1∑m(w∗x(i)+b−y(i))2temp_wj=wj−α∂wj∂J(w1,..wn,b)temp_b=b−α∂b∂J(w1,..wn,b)可以写成:temp_wj=wj−α∂wj∂J(w,b)temp_b=b−α∂b∂J(w,b)
单个特征和多个特征的参数w , b 迭代过程的对比:
单个特征下参数更新情况:w=w−α1m(fw,b(x(i))−y(i))x(i)b=b−α1m(fw,b(x(i))−y(i))这里的x(i)只有一个特征,即没有下标多个特征下(n≥2)时,参数更新:w1=w1−α1m∑i=1m(fw→,b(x→(i))−y(i))x1(i),其中∂∂wjJ(w→,b)=1m∑i=1m(fw→,b(x→(i))−y(i))x1(i)wn=wn−α1m∑i=1m(fw→,b(x→(i))−y(i))xn(i)b=b−α1m(fw,b(x(i))−y(i))单个特征下参数更新情况: \\ w=w-\alpha \frac{1}{m}(f_{w,b}(x^{(i)})-y^{(i)})x^{(i)}\\ b=b-\alpha \frac{1}{m}(f_{w,b}(x^{(i)})-y^{(i)}) \\ 这里的x^{(i)}只有一个特征,即没有下标\\ 多个特征下(n\geq2)时,参数更新:\\ w_1=w_1-\alpha \frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_1^{(i)}\ \ ,\ 其中\frac{\partial}{\partial w_j}J(\overrightarrow{w},b)=\frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_1^{(i)}\\ w_n=w_n-\alpha \frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_n^{(i)}\\ b=b-\alpha \frac{1}{m}(f_{w,b}(x^{(i)})-y^{(i)}) \\ 单个特征下参数更新情况:w=w−αm1(fw,b(x(i))−y(i))x(i)b=b−αm1(fw,b(x(i))−y(i))这里的x(i)只有一个特征,即没有下标多个特征下(n≥2)时,参数更新:w1=w1−αm1i=1∑m(fw,b(x(i))−y(i))x1(i) , 其中∂wj∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))x1(i)wn=wn−αm1i=1∑m(fw,b(x(i))−y(i))xn(i)b=b−αm1(fw,b(x(i))−y(i))
梯度下降是最小化损失函数
J, 找到w和b的好方法。
正规方程法
(Normal Equation
):几乎只适用于线性回归,这种方法不需要迭代梯度下降算法,没有推广到其他算法,且当特征数量较大时,正规方程法也很慢(跟线性代数有关,等复习完线代再学)
归一化
特征缩放能够使得梯度下降的速度更快
当一个特征的可能值很大时,一个好的模型可能选择一个相对较小的参数值;当特征的可能值很小时,一个好的模型可能选择一个相对较大的参数值。
上图为特征散点图和损失函数等高线图特征值x1较大,特征值x2较小好的模型会给x1一个小参数w1,给x2一个大参数w2因为特征值x1较大,所以w1的一个小变化会对估计价格y^产生较大影响,对损失函数J也会产生较大的影响而w2则需要更多的变化才能改变y^,w2小的变化几乎不会影响损失函数J上图为特征散点图和损失函数等高线图\\ 特征值x_1较大,特征值x_2较小\\ 好的模型会给x_1一个小参数w_1,给x_2一个大参数w_2\\ 因为特征值x_1较大,所以w_1的一个小变化会对估计价格\hat{y}产生较大影响,对损失函数J也会产生较大的影响\\ 而w_2则需要更多的变化才能改变\hat{y},w_2小的变化几乎不会影响损失函数J\\ 上图为特征散点图和损失函数等高线图特征值x1较大,特征值x2较小好的模型会给x1一个小参数w1,给x2一个大参数w2因为特征值x1较大,所以w1的一个小变化会对估计价格y^产生较大影响,对损失函数J也会产生较大的影响而w2则需要更多的变化才能改变y^,w2小的变化几乎不会影响损失函数J
对梯度下降的影响
上述参数大小相差很大的情况,会导致损失函数J的等高线呈椭圆型,在梯度下降的过程中,反复横跳,无法收敛或者收敛速度慢。
解决这个问题就要使用归一化,提前处理数据,将数据的范围统一
归一化具体操作
0-1归一化
x∗=x−xminxmax−xminx^*=\frac{x-x_{min}}{x_{max}-x_{min}} x∗=xmax−xminx−xmin
适用在数值比较集中的情况,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。
Z—score 标准化
x∗=x−μσμ、σ为数据集的均值和方差μ=1n∑i=1nxi,σ=1n∑i=1n(xi−μ)2x^*=\frac{x-\mu}{\sigma}\\ \mu、\sigma为数据集的均值和方差 \\ \mu=\frac{1}{n}\sum_{i=1}^{n}x_i\ \ ,\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2} x∗=σx−μμ、σ为数据集的均值和方差μ=n1i=1∑nxi ,σ=n1i=1∑n(xi−μ)2
判断梯度下降是否收敛
运行梯度下降时,如何判断其是否收敛?
(损失函数J值与迭代次数图)
正常情况下,每次迭代损失函数的值都会减少,如果损失函数的值增大了,那么就说明学习率alpha(太大)的值选取不正确,或者代码有问题。
可以通过这个图表来判断收敛,还可以通过下面这种方法来判断是否收敛
自动收敛测试(Automatic convergence test)
ϵ代表小数的变量,一搬都非常小,例如10−3如果在一次迭代过程中,损失函数J减小的值小于ϵ,那么损失函数已经到了上图中比较平坦的位置了,那么可以认为已经收敛了\epsilon代表小数的变量,一搬都非常小,例如10^{-3}\\ 如果在一次迭代过程中,损失函数J减小的值小于\epsilon,那么损失函数已经到了上图中比较平坦的位置了,那么可以认为已经收敛了 ϵ代表小数的变量,一搬都非常小,例如10−3如果在一次迭代过程中,损失函数J减小的值小于ϵ,那么损失函数已经到了上图中比较平坦的位置了,那么可以认为已经收敛了
一般看图是看图判断收敛,容易发现错误。
学习率alpha的选择
学习率太小,程序的运行较慢;学习率太大,可能不会收敛
学习率过大的时候没法收敛,可能出现上图中的情况,上图情况也可能是代码出错。
那么如何选择学习率?
当学习率比较小时,不会出现反复横跳
(图像上不会出现损失函数的值随着迭代的次数的增加反而增加的情况)
即每次迭代损失函数J的值都会减少。所以如果梯度下降不起作用,那么就把学习率alpha设置的非常小,如果此时损失函数J任然不会在迭代中减小,或者还会增加,这时候一般就是代码有问题了。
如果学习率alpha非常小,那么就可能经过很多次迭代才收敛,这需要花费很多时间
alpha可以选择:0.001 0.003 0.01 0.03 0.1 1
选择一个小的学习率,再选择一个大的学习率(反复横跳),再尽可能选择大的学习率(收敛),这样做一般可以选择出一个合适的学习率alpha。
逻辑回归(Logistic Regression)
特征工程:使用直觉去设计新的特征,通过变换和组合原始数据
回归算法在解决分类问题时,效果并不是太好
binary alsssification
: 二分类问题,预测结果只有两个可能
sigmoid/logistic function
函数
sigmoid/logistic function
函数输出值介于0和1之间
g(z)=11+e−z,0<g(z)<1fw→,b(x→)=z=w→∗x→+bg(z)=g(w→∗x→+b)=11+e−(w→∗x→+b)设置一个阈值,当预测值y^≥阈值时,预测结果为1,当预测值y^<阈值时,预测结果为0常见的阈值=0.5g(z)=\frac{1}{1+e^{-z}}\ \ ,\ \ 0<g(z)<1\\ f_{\overrightarrow{w},b}(\overrightarrow{x})=z=\overrightarrow{w}*\overrightarrow{x}+b \\ g(z)=g(\overrightarrow{w}*\overrightarrow{x}+b)=\frac{1}{1+e^{-(\overrightarrow{w}*\overrightarrow{x}+b)}}\\ 设置一个阈值,当预测值\hat{y}\geq阈值时,预测结果为1,当预测值\hat{y}<阈值时,预测结果为0 \\ 常见的阈值=0.5 g(z)=1+e−z1 , 0<g(z)<1fw,b(x)=z=w∗x+bg(z)=g(w∗x+b)=1+e−(w∗x+b)1设置一个阈值,当预测值y^≥阈值时,预测结果为1,当预测值y^<阈值时,预测结果为0常见的阈值=0.5
决策边界
KaTeX parse error: Undefined control sequence: \ at position 71: …<3时,\hat{y}=0\ \̲ ̲
非线性的情况:
KaTeX parse error: Undefined control sequence: \ at position 84: …<1时,\hat{y}=0\ \̲ ̲
当然还可以构建更加复杂的决策边界,如z=w1x1+w2x2+w3x12+w4x1x2+w5x22,等等当然还可以构建更加复杂的决策边界,如z=w_1x_1+w_2x_2+w_3x_1^2+w_4x_1x_2+w_5x_2^2,等等 当然还可以构建更加复杂的决策边界,如z=w1x1+w2x2+w3x12+w4x1x2+w5x22,等等
逻辑回归的损失函数
逻辑回归使用线性回归的损失函数,会使得损失函数出现下图的情况,导致梯度下降无法达到最低点
此时损失函数变成非凸函数
定义新的损失函数:
J(w→,b)=1m∑i=1mL(fw→,b(x(i)→),y(i))L(fw→,b(x(i)→),y(i))={−log(fw→,b(x(i)→))ify(i)=1−log(1−fw→,b(x(i)→))ify(i)=0J(\overrightarrow{w},b)=\frac{1}{m}\sum_{i=1}^{m}L(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}),y^{(i)}) \\ L(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}),y^{(i)})= \begin{cases} -log(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}})) \ \ \ \ \ \ \ \ \ \ if \ \ y^{(i)}=1\\ -log(1-f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}})) \ \ \ if \ \ y^{(i)}=0 \end{cases} J(w,b)=m1i=1∑mL(fw,b(x(i)),y(i))L(fw,b(x(i)),y(i))=⎩⎨⎧−log(fw,b(x(i))) if y(i)=1−log(1−fw,b(x(i))) if y(i)=0
简化损失函数:
L(fw→,b(x(i)→),y(i))=−y(i)log(fw→,b(x(i)→))−(1−y(i))log(1−fw→,b(x(i)→))J(w→,b)=−1m∑i=1m[y(i)log(fw→,b(x(i)→))+(1−y(i))log(1−fw→,b(x(i)→))]L(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}),y^{(i)})=-y^{(i)}log(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}))-(1-y^{(i)})log(1-f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}})) \\ J(\overrightarrow{w},b)=-\frac{1}{m}\sum_{i=1}^{m} \left[ y^{(i)}log(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}))+(1-y^{(i)})log(1-f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}))\right] L(fw,b(x(i)),y(i))=−y(i)log(fw,b(x(i)))−(1−y(i))log(1−fw,b(x(i)))J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]
欠拟合与过拟合
模型对训练集数据的误差称为经验误差
,对测试集数据的误差称为泛化误差
。模型对训练集以外样本的预测能力就称为模型的泛化能力
。
欠拟合
模型的学习能力较弱,而数据的复杂度较高,模型的学习能力较弱,无法从这些复杂的数据中总结出规律
,模型在训练集上就表现得很差。
过拟合
模型的学习能力过强,学习了一些没必要的特征,模型过度学习了训练数据,所以模型在训练数据上表现得很好,在测试数据上表现得不好。
造成过拟合的原因一般有:训练样本不足,样本特征少;模型过于复杂。
如何解决过拟合问题
1.获取更多的训练数据
2.看看是否能使用更少的特征来训练模型(会丢失某些信息)
3.正则化,正则化一般缩小特征的参数而不是直接去掉这个特征(参数设置为0),正则化可以保留所有特征,同时防止一些特征产生过大的影响。
正则化
正则化线性回归
J(w→,b)=12m∑i=1m(w→∗x(i)→+b−y(i))2+λ2m∑j=1nwj2J(\overrightarrow{w},b)=\frac{1}{2m}\sum_{i=1}^{m}(\overrightarrow{w^{}}*\overrightarrow{x^{(i)}}+b-y^{(i)})^2+\frac{\lambda}{2m}\sum_{j=1}^nw_j^2\\ J(w,b)=2m1i=1∑m(w∗x(i)+b−y(i))2+2mλj=1∑nwj2
随之改边的梯度下降迭代过程:
temp_wj=wj−α∂∂wjJ(w→,b)其中,∂∂wjJ(w→,b)=1m∑i=1m(fw→,b(x→(i))−y(i))xj(i)+λmwjtemp_b=b−α∂∂bJ(w→,b)其中,∂∂bJ(w→,b)=1m∑i=1m(fw,b(x(i))−y(i))temp\_w_j=w_j-\alpha\frac{\partial}{\partial w_j}J(\overrightarrow{w},b)\\ 其中,\frac{\partial}{\partial w_j}J(\overrightarrow{w},b)=\frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}w_j\\ temp\_b=b-\alpha\frac{\partial}{\partial b}J(\overrightarrow{w},b)\\ 其中,\frac{\partial}{\partial b}J(\overrightarrow{w},b)=\frac{1}{m}\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})\\ temp_wj=wj−α∂wj∂J(w,b)其中,∂wj∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))xj(i)+mλwjtemp_b=b−α∂b∂J(w,b)其中,∂b∂J(w,b)=m1i=1∑m(fw,b(x(i))−y(i))
temp_wj=wj−α[1m∑i=1m(fw→,b(x→(i))−y(i))xj(i)+λmwj]temp_wj=wj(1−αλm)−α1m∑i=1m(fw→,b(x→(i))−y(i))xj(i)(1−αλm)<1,每次迭代收缩wj一点点temp\_w_j=w_j-\alpha\left[\frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}w_j\right] \\ temp\_w_j=w_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m} \sum_{i=1}^{m}(f_{\overrightarrow{w},b}(\overrightarrow{x}^{(i)})-y^{(i)})x_j^{(i)}\\ (1-\alpha\frac{\lambda}{m})<1,每次迭代收缩w_j一点点 temp_wj=wj−α[m1i=1∑m(fw,b(x(i))−y(i))xj(i)+mλwj]temp_wj=wj(1−αmλ)−αm1i=1∑m(fw,b(x(i))−y(i))xj(i)(1−αmλ)<1,每次迭代收缩wj一点点
正则化逻辑回归
J(w→,b)=−1m∑i=1m[y(i)log(fw→,b(x(i)→))+(1−y(i))log(1−fw→,b(x(i)→))]+λ2m∑j=1nwj2J(\overrightarrow{w},b)=-\frac{1}{m}\sum_{i=1}^{m} \left[ y^{(i)}log(f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}))+(1-y^{(i)})log(1-f_{\overrightarrow{w},b}(\overrightarrow{x^{(i)}}))\right]+\frac{\lambda}{2m}\sum_{j=1}^nw_j^2 J(w,b)=−m1i=1∑m[y(i)log(fw,b(x(i)))+(1−y(i))log(1−fw,b(x(i)))]+2mλj=1∑nwj2
吴恩达机器学习课程笔记一相关推荐
- Github标星24300!吴恩达机器学习课程笔记.pdf
个人认为:吴恩达老师的机器学习课程,是初学者入门机器学习的最好的课程!我们整理了笔记(336页),复现的Python代码等资源,文末提供下载. 课程简介 课程地址:https://www.course ...
- 吴恩达机器学习课程笔记(英文授课) Lv.1 新手村(回归)
目录 1-1机器学习的相关名词 1-2 什么是机器学习? 1.definition 定义 2.主要的机器学习算法的分类 1-3有监督学习及常用算法 1.定义 2.两种数据类型补充:categorica ...
- 【CV】吴恩达机器学习课程笔记 | 第1-2章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 1 介绍 1-3 监督学习 1-4 无监督学习 2 单变量 ...
- 【CV】吴恩达机器学习课程笔记第18章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 18 应用案例:照片OCR 18-1 问题描述与流程(pi ...
- 【CV】吴恩达机器学习课程笔记第17章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 17 大规模机器学习 17-1 学习大数据集 17-2 随 ...
- 【CV】吴恩达机器学习课程笔记第16章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 16 推荐系统 16-1 问题规划 16-2 基于内容的推 ...
- 【CV】吴恩达机器学习课程笔记第10章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 10 应用机器学习的建议 10-1 决定下一步做什么 10 ...
- 【CV】吴恩达机器学习课程笔记第11章
本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 11 机器学习系统设计 11-1 确定执行的优先级:以垃圾 ...
- 干货|机器学习零基础?不要怕,吴恩达机器学习课程笔记2-多元线性回归
吴恩达Coursera机器学习课系列笔记 课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础 1 Linear Regression with Multiple Variable ...
最新文章
- 相机与激光雷达融合的3D目标检测方法MVAF-Net
- 驱动程序实例(一):LED设备驱动程序( platform + cdev)
- 用户权限sudo、suid、sgid以及facl等
- 【Day06】请画出 Css 盒模型,基于盒模型的原理,说明相对定位、绝对定位、浮动实现样式是如何实现的?
- js的正则表达,只允许数字和特殊
- iPhone 12全系渲染图曝光:还有无数果粉期待的小屏神机
- C# XML文件操作类XmlHelper
- C语言进制转换 10进制转16进制(一)
- 小程序Table样式
- nginx重启后出现[error] open() “/usr/local/var/run/nginx/nginx.pid” failed
- 计算机软件能删除吗,怎么彻底清除电脑软件鲁大师?卸载对系统有影响吗?
- 科创板IPO申报期间新增技术认定,研发费用真实性被质疑,这公司注册阶段终止审核
- ECharts Y轴固定分割段数,Y轴动态数值非写死
- cgb2108-day02
- 递归全排列 python实现
- html 飘动的广告,很实用,很经典的jQuery漂浮广告
- U盘被写保护的处理办法
- GNSS数据下载网站
- java app支付_java实现微信App支付
- Spring boot各种Date时间相差8小时出现的问题及其解决方法
热门文章
- AI如何帮助亚马逊达成市值万亿美元成就?
- Android MediaPalyer实现视频播放
- 词云python_词-经典诗词宋词语大全
- Spring:从零开始的Cloud生活(一)——Eureka 深入理解
- powerbi输入数据_PowerBI数据编辑与管理
- [Unity][NGUI]悬浮点击空白区域隐藏UI
- 区块链核心技术简单介绍
- 说话人识别损失函数的PyTorch实现与代码解读
- 四色定理涂色的解 --------------------- 对网上答案的纠正
- 南大庄建军计算机学院讲座,南京大学庄建军来校进行双创教育交流