回归问题的前提:

1) 收集的数据

2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。

1. 线性回归

假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。

收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形式:

向量默认为列向量,此处的X表示一个列向量,其中内容为(x1,x2,x3.......,xn),用以表示收集的一个样例。

向量内容为设置的系数(w1,w2.....,wn),也就是要通过学习得到的系数,转置后成为行向量。两者相乘后得到预测打分h。

这个就是一个组合问题,已知一些数据,如何求里面的未知参数,给出一个最优解。 一个线性矩阵方程,直接求解,很可能无法直接求解。有唯一解的数据集基本是不存在的。基本上都是解不存在的超定方程组(未知数的个数小于方程的个数)。因此,需要退一步,将参数求解问题,转化为求最小误差问题,求出一个最接近的解,这就是一个松弛求解。

求一个最接近解,直观上,就能想到,误差最小的表达形式。仍然是一个含未知参数的线性模型,一堆观测数据,其模型与数据的误差最小的形式,模型与数据差的平方和最小:

这就是损失函数(cost function)的来源,文中之后我们称之为目标函数。接下来,就是求解这个函数最小值的方法,有最小二乘法,梯度下降法等(利用这些方法使这个函数的值最小)。

**********最小二乘法:************

多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个θi求偏导计算。

为了便于理解,可以先看当数据集中的样本只有一个特征时的情况,参看之前的最小二乘法博文,可以直接得出theta的值(原先博文中表示为beta)。当含有多个特征时,需要进行矩阵计算从而求出各个θi:

如上图中将目标函数拆解为两个式子相乘的形式(

)其中的X表示获取的数据集转换成的矩阵,与列向量

相乘后得到预测打分(列向量θ),与真实打分y向量想减后平方。上图中的下半部分对于拆解后的目标函数进行求导,令求导后的式子=0,如下图:

由此可以得到向量θ的值。

其中补充说明:

*****************梯度下降法:**************************

分别有梯度下降法,批梯度下降法,增量梯度下降。本质上,都是偏导数,步长/最佳学习率,更新,收敛的问题。这个算法只是最优化原理中的一个普通的方法,可以结合最优化原理来学,就容易理解了。(梯度下降中用到的目标函数不一定是之前提到的那个距离最小函数,在之后的逻辑回归中,要用到梯度上升,在那里细述)

******************极大似然法************************************

极大似然的核心思想为:

当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。打个比方:一个袋子中有20个球,只有黑白两色,有放回的抽取十次,取出8个黑球和2个白球,计算袋子里有白球黑球各几个。那么我会认为我所抽出的这个样本是被抽取的事件中概率最大的。p(黑球=8)=p^8*(1-p)^2,让这个值最大。极大似然法就是基于这种思想。

极大似然估计的定义如下:

求解方法同样采用多元函数求极值法。

2、逻辑回归

逻辑回归与线性回归的联系、异同?

逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

在另一篇博文(logistic)中有对逻辑回归的详细说明。在逻辑回归中,重新定义了cost function,

另外它的推导含义:仍然与线性回归的最大似然估计推导相同,最大似然函数连续积(这里的分布,可以使伯努利分布,或泊松分布等其他分布形式),求导,得损失函数。

(参看logistic那篇博文)

3、一般线性回归(这部分尚未做过多研究)

线性回归 是以 高斯分布 为误差分析模型; 逻辑回归 采用的是 伯努利分布 分析误差。

而高斯分布、伯努利分布、贝塔分布、迪特里特分布,都属于指数分布。

而一般线性回归,在x条件下,y的概率分布 p(y|x) 就是指 指数分布.

经历最大似然估计的推导,就能导出一般线性回归的 误差分析模型(最小化误差模型)。

softmax回归就是 一般线性回归的一个例子。

有监督学习回归,针对多类问题(逻辑回归,解决的是二类划分问题),如数字字符的分类问题,0-9,10个数字,y值有10个可能性。

而这种可能的分布,是一种指数分布。而且所有可能的和 为1,则对于一个输入的结果,其结果可表示为:

参数是一个k维的向量。

而代价函数:

是逻辑回归代价函数的推广。

而对于softmax的求解,没有闭式解法(高阶多项方程组求解),仍用梯度下降法,或L-BFGS求解。

当k=2时,softmax退化为逻辑回归,这也能反映softmax回归是逻辑回归的推广。

线性回归,逻辑回归,softmax回归 三者联系,需要反复回味,想的多了,理解就能深入了。

4. 拟合:拟合模型/函数

由测量的数据,估计一个假定的模型/函数。如何拟合,拟合的模型是否合适?可分为以下三类

合适拟合

欠拟合

过拟合

看过一篇文章(附录)的图示,理解起来很不错:

欠拟合:

合适的拟合

过拟合

过拟合的问题如何解决?

问题起源?模型太复杂,参数过多,特征数目过多。

方法: 1) 减少特征的数量,有人工选择,或者采用模型选择算法

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html (特征选择算法的综述)

2) 正则化,即保留所有特征,但降低参数的值的影响。正则化的优点是,特征很多时,每个特征都会有一个合适的影响因子。

7. 错误函数/代价函数/损失函数:

线性回归中采用平方和的形式,一般都是由模型条件概率的最大似然函数 概率积最大值,求导,推导出来的。

统计学中,损失函数一般有以下几种:

1) 0-1损失函数

L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

2) 平方损失函数

L(Y,f(X))=(Y−f(X))2

3) 绝对损失函数

L(Y,f(X))=|Y−f(X)|

4) 对数损失函数

L(Y,P(Y|X))=−logP(Y|X)

损失函数越小,模型就越好,而且损失函数 尽量 是一个凸函数,便于收敛计算。

线性回归,采用的是平方损失函数。而逻辑回归采用的是 对数 损失函数。 这些仅仅是一些结果,没有推导。

8. 正则化:

为防止过度拟合的模型出现(过于复杂的模型),在损失函数里增加一个每个特征的惩罚因子。这个就是正则化。如正则化的线性回归 的 损失函数:

lambda就是惩罚因子。

正则化是模型处理的典型方法。也是结构风险最小的策略。在经验风险(误差平方和)的基础上,增加一个惩罚项/正则化项。

线性回归的解,也从

θ=(XTX)−1XTy

转化为

括号内的矩阵,即使在样本数小于特征数的情况下,也是可逆的。

逻辑回归的正则化:

从贝叶斯估计来看,正则化项对应模型的先验概率,复杂模型有较大先验概率,简单模型具有较小先验概率。这个里面又有几个概念。

什么是结构风险最小化?先验概率?模型简单与否与先验概率的关系?

逻辑回归logicalistic regression 本质上仍为线性回归,为什么被单独列为一类?

其存在一个非线性的映射关系,处理的一般是二元结构的0,1问题,是线性回归的扩展,应用广泛,被单独列为一类。

而且如果直接应用线性回归来拟合逻辑回归数据,就会形成很多局部最小值。是一个非凸集,而线性回归损失函数 是一个 凸函数,即最小极值点,即是全局极小点。模型不符。

若采用 逻辑回归的 损失函数,损失函数就能形成一个 凸函数。

多项式样条函数拟合

多项式拟合,模型是一个多项式形式;样条函数,模型不仅连续,而且在边界处,高阶导数也是连续的。好处:是一条光滑的曲线,能避免边界出现震荡的形式出现(龙格线性)

http://baike.baidu.com/view/301735.htm

以下是几个需慢慢深入理解的概念:

无结构化预测模型

结构化预测模型

什么是结构化问题?

adaboost, svm, lr 三个算法的关系。

三种算法的分布对应 exponential loss(指数 损失函数), hinge loss, log loss(对数损失函数), 无本质区别。应用凸上界取代0、1损失,即凸松弛技术。从组合优化到凸集优化问题。凸函数,比较容易计算极值点。

转载于:https://juejin.im/post/5aba19686fb9a028bf05578e

线性回归,逻辑回归的学习(包含最小二乘法及极大似然函数等)相关推荐

  1. 线性回归 逻辑回归

    分类就是到底是1类别还是0类别. 回归就是预测的不是一个类别的值,而是一个具体的值,具体借给你多少钱哪? 一.回归分析 回归分析(英语:Regression Analysis)是一种统计学上分析数据的 ...

  2. 线性回归+逻辑回归+过拟合+模型评估笔记

    笔记 什么是线性回归 具体的内容 参数计算 什么是逻辑回归?(什么问题) 具体的内容(怎么解决的?) 建立预测函数(线性回归再套一个函数) Sigmoid函数(Logistic函数) 损失函数 逻辑回 ...

  3. 逻辑回归损失函数为啥不用最小二乘法

    机器学习的损失函数是人为设计的,用于评判模型好坏(对未知的预测能力)的一个标准.尺子,就像去评判任何一件事物一样,从不同角度看往往存在不同的评判标准,不同的标准往往各有优劣,并不冲突.唯一需要注意的就 ...

  4. 机器学习中二分类逻辑回归的学习笔记

    1 致谢 感谢 Andrew Ng的教导! 2 前言 逻辑回归是机器学习中很重要而且很基础的算法,它也代表了分类算法最基本的思想. 3 二分类逻辑回归逻辑回归算法 3.1 假设函数 假设函数的形式为: ...

  5. 关于逻辑回归,面试官们都怎么问

    作者 | WEIWEI   整理 | NewBeeNLP 「面试官们都怎么问」系列文章主旨是尽可能完整全面地整理ML/DL/NLP相关知识点,不管是刚入门的新手.准备面试的同学或是温故知新的前辈,我们 ...

  6. 分类任务如何用逻辑回归实现_【机器学习面试总结】—— LR(逻辑回归)

    逻辑回归是一个非常经典的算法,其中也包含了非常多的细节,曾看到一句话:如果面试官问你熟悉哪个机器学习模型,可以说 SVM,但千万别说 LR,因为细节真的太多了. 1. 模型介绍 Logistic Re ...

  7. 【机器学习】逻辑回归小结

    之前对于LR的介绍已经不少了,有从LR的极大似然概率模型开始推导的,从极大似然开始推导可以得到我们常用的损失函数形式,接下来就可以利用梯度下降方法.也从最大熵模型推导了满足二项分布的LR模型Hypot ...

  8. 机器学习——逻辑回归常见面试题整理

    逻辑回归 1.介绍 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯队下降来求解参数,来达到将数据二分类的目的. 2.逻辑回归的损失函数和梯度下降参数迭代方法 逻辑回归的损失函数是它的 ...

  9. 逻辑回归三部曲——逻辑回归(logistics regression)原理-让你彻底读懂逻辑回归

         逻辑回归已经在各大银行和公司都实际运用于业务,已经有很多前辈写过逻辑回归.本文将从我实际应用的角度阐述逻辑回归原理,致力于让逻辑回归变得清晰.易懂.逻辑回归又叫对数几率回归,是一种广义的线性 ...

最新文章

  1. echarts数据变了不重新渲染,以及重新渲染了前后数据会重叠渲染的问题
  2. 清华「暗黑破坏神」夺超算世界冠军,暨南大学首次参赛就跻身前三 | ISC21
  3. csgo国服文件转国际服务器,csgo国际服怎么转国服 csgo国际服转到国服方法介绍...
  4. LeetCode Binary Tree Inorder Traversal
  5. php调用hive,如何进行hive的简单操作
  6. Delphi-IOCP学习笔记三====工作线程和Listener
  7. 仙逆网页服务器失败,全民仙逆闪退进不去了怎么办 闪退解决办法汇总
  8. spring整合rabbitMQ最新版
  9. okHttp记录---response.body().string()输出的结构是乱码
  10. 数字签名加密过程举例
  11. 5G边缘计算:开源架起5G MEC生态发展新通路
  12. MOM SMS SharePoint
  13. 使用jfreechart在jsp页面柱状图统计
  14. 重置Winsock2
  15. Pr零基础入门指南笔记二
  16. 怎样更改网站服务器的ip地址,如何更改您的服务器IP地址
  17. 制作 macOS High Sierra 正式版 USB 启动盘的方法 (亲测可用)
  18. python 答题卡识别_opencv+python机读卡识别(初级版)
  19. ipcs、ipcrm、sysresv、kernel.shmmax
  20. 你可曾知道,Java为什么需要虚拟机?

热门文章

  1. 【一本通评测 1371】【堆】看病
  2. 网络安全从业人员有什么样的职业优势?
  3. 【软件】eclipse
  4. netscaler添加普通账户
  5. 幼儿园体质测试软件,幼儿园儿童体质测试标准
  6. 小程序动画加载只执行一次的问题
  7. 打破创作界限,1天创作1000篇精品小红书带货笔记!chatgpt超级写手机器人创作流程介绍。
  8. 《软件工程》期末试卷及答案
  9. MacOS+Win10 双系统引导程序 Clover 的修复
  10. 计算小牛电动车的理论最大爬坡能力,很弱!!