前文:AI遮天传 ML-回归分析入门_老师我作业忘带了的博客-CSDN博客

前文回顾:

还记得很久很久以前,我们学习了简单的回归分析,这其实与我们在学校所学的求解回归方程并没无太大的区别,或许仅是维度不同。

我们当时通过定义损失函数,让损失函数结果最小,来达到更好的回归效果。

多种损失函数都是可行的,考虑到优化等问题,最常用的是基于误差平方和的损失函数:

• 用误差平方和作为损失函数有很多优点

• 损失函数是严格的凸函数,有唯一解

• 求解过程简单且容易计算

• 同时也伴随着一些缺点

• 结果对数据中的“离群点”(outlier)非常敏感

• 解决方法:提前检测离群点并去除

• 损失函数对于超过和低于真实值的预测是等价的

• 但有些真实情况下二者带来的影响是不同的

为了找到最优的斜率和截距,我们使用最小二乘法求解出了相应系数:

当然,对于多维:

当因变量有多个时,我们可以用矩阵方式表达

基于以上矩阵表示,可以写为

此时:

注:

  • 矩阵X的第一列都是1,其与β相乘表示截距。
  • 损失函数结果还是数字
  • 通过最小二乘法得到求解β的公式

例如:

记录了 25 个家庭每年在快销品和日常服务