线性回归:在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系,对于需要预测结果的新数据,我们利用已经拟合好的线性模型来预测其结果。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。

拟合方程使用得比较广泛的有最小二乘法。

线性模型在二维空间中就是一条直线,在三维空间是一个平面。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

最小二乘法:考虑函数 y=a+bx, 其中a 和 b是待定常数。 如果离散点完全的在一直线上,可以认为变量之间的关系为一元函数 。但一般说来,这些点不可能在同一直线上。但是它只能用直线来描述时, 计算值与实际值会产生偏差。当然要求偏差越小越好,但由于偏差可正可负, 因此不能认为总偏差 时, 拟合函数很好地反映了变量之间的关系,但是因为此时每个偏差的绝对值可能很大。 为了改进这一缺陷, 就考虑用平均值来代替 。但是由于绝对值不易作解析运算,因此,进一步用残差平方和函数来度量总偏差。偏差的平方和最小可以保证每个偏差都不会很大。于是问题归结为确定拟合函数中的常数和使残差平方和函数最小。 通过这种方法确定系数的方法称为最小二乘法。例:
https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D390/sign=1176660f84cb39dbc5c0615fe01709a7/f703738da97739127fa98784fd198618377ae24c.jpg
回归方程误差:

卡方分布:
 
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

卡方分布是由正态分布构造而成的一个新的分布,当自由度很大时,分布近似为正态分布。

卡方分布的 期望E(χ2)=n,方差D(χ2)=2n

性质:
在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数的增大,分布趋近于正态分布;卡方分布密度曲线下的面积都是1。

从均值与方差可以看出,随着自由度的增大,卡方分布向正无穷方向延伸(因为均值越来越大),分布曲线也越来越低阔(因为方差越来越大)。

不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。

分布的方差为2倍的自由度。

方差分析:用于两个及两个以上样本均数差别的显著性检验。

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:

(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。

总偏差平方和 SSt = SSb + SSw。

统计学习之第四天(可汗学院公开课:统计学)相关推荐

  1. 北大光华管理学院公开课北京站

    基本情况 公开课时间 2018年9月9日(周日)14:00-16:30 公开课地点 北京大学光华管理学院2号楼阿里巴巴报告厅 活动流程 14:00-14:20 北大光华教育理念分享(赵龙凯教授) 14 ...

  2. sas统计学习笔记(四)

    有时候列联表的情况很负责,比如某个因素的每个水平上都有一个2×2列联表,一种用于分析多层2×2表的方法是Mantel-Haenszel卡方统计量,这个技术有时也叫元分析.用sas软件计算分层表的卡方值 ...

  3. Khan公开课 - 统计学学习笔记 (四)泊松分布 大数定理

    泊松分布 假设概率分布是一致的,例如不会因时间段不同而异,又假设各事件的概率是不相关的(即不相互影响),符合泊松分布Poission distribution.例如某个路口一小时内有多少量车经过. E ...

  4. 学习笔记 吴恩达 斯坦福大学公开课 :机器学习课程-1 机器学习的动机与应用

    机器学习的动机与应用 1,机器学习的定义 1959:"Field of study that gives computers the ability to learn without bei ...

  5. 清华大学计算机学院公开课,清华大学公开课

    简介: [第1课] 本节课主要内容包括:什么是生涯规划?为什么要做生涯规划?怎样做生涯规划? [第2课] 本节课内容将延续上一节,继续讲解:什么是生涯规划?为什么要做生涯规划?怎样做生涯规划? [第3 ...

  6. 黑马程序员UI设计学院公开课,10月18日开讲啦!

    揭秘网红照"骗"的那点秘密公开课,重磅来袭! 本期导读: 如今的大众文化圈,已经不再单纯.平民狂欢造就一茬又一茬的网络红人.这是多元的时代使然,不修片不发图,充斥在互联网上的网红的 ...

  7. 可汗学院的数学从零开始学习顺序?

    网易公开课有字幕 链接:https://www.zhihu.com/question/22655681/answer/110949482 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  8. 统计学(可汗学院视频62-81集笔记)

    资料链接 本次统计学学习以网易云可汗学院公开课为主: 视频链接:http://open.163.com/special/Khan/khstatistics.html 并以<深入浅出统计学> ...

  9. 统计计量 :统计学公开课大盘点(附下载)

    统计学博大精深,用途广泛,是一门非常重要的基础课程.在接触了一些统计学公开课后,发现网络上还有很多的免费的在线统计学课程可以用来学习和复习相关的知识点,只是缺乏一些整理和汇总.所以决定在这里做一些系统 ...

  10. 统计学习导论之R语言应用(四):分类算法R语言代码实战

    统计学习导论之R语言应用(ISLR) 参考资料: The Elements of Statistical Learning An Introduction to Statistical Learnin ...

最新文章

  1. 独家 | Python时间序列分析:一项基于案例的全面指南
  2. Confluence 6 复杂授权或性能问题
  3. 我们可以写100%,但是这样不科学
  4. NuGet社区使用体验调查
  5. nginx 实现负载均衡
  6. 网络攻防WEB入门指南
  7. 20HZ信号发生器电路图
  8. WPS如何一页一页设置页眉
  9. java 微信分享朋友圈 链接显示图片_【微信开发】-- 微信分享功能(分享到朋友和朋友圈显示图片和简介)...
  10. Flutter安装后出现HTTP host not reachable.
  11. 软件工程第五次作业——第二次结对编程
  12. 神经网络中单层神经元表示逻辑运算
  13. Node如何去除短视频水印?
  14. android打包发布流程,从源文件到APK-Android打包流程
  15. 盲孔、通孔和埋孔的区别
  16. Ansible-playbook 运维笔记
  17. 为啥大公司只要全栈工程师?
  18. 设计模式之观察者模式 1
  19. LQ0215 绳圈【DP】
  20. ANN神经网络入门——分类问题(MATLAB)

热门文章

  1. python电影数据分析报告_电影数据可视化项目分析报告
  2. 计算机目录的制作步骤,怎么用word2003制作目录
  3. Android使用FFmpeg 解码H264并播放(三)
  4. 计算机网络教程(第四版)
  5. PTA---L2-016 愿天下有情人都是失散多年的兄妹(深度优先)
  6. 无法找到c语言dll入口点,c# – 无法在DLL中找到入口点
  7. 逆向实战 2#去除程序注册、正版校验,绕过联网校验
  8. 混淆矩阵 Confusion Matrix
  9. Matplotlib confusion map显示不全
  10. CMS采集插件-CMS自动采集插件免费