1.总体(Population)与样本(Sample)

  • 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。
  • 一般都是采用样本估计总体的方式,毕竟总体数量太大,将总体可划分为训练集,验证集和测试集。

2.均值(mean)

令总体数为N,样本数为n,每一个样本的取值用表示xix_{i}xi​,则:

  • 总体均值:μ=1N∑i=1Nxi\mu=\frac{1}{N} \sum_{i=1}^{N} x_{i}μ=N1​∑i=1N​xi​
  • 样本均值:x‾=1n∑i=1nxi\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}x=n1​∑i=1n​xi​

3.方差(Variance)与标准差(Standard deviation)

方差和标准差描述的是数据的离散程度,也就是远离中心的程度:

  • 总体方差:σ2=1N∑i=1N(xi−μ)2\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}σ2=N1​∑i=1N​(xi​−μ)2
  • 样本方差:sn2=1n∑i=1n(xi−x‾)2s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}sn2​=n1​∑i=1n​(xi​−x)2

这个公式计算的方差通常会低估总体的方差:当样本分布与总体分布相近时,计算得到的样本均值接近总体均值,这时得到的样本方差也就接近总体方差;但是可能的情况是,采样得到的样本与总体偏差较大时(有偏的),由于样本均值总是分布在样本点的中心,这时样本点与样本均值之间的距离小于与总体均值的距离,计算得到的样本方差小于总体方差。这是一种更普遍的情况,因此用上式计算得到的方差通常会低估总体方差。

  • 无偏的样本方差:s2=1n−1∑i=1n(xi−x‾)2s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}s2=n−11​∑i=1n​(xi​−x)2

将分母改为n-1,相当于以一个大于1的系数修正了有偏的方差。实验证明,这个公式能更好地估计总体方差。上述情况是在我们不知道总体的均值时,否则就不需要用n-1来保持无偏了。

  • 总体标准差:σ=1N∑i=1N(xi−μ)2\sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}σ=N1​∑i=1N​(xi​−μ)2​
  • 样本标准差: s=1n−1∑i=1n(xi−x‾)2s=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}s=n−11​∑i=1n​(xi​−x)2​

4.随机变量、概率密度函数、期望

  • 随机变量实际上是一种函数,只有在随机过程中才给它赋值。

  • 概率密度函数下方的面积表示的才是概率,是概率密度函数在某一个区间内的积分。任何一个确切的点的概率值为0

  • 期望值(Expected value):对于随机变量来说,总体数是无穷的,计算总体均值时我们无法将所有的值相加再除以无穷。因此,将每个数值的出现的频率乘以数值然后对所有数值求和,就得到了期望。期望值实际上等同于总体均值。

5.二项分布

二项分布就是重复n次独立的伯努利实验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立实验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

用p表示一次实验中成功的概率,1-p表示一次实验中失败的概率,则二项分布n次独立重复性实验中,成功的次数k的概率为:

  • P(x=k)=n!k!(n−k)!pk(1−p)n−kP(x=k)=\frac{n !}{k !(n-k) !} p^{k}(1-p)^{n-k}P(x=k)=k!(n−k)!n!​pk(1−p)n−k

6.二项分布的期望

E(X)=npE(x)=∑k=0nk⋅(nk)⋅pk(1−p)n−k=∑k=0nk⋅n!k!(n−k)!⋅pk(1−p)n−k=∑k=1nk⋅n(n−1)!k(k−1)!(n−k)!⋅p⋅pk−1(1−p)n−k=np∑a=0n−1b!a(k−1)!(n−k)!⋅p⋅pk−1(1−p)n−k=npn−1b!a!(b−a)!⋅p⋅pk−1(1−p)n−k=np⋅1=np\begin{aligned} E(X) &=n p \\ E(\mathrm{x}) &=\sum_{k=0}^{n} k \cdot\left(\begin{array}{c}{n} \\ {k}\end{array}\right) \cdot p^{k}(1-p)^{n-k} \\ &=\sum_{k=0}^{n} k \cdot \frac{n !}{k !(n-k) !} \cdot p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k \cdot \frac{n(n-1) !}{k(k-1) !(n-k) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p \sum_{a=0}^{n-1} \frac{b !}{a(k-1) !(n-k) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p^{n-1} \frac{b !}{a !(b-a) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p \cdot 1 \\ &=n p \end{aligned}E(X)E(x)​=np=k=0∑n​k⋅(nk​)⋅pk(1−p)n−k=k=0∑n​k⋅k!(n−k)!n!​⋅pk(1−p)n−k=k=1∑n​k⋅k(k−1)!(n−k)!n(n−1)!​⋅p⋅pk−1(1−p)n−k=npa=0∑n−1​a(k−1)!(n−k)!b!​⋅p⋅pk−1(1−p)n−k=npn−1a!(b−a)!b!​⋅p⋅pk−1(1−p)n−k=np⋅1=np​

二项分布的方差:E(X)=np(1−p)E(X)=n p(1-p)E(X)=np(1−p)

可汗学院学习总结(一)相关推荐

  1. 程序员课外拓展007:强烈推荐一个自学网:可汗学院

    可汗学院 据说有个叫萨尔曼·可汗(SalmanKhan)的小伙子创办了一所<可汗学院>,这个学院只有一个老师.一台电脑,却有一千万学生,曾经的世界首富比尔盖茨是他粉丝,教育大佬俞敏洪的儿子 ...

  2. 可汗学院创始人:GPT-4 将如何改变教育行业?

    公众号关注 "GitHubDaily" 设为 "星标",每天带你逛 GitHub! 当你想了解 AI 将如何冲击某一个行业时,最好的做法就是去观察.了解该行业大 ...

  3. 可汗学院的数学从零开始学习顺序?

    网易公开课有字幕 链接:https://www.zhihu.com/question/22655681/answer/110949482 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  4. 统计学(可汗学院视频62-81集笔记)

    资料链接 本次统计学学习以网易云可汗学院公开课为主: 视频链接:http://open.163.com/special/Khan/khstatistics.html 并以<深入浅出统计学> ...

  5. 可汗学院为什么选择Go

    不忘初心,砥砺前行 作者 | 陌无崖 转载请联系授权 Go + Service = One Goliath Project Kevin Dangoor on December 20th Khan Ac ...

  6. 可汗学院计算机课程都有哪些,要录制可汗学院教学视频你需要哪些硬件和软件?...

    很多人看了可汗学院可汗老师的教学视频,特别是很多老师,都有一种冲动,扔掉该死的PPT,拿起粉笔边写边讲,并且把这个过程录制下来放在网上分享給更多的人. "可汗说,那时,他每天下班后,就一头扎 ...

  7. 可汗学院统计学1-16课笔记

    [第1课] 均值 中位数 众数 均值(平均值) = 数据之和 / 数据个数 中位数 = 数据排序后,处在中间的数(如果两位数取平均值) 众数 = 出现次数最多的数,一组数据可以有多个众数 import ...

  8. 可汗学院统计学17-24课笔记

    [转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...

  9. 可汗学院统计学笔记1

    可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...

最新文章

  1. 《微信公众平台应用开发实战(第2版)》一导读
  2. s2 devMode cmdshell
  3. HDU 4256 翻译罗马数字
  4. linux6.2 网络yum,配置RHEL6.2的YUM源
  5. 5G毫米波三大自然缺陷
  6. C++类继承 函数调用顺序
  7. 使用代码更新 UIVersion 属性
  8. 【amp;#9733;】Web精彩实战之amp;lt;智能迷宫amp;gt;
  9. vb 修改sql数据库服务器,vb连接服务器sql数据库
  10. Android 省市区街道 四级联动
  11. Windows系统下GIT生成密钥和添加密钥git
  12. 计算机不驱动u盘启动,电脑U盘驱动没有启用的解决方法
  13. 谷歌、百度你更看好哪一个?
  14. 不等距双杆模型_对磁场中双杆模型问题的解析(精)
  15. freetype用法
  16. 安装目录里无法找到计算机,Win7系统下programdata文件夹找不到怎么办?
  17. Web 站点提速的最佳实践(Best Practices for Speeding Up Your Web Site)
  18. Newstar Ctf 2022| week2 wp
  19. 西门子PLC学习笔记六-(Step7指令简介)
  20. Cloudcompare点云渲染的多种方式

热门文章

  1. Rational 最新软件试用下载地址
  2. 找不到可插入的ISAM
  3. 从面向对象的设计模式看软件设计
  4. 神经网络深度(Deepth)的影响
  5. 阅读《基于知识图谱技术的数据资产管理设计与应用验证研究》笔记
  6. Quicker用谷歌浏览器打开网址链接
  7. winmail不用服务器系统可以吗,用Winmail架设安全可靠的邮件服务器
  8. 基于BLG7289的数码管显示
  9. mysql 转义字符 escape_mysql 的Escape转义字符串
  10. BASLER Pylon 抓取策略