《数据科学家养成手册》第八章---统计学
数理统计的鼻祖------阿道夫.凯特勒
1.凯特勒的“平均人”思想
凯特勒运用概率论的方法进一步的研究了社会道德领域的大量统计资料,发现“在我们对大多数人进行观察的时候,人的意志就平均化起来,并且不留任何显著的痕迹。所有部分一直的作用,和纯粹受偶然原因做制约的各种现象一样,他们即被中和或抵消了”
2.统计学中一些基本的概念
(1).总体(population):所研究的全部个体(数据)的集合。
(2).样本(sample):总体中抽出来的一部分元素
(3).参数(Parameter):用来描述总体特征的概括性的数字度量,是研究者想要了解的总体的某种特征值。研究者通常所关心的参数有:总体平均数,总体标准差,总体比例等
3.误差
误差是一种客观存在的现象。误差只能尽量的去减少,但是不能消除。
(1)抽样误差(sampling error)
指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为,所以无法避免“以偏概全”的情况发生
import random
population = [0 for i in range(10000)]
for i in range(1000):population[i] = 1
for iterator in range(1000):sample = [0 for i in range(100)]for i in range(100):sample[i] = population[random.randrange(10000)]count = 0for i in range(100):count+=sample[i]print (float(count)/100)
(1)通过代码会得到相应的实验结果
(2)列出相应的统计表格
(3)做出函数图像,或分布曲线
减少抽样误差的方法
(1)增加样本数目
(2)使用卡法分布方法
(2)非抽样误差
8.7概括性度量
(1)众数 (mode)
(2)中位数
(3)平均数(mean)
(4)加权平均数(weighted mean)
8.7.2 离散程度的度量
(1)方差
(2)标准差
(3)级差
概率与分布--古典概率(1)事件有限(2)每次出现的可能相同
使用Python模拟一枚硬币的抛掷问题
import randomcoins =[0 for i in range(1000)]
proportion = [0 for i in range(1000)]for i in range(1000):coins[i] = random.randrange(2)sum = 0for j in range(i+1):sum+=coins[j]proportion[i] = (float(sum)/(i+1))print ('%.3f' %proportion[i])
8.8.1数学期望(Mean)
:在试验中每次可能结果的概率乘以其结果的综合的平均值
对于离散的:
对于连续的:
世界中的任何事物每时每刻都在进行着改变,我们没有办法做一个“快照”,故而我们的数据总的说来都是存在抽样框误差的啊
正态分布:
(1)组成正态分布的因子是正态分布
(2)正态分布的叠加为承台分布
设Xn为一个是随机变量,且服从参数为p的二项分布(又称为伯努利分布),则对于任意一的x恒有:
资源:
伯努利分布、二项分布、几何分布、超几何分布、泊松分布 - CSDN博客
https://blog.csdn.net/zlbflying/article/details/47777943
伯努利分布是专门的研究一个随机过程中事件x发生的概率P和不发生的概率1-p的随机过程中的概率定量计算问题
泊松分布的参数λ是单位时间(或单位面积)没随机事件的平均发生率。它适合描述单位时间内随机事件发生的次数
卡方分布:n个服从标准正态分布的随机变量的平方和
卡方分布(Chi-squared Distribution) - CSDN博客
https://blog.csdn.net/huangjx36/article/details/78002996
每天一点统计学——卡方分布
http://baijiahao.baidu.com/s?id=1562063886038915&wfr=spider&for=pc
统计学是大数据存在的基础
《数据科学家养成手册》第八章---统计学相关推荐
- 《数据科学家养成手册》--第十一章算法学2---(非监督,监督贝叶斯概率以及损失函数)
11.8 机器学习-----自动归纳 数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科. 只知道自己想学习的是数据挖掘和大数据,但是真的说出个所以然自己真的办不到.现在说是一种算法学科,忽 ...
- 《数据科学家养成手册》第十章--混沌论
<For the want of nail> For the want of a nail, the shoe was lost;for want of a shoe, the horse ...
- 《数据科学家养成手册》第十一章------算法学1(穷举,分治,回溯,贪心,迭代)
1.对于计算机学科的人员,无论是怎么样子的工作都是需要了解算法的-----从而获得解决日常问题的基本的思路 2.计算机底层的数理计算逻辑仍然是"与""或"&qu ...
- 《数据科学家养成手册》第九章信息论
事先声明: 兴趣使然,阅读书籍的过程中看了一些资料,但并不能看太懂 信息论是围绕数据存储于传输量化等一系列问题所展开的一门专门研究信息的学科. 一句话总结作者:"在某一种设定情况下,最简洁可 ...
- 《数据科学家养成手册》--第四章---数据科学的使命
4.1.2 从信息到数据 1948年香农(好像吐槽输入法)发表的论文<通信的数学理论>(A Mathematical Theory of Communication)其中的话: if t ...
- 《数据科学家养成手册》--“什么性质的人才能称得上科学家?” “科学的意思”
什么性质的人才称为科学家? 有的时候我们会就的科学家就像是明星一样,距离我们很遥远(自己觉的比明星遥远的多)但是,他们都是凡人啊.都和我们是一样的啊.为什么有想法不勇敢的去追求这个目标? 科学 &qu ...
- 《数据科学家养成手册》第十一章----算法学(非线性回归)
对于非线性回归,通常的思路: (1)把它转化为线性回归模型进行拟合,其余不能转换的则通过经验,观察,多次尝试等法进行拟合,博能够从中找去拟合误差最小的情况. 常用的线性回归模型: (1)双曲线 双 ...
- 《数据科学家养成手册》第五章---矛盾的世界笔记
(1)世界中存在继续多相互矛盾的事物.矛盾通常是指事物相互影响和对立的关系.比如太阳的东升的同时没有办法西落. (2)数学中的虚数是与现实世界的实数相对的.虚数和实数的结合形成复数,通过复数构建的矢量 ...
- 《数据科学家养成手册》傅里叶变换与反傅里叶变换笔记
最早的电话使用的模拟信号原理图 (1)声音通过金属振动膜感应声波来影响磁场和电流,并将这种带有金属振动膜振动的"信息"的电流传递给另一端 (2)另一端则进行反向工作,把不断变化的电 ...
最新文章
- ui曲线谁是横坐标_vue项目引入echarts折线图 横坐标显示问题
- Puppet之简单安装Nginx
- Rust 1.27支持SIMD
- oracle 071,Oracle_071_lesson_p3
- hibernate继承关系映射方法(三)--每个具体类一张表TPC
- python基础-文件操作(10)
- Vue Vuex todo举例
- 将Spring Boot作为守护进程启动的一种简单的方法
- 螺旋测微器 flash_使用测微计收集应用程序指标
- java右移位_java中的左移 右移
- Matlab--colorbar的各项细节操作
- 记一次线上coredump事故
- 计算机系统-记录Bochs调试器几个常用命令
- svn 命令行_Ubuntu下Subversion(SVN)的快速安装与配置
- Laravel深入学习3 - 接口约定
- 如何使用计算机小学生课件,小学生计算机课件
- 2022年MathorCup A题资料汇总
- PR自学之软件的安装
- WSO2 ESB 5.0.0 配置 JMS 传输(ActiveMQ)- 主题消息发布与订阅
- Android中实现类似探探中图片左右滑动切换效果
热门文章
- RHEL6 64位系统安装ORACLE 10g 64bit 数据库
- 【VMCloud云平台】SCO(四)流程准备
- C#拉姆达(=)表达式
- 编写jQueryUI插件(widget)
- 区块链学堂:区块链引子
- 同步等待 异步等待_异步/等待和承诺的解释
- java 学到什么实习_我如何获得外展实习机会以及到目前为止所学到的知识
- IDEA IntelliJ 如何给web项目配置tomcat
- 安卓环境搭建 unable to access Android SDK add-on list解决方案
- 接口测试和单元测试的区别