知识拓展-python与统计学

1.Descriptive statistics 描述性统计

2.Inferential statistics 推断性统计:步骤如下:
sample样本(sample statistic样本统计) --sampling抽样(estimate估计)–> 总体population(parameter参数)

1)sampling 先抽样
2)estimate 然后估计:

  • 1.Point estimation

    • 例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计
  • 2.Confidence interval
    • 区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。 置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
      3)Hypothesis test 最后假设检验

假设性检验的核心思想


有偏与无偏估计

## 随机生成1-10的数字生成10万个
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize
figsize(15,5)
import pandas as pd
import numpy as npnp.random.seed(42)
# The population N's size is 100000
N=100000
population = pd.Series(np.random.randint(1,11,N)) # 随机生成1-10的数字生成N个
print(population)

# 模拟数据抽样
samples={}
# The size of each sample 每个样本的大小
n=30
# We are going to draw 500 times of samples and each time ,we are going to take 30 of samples.我们将抽取500次样品,每次抽取30个样品。
num_of_samples= 500
for i in range(num_of_samples):samples[i]= population.sample(n).reset_index(drop=True)samples=pd.DataFrame(samples) # 放入datafram中
samples

# (Delta degree of freedom) ddof=0 diveded by n ddof=1 divided by n-1
biased_samples=samples.var(ddof=0).to_frame() # ddof=0
biased_samples


biased_samples=biased_samples.expanding().mean() # 有偏
biased_samples

biased_samples.columns=["biased var estimate (divided by n)"]
biased_samples


unbiased_sample=samples.var(ddof=1).to_frame()#无偏
unbiased_sample

unbiased_sample=unbiased_sample.expanding().mean()
unbiased_sample

unbiased_sample.columns=["unbiased var estimate(divided by n-1)"]
unbiased_sample

ax=unbiased_sample.plot()
biased_samples.plot(ax=ax)
real_population_variance=pd.Series(population.var(ddof=0),index=samples.columns)
real_population_variance.plot()







从零开始数据科学与机器学习算法-知识点补充-00相关推荐

  1. 从零开始数据科学与机器学习算法-数据预处理与基准模型-01

    读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数file = open ...

  2. 从零开始数据科学与机器学习算法-人工神经网络与反向传播-09

    概述 rectifier其实就是一种模仿生物的激活机制的函数 (activation function) 常见的激活函数 https://en.wikipedia.org/wiki/Rectifier ...

  3. 从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08

    LVQ概述 通常,我们使用LVQ方法用在分类问题上. codebook vector(是一系列数字,与你训练数据里的input与output相关的特征一样) 例: 1.class 0,1 2.widt ...

  4. 从零开始数据科学与机器学习算法-KNN分类算法-07

    KNN概念 物以类聚 1.k--超参数(hyper-parameter) 2.k最好为奇数(no even number , better be odd) 3.k大小有学问: k太小:outliers ...

  5. 从零开始数据科学与机器学习算法-朴素贝叶斯-07

    朴素贝叶斯概念 例子:邮件分类问题: N = (12/17)*(5/11)*(3/11) S = (5/17)*(2/7)*(1/7)print(N) print(S) # N>S 我们可以判断 ...

  6. 从零开始数据科学与机器学习算法-分类与决策树-06

    例:有没有心脏病? -------1胸痛---------2血液循环良好-----------3.动脉阻塞-------------4心脏病(HD) 01.------No-------------- ...

  7. 从零开始数据科学与机器学习算法-简单感知器-05

    如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable 如下图有明显特征但是不能通过线性进行切分称为线性不可分 我们可以在拿到数据后进行基本的判断,然后确定是 ...

  8. 从零开始数据科学与机器学习算法-线性回归-02

    简单线性回归 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns ...

  9. 从零开始数据科学与机器学习算法-集成算法-10

    概述 把各种model综合起来--让预测更准确.更加稳定(做平均) 在随机森林里面的超参数(hyper-parameter): 1.对于每一棵树,要选取特性(features),假设总共有n个feat ...

最新文章

  1. 俄罗斯最新开源的牛掰数据库ClickHouse
  2. 70.ER模型转化成关系模型是在数据库设计的第几个阶段?
  3. linux设置默认时区,关于linux:如何修改-Linux-默认时区
  4. iOS网络编程之同步、异步、请求队列
  5. Blockchain:《Blockchain applications in insurance》Deloitte—德勤区块链技术研究报告正文版—听课记录
  6. DevStack安装问题 pip安装镜像源
  7. 获取SQL Server数据库增长和收缩事件的详细信息
  8. maven scope范围
  9. 实操教程:Android部署Nanodet模型完成实时高效的物体检测
  10. 虚拟机外接USB设备情况的vMotion问题
  11. 计算机还原默认的配置,每次开电脑bios会恢复默认设置怎么办实测解决
  12. 商务网站建设与维护【12】
  13. 某大厂测开面试题解析(python)——给1-100编号,每次从中拿走奇数位数字,剩下重新编号,再拿走奇数位,循环多次到最后剩下一个数字,请返回这个数字的原始编号
  14. 通过BAPI方式展示长文本ADA_POPUP_WITH_TABLE
  15. Lua学习第二课_初探lua和lua语法
  16. document onload和window onload的区别?
  17. 赣锋锂业公布子公司赣锋国际收购澳大利亚RIM公司6.9%股权进展
  18. Vue3给table表格字段,添加超级链接,点击后跳转
  19. Vibosoft PDF Locker(PDF加密工具)v2.2.7官方版
  20. SF21 | 利用PSY指标,我们来开发一个短线模型?

热门文章

  1. PHP登录状态判定的思路
  2. linux usb 触摸屏驱动,请教大家一个linux下的usb触摸屏驱动的问题
  3. 杭州水利水电学院计算机多少学,杭州的一所很容易考上的公办本科大学——浙江水利水电学院...
  4. python删掉txt第一列_Python3.5 处理文本txt,删除不需要的行方法
  5. 【thymeleaf】th:with
  6. router-link标签学习
  7. php常用操作数组函数,PHP常见数组函数用法小结
  8. python接口测试之requests详解_Python接口测试-requests库
  9. linux怎样反向查找路径,Linux中find的用法
  10. delphi 怎么监测image有没有变动_社会舆情监测引导应对解决方案