从零开始数据科学与机器学习算法-知识点补充-00

知识拓展-python与统计学

1.Descriptive statistics 描述性统计

2.Inferential statistics 推断性统计：步骤如下：
sample样本(sample statistic样本统计) --sampling抽样(estimate估计)–> 总体population(parameter参数)

1)sampling 先抽样
2)estimate 然后估计：

1.Point estimation
- 例如：想了解一个学校学生的身高情况，就可以随机抽取一部分学生测量他们的身高，得到一个平均值，再用这个样本的均值去估计整体学生的身高情况，就是点估计
2.Confidence interval
- 区间估计就是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。另外一种说法，区间估计是从点估计值和抽样标准误差出发，按给定的概率值建立包含待估参数的区间，这个给定的概率值称为置信度或置信水平，这个建立起来的包含待估计参数的区间称为置信区间。置信区间是根据样本信息推导出来的可能包含总体参数的数值区间，置信水平表示置信区间的可信度；例如某学校学生的平均身高的区间估计：有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间，（1.4,1.5）为置信区间，95%是置信水平，即有95%的信心认为这个区间包含该校学生的平均身高。
  3)Hypothesis test 最后假设检验

假设性检验的核心思想

有偏与无偏估计

## 随机生成1-10的数字生成10万个
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize
figsize(15,5)
import pandas as pd
import numpy as npnp.random.seed(42)
# The population N's size is 100000
N=100000
population = pd.Series(np.random.randint(1,11,N)) # 随机生成1-10的数字生成N个
print(population)

# 模拟数据抽样
samples={}
# The size of each sample 每个样本的大小
n=30
# We are going to draw 500 times of samples and each time ,we are going to take 30 of samples.我们将抽取500次样品，每次抽取30个样品。
num_of_samples= 500
for i in range(num_of_samples):samples[i]= population.sample(n).reset_index(drop=True)samples=pd.DataFrame(samples) # 放入datafram中
samples

# （Delta degree of freedom） ddof=0 diveded by n ddof=1 divided by n-1
biased_samples=samples.var(ddof=0).to_frame() # ddof=0
biased_samples

biased_samples=biased_samples.expanding().mean() # 有偏
biased_samples

biased_samples.columns=["biased var estimate (divided by n)"]
biased_samples

unbiased_sample=samples.var(ddof=1).to_frame()#无偏
unbiased_sample

unbiased_sample=unbiased_sample.expanding().mean()
unbiased_sample

unbiased_sample.columns=["unbiased var estimate(divided by n-1)"]
unbiased_sample

ax=unbiased_sample.plot()
biased_samples.plot(ax=ax)
real_population_variance=pd.Series(population.var(ddof=0),index=samples.columns)
real_population_variance.plot()

从零开始数据科学与机器学习算法-知识点补充-00相关推荐

从零开始数据科学与机器学习算法-数据预处理与基准模型-01
读取数据函数 from csv import reader # 导入库 def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数file = open ...
从零开始数据科学与机器学习算法-人工神经网络与反向传播-09
概述 rectifier其实就是一种模仿生物的激活机制的函数 (activation function) 常见的激活函数 https://en.wikipedia.org/wiki/Rectifier ...
从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08
LVQ概述通常,我们使用LVQ方法用在分类问题上. codebook vector(是一系列数字,与你训练数据里的input与output相关的特征一样) 例: 1.class 0,1 2.widt ...
从零开始数据科学与机器学习算法-KNN分类算法-07
KNN概念物以类聚 1.k--超参数(hyper-parameter) 2.k最好为奇数(no even number , better be odd) 3.k大小有学问: k太小:outliers ...
从零开始数据科学与机器学习算法-朴素贝叶斯-07
朴素贝叶斯概念例子:邮件分类问题: N = (12/17)*(5/11)*(3/11) S = (5/17)*(2/7)*(1/7)print(N) print(S) # N>S 我们可以判断 ...
从零开始数据科学与机器学习算法-分类与决策树-06
例:有没有心脏病? -------1胸痛---------2血液循环良好-----------3.动脉阻塞-------------4心脏病(HD) 01.------No-------------- ...
从零开始数据科学与机器学习算法-简单感知器-05
如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable 如下图有明显特征但是不能通过线性进行切分称为线性不可分我们可以在拿到数据后进行基本的判断,然后确定是 ...
从零开始数据科学与机器学习算法-线性回归-02
简单线性回归 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns ...
从零开始数据科学与机器学习算法-集成算法-10
概述把各种model综合起来--让预测更准确.更加稳定(做平均) 在随机森林里面的超参数(hyper-parameter): 1.对于每一棵树,要选取特性(features),假设总共有n个feat ...

从零开始数据科学与机器学习算法-知识点补充-00

知识拓展-python与统计学

假设性检验的核心思想

有偏与无偏估计

从零开始数据科学与机器学习算法-知识点补充-00相关推荐

最新文章

热门文章