文章目录

  • 为什么在均值未知的情况下,对方差的无偏估计时,分母是n−1n - 1n−1,而非nnn? mathematics的证明

    • 证明 E(x‾−μ)2=σ2nE(\overline{x} - \mu)^2 = \frac{\sigma^2}{n}E(x−μ)2=nσ2​,即:用当前样本的均值来估计总体样本的均值时,对误差均方少估计1n\frac{1}{n}n1​。其中x‾\overline{x}x为样本均值,μ\muμ为总样本真实均值
    • E(x‾)=E(∑i=1nxin)=∑i=1nE(xi)n=∑i=1nμn=μE(\overline{x}) = E(\frac{\sum_{i=1}^{n} x_i}{n}) = \frac{\sum_{i=1}^{n} E(x_i)}{n} = \frac{\sum_{i=1}^{n} \mu}{n} = \muE(x)=E(n∑i=1n​xi​​)=n∑i=1n​E(xi​)​=n∑i=1n​μ​=μ
    • E(x‾−μ)2=E(x‾−E(x‾))2=var(x‾)=var(∑i=1nxin)=var(∑i=1nxi)n2=var(xi)n2=n×σ2n2=σ2nE(\overline{x} - \mu)^2 = E(\overline{x} - E(\overline{x}))^2 = var(\overline{x}) = var(\frac{\sum_{i=1}^{n} x_i}{n}) = \frac{var(\sum_{i=1}^{n} x_i)}{n^2} = \frac{var(x_i)}{n^2} = \frac{n \times \sigma^2}{n^2} = \frac{\sigma^2}{n}E(x−μ)2=E(x−E(x))2=var(x)=var(n∑i=1n​xi​​)=n2var(∑i=1n​xi​)​=n2var(xi​)​=n2n×σ2​=nσ2​
  • chp2: 分布

    • 对于报告结果,答案取决于提出问题的人。目标会影响结果:如果你试图证明一个效应的重要性,那么可能选择使用强调差异的统计量
    • 遵守职业道德:使用数据进行说明是合理的,应当设计统计图形和报告清晰表达自己的观点。但是,也应该尽量诚实的报告结果,并承认结论的不确定性和研究的局限性
  • chp4: CDF(累积分布函数):将一个值映射到百分位秩

    • PMF(概率质量函数)的局限:PMF适用于变量值较少的情况,随着变量值的数量增加,每个值对应的概率会越来越小,随机噪音的影响就变大
  • chp5:分布建模

    • 对于分析分布,我们可以通过一些转换来验证一个分析分布模型是否适用于一个数据集

      • 正态分布:正态概率图(normal probability plot)

        • 困难方法:维基百科
        • 简单方法:
          • 正态CDF匹配:

            • 样本数据的cdf,与mu=样本均值,sigma=样本sigma的正态分布cdf的曲线拟合程序(若拟合很好,进入下一步(若正态分布的CDF与log正态分布的CDF均吻合,需要判断哪个模型更适合))
          • 正态概率图匹配:
            • 样本数据按数值排序
            • 从一个标准正态分布从生成一个随机样本,并排序(排序方法同上),随机样本容量同上的样本容量
            • y = 排序后的样本数据1(需要建模的数据集), x = 排序后的随机样本排序2(标准正态分布生成的随机样本)
            • 结论:如果是直线,则样本数据符合正态分布,mu=截距,sigmal=斜率
    • Pareto分布

      • 来源:经济学家Vilfredo Pareto来描述财富分布的,目前应用于描述各种自然和社会科学现象:如城镇人口规模,沙粒和流星,森林火灾和地震等
      • CDF:CDF(x)=1−xx0−1αCDF(x) = 1 - \frac{x}{x_0}^{-\frac{1}{\alpha}}CDF(x)=1−x0​x​−α1​,其中:参数x0x_0x0​和α\alphaα决定了分布的位置和形状,x0x_0x0​是分布中可能出现的极小值
    • 判断数据符合哪种分布

      • 拟合:原始数据(x)与估计分布(按估计分布生成的随机数y)进行对比
      • 检验:
        • kstest:双侧检验:检验某样本是否服从指定分布;单侧检验:是否在指定的分布函数之下或之上
        • ktest2:双侧检验:检验两个样本是否服从相同的分布;单侧检验:检验一个样本的分布函数是否在另一个样本的分布函数之上或者之
        • lillietest:检验样本是否服从指定的分布(默认情况下为正态分布) 注意这里分布的参数是根据样本估计的,而上面两种检验的参数时分布的,而非样本估计的
  • chp6:PDF(概率密度函数)

    • CDF的导数,为PDF

    • 密度(density):单位体积的质量;故概率密度为单位x的概率,即P = 在x的取值范围上的积分

    • 核密度估计(Kernel density estimation, KDE):对一个样本寻找符合样本数据的适当平滑PDF

      • 可视化:数据探索阶段,展示分布的最佳方式是CDF(不是柱状图么(pmf/pdf)?),观察CDF之后,可以判断估计PDF是否为该分布的适宜模型
      • 插值:使用kde为样本中不存在的值插入相应的密度
        # 一维插值np.interp(x, xs, kde_value)
      
      • 模拟:对于小样本集,可以通过使用kde对样本分布进行平滑处理
    • PMF,CDF,PDF关系

      • 离散: PMF --> 求和 --> CDF/CMF --> 求差 --> PMF
      • 连续: PDF --> 积分 --> CDF --> 求导 --> PDF
      • PDF --> 离散化 --> PMF
      • 离散CDF --> 平滑 --> 连续CDF
      • 连续
        • 连续函数
        • kde
    • 矩(moment)

      • 原始矩(raw moment) 1n×∑ixik\frac{1}{n} \times \sum_{i} x_i^kn1​×∑i​xik​
      • 中心矩(central moment): 基于数据乘方之和。第k个中心矩:mk=1n×∑i(xi−x‾)km_k = \frac{1}{n} \times \sum_{i} (x_i - \overline{x})^kmk​=n1​×∑i​(xi​−x)k
      • k = 1: 第一中心距:均值
      • k = 2: 第二中心距:方差
      • k = 3: 第二中心距:偏度
    • 偏度(skewness):描述分布形状的一个属性。若分布以集中趋势为中心对称的,那么这个分布就是非偏斜(unskewed)

      • 负值:左偏
      • 正值:右偏
      • 用均值和中位数的关系来判别是否对称,比偏度好(偏度受离群点影响)
    • Pearson中位数偏离系数(Pearson’s median skewness coefficient) $g_p = \frac{3 \times (\overline{x} - m)}{s} $,其中m = median(中位数), s = std

      • 该统计类是robust,受离群点影响较小(均值和标准差)
  • chp7:变量之间的关系

    • 散点图

      • 抖动(jitter): 正态分布,均匀分布
      • 饱和(saturtion): alpha(设置散点的透明度:颜色的深浅与数据的密集程度成正比)
    • 相关性

      • 难点:

        • 比较的变量使用不同的单位
        • 来自不同的分布
      • 解决方法:
        • Pearson乘积矩相关系数:标准分数(偏离均值的标准差):zi=xi−μσz_i = \frac{x_i - \mu}{\sigma}zi​=σxi​−μ​
        • Spearman秩相关系数:值转换为秩(其在所有值的排序列表中的索引):若分布偏倚或包含离群点,计算一个新变量R,st rir_iri​为xix_ixi​的秩,则无论X分布如何,R总是从1到n的均匀分布
    • 协方差:度量两个变量共同变化的趋势(与方差计算方式类比)

      • 计算方法

        • Cov(X,Y)=∑i=0n(xi−x‾)×(yi−y‾)n−1Cov(X, Y) = \frac{\sum_{i=0}^{n} (x_i - \overline{x}) \times (y_i - \overline{y})}{n - 1}Cov(X,Y)=n−1∑i=0n​(xi​−x)×(yi​−y​)​, 其中,n为X和Y的长度,至于为n还是n - 1,起决于是否需要对样本进行矫正(有偏还是无偏)
        np.cov(m=x, y=y)
        np.cov(m=[x, y])
        
    • Pearson相关系数:度量 线性 相关性

      • 计算方法

        • ρ=∑i=0nxi−x‾Sx×yi−y‾Syn=Cov(X,Y)Sx×Sy\rho = \frac{\sum_{i=0}^{n} \frac{x_i - \overline{x}}{S_x} \times \frac{y_i - \overline{y}}{S_y}}{n} = \frac{Cov(X, Y)}{S_x \times S_y}ρ=n∑i=0n​Sx​xi​−x​×Sy​yi​−y​​​=Sx​×Sy​Cov(X,Y)​,其中SxS_xSx​, SyS_ySy​为对应标准差(相关系数分母n为整个样本,不存在矫正的问题)
        np.corrcoef(x, y)
        np.corrcoef([x, y])
        df.corr(method='pearson')
        pd.Series(x).corr(pd.Series(y), method='pearson')
        
      • 离群点影响Pearson相关系数的稳健性(μ\muμ, σ\sigmaσ)

    • Spearman秩相关系数:

      • 计算方法

        • 手工计算

          • 获取x, y从大往小排序后的新数组new_x, new_y,并获取老数组x, y分别在新数组new_x, new_y下的元素下标的数组:A, B
          def sort_idx(arr):"""np.argsort默认升序返回指定排序后的当前idx"""sort_idx = np.argsort(-arr)sort_arr = arr[sort_idx]return np.array([np.where(sort_arr == num)[0][0] for num in arr])
          
          • 方法一:
          A = sort_idx(x)
          np.corrcoef(A, B)
          
          • 方法二:

            • di=A−Bd_i = A - Bdi​=A−B # 秩次差
            • n=len(x)n = len(x)n=len(x)
            • ρs=1−6×∑i=0ndi2n×(n2−1)\rho_s = 1 - \frac{6 \times \sum_{i=0}^{n} d_i^2}{n \times (n^2 - 1)}ρs​=1−n×(n2−1)6×∑i=0n​di2​​
        df.corr(method='spearman')
        pd.Series(x).corr(pd.Series(y), method='spearman')
        stats.spearmanr(a=x, b=y)
        
    • 相关性和因果关系

      • 相关性并不意味着因果关系

        • A => B:因果关系
        • B => A:因果关系
        • XX => A, B:无因果关系
      • 因果关系
        • 因素

          • 时间:两个事件发送的先后顺序(不排除 XX => A, B)
          • 随机性:样本集中,任取两个子样本集,从效应量上看样本集均值差异是否显著,若显著,则可以据此排除可能存在的虚假关系(该样本大概率存在虚假因果关系)
        • 揭示因果关系方法
          • 随机对照试验是展示因果关系的可靠方法
          • 寻找自然实验(实验组可能存在一些不易被发现的差异)
          • 回归分析(regression analysis)
  • chp8:估计

    • 标准误差(standard error: SE,也称为均方误MSE(mean)): 估计/预测均值与真实均值的差的均方根:(‾(x‾−μ)2)\overline((\overline{x} - \mu)^2)(​(x−μ)2)

      • 均方根误差(RMSE)为SE/MSE的开方
    • 置信区间(confidential interval: CI): 90%的置信区间:[5分位, 95分位]
      • 落入90%的置信区间的概率为90%的说法是错误的,参考分位数来计算置信区间
    • 抽样误差(样本层(抽样偏倚),测量值等)只是误差的来源之一,通常并不是最大的误差来源
    • 指数分布的λ\lambdaλ估计
      • 均值:x‾=1λ\overline{x} = \frac{1}{\lambda}x=λ1​。容易受到离群点的影响,{\overline{x}}的健壮性不佳

        • 结论:样本均值x‾\overline{x}x是指数分布均值1λ\frac{1}{\lambda}λ1​的无偏估计量,但1x‾\frac{1}{\overline{x}}x1​却不是{\lambda}的无偏估计量
      • 中位数:median(x)=ln⁡(2)λmedian(x) = \frac{\ln(2)}{\lambda}median(x)=λln(2)​。
      • 无论是均值估计还是中位数估计,二者的均值误差不会随着样本量的增加而趋于0
  • chp9:假设检验

    • 确定效应是真实反映整体的情况,还是偶然出现在样本中的检验方法

      • Fisher原假设检验:一次随机实验的结果不会出现小概率事件: p>0.05p > 0.05p>0.05

        • 理论依据:超几何分布(无放回产品抽样实验):非卡方检验的范畴
        • 问题
          • 误报率(false positive rate): 偶然产生的统计显著:误报率受实际效应大小的影响,通常我们无法得知实际效应大小
          • 漏报率(false negative rate):假设检验失败的概率。P = 阈值
      • Neyman-Pearson决策理论
      • Bayes推理
    • “统计显著”只能说明一个效应不太可能偶然发生,并不一定说明一个效应是重要的,或者实践中是显著的
    • P值取决于检验统计量的选择和原假设模型,有时这些因素决定了一个效应是否统计显著
    • 卡方检验
      • 原理:统计样本的实际观测值与理论推断值之间的偏离程度。卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合
      • 注意:卡方检验针对分类变量
      • 计算公式:χ2=∑i=1k(xi−n×pi)2n×pi\chi^2 = \sum_{i=1}^{k} \frac{(x_i - n \times p_i)^2}{n \times p_i}χ2=∑i=1k​n×pi​(xi​−n×pi​)2​。在0假设成立的情况下,服从自由度为k−1k-1k−1的卡方分布
      • 样本要求: 卡方分布是连续分布,频数是离散的整数形式,因此,只有当样本量比较充足的适合,才可以忽略两者间的差异。一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算
      • 用途:
        • 考察某无序分类变量各水平在两组或多组间的分布是否一致实际上
        • 检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
        • 检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0
        • 检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关
        • 检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关
        • 检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致
      • 说明:卡方检验存在一个局限:可以证明两个群组之间存在差异,但不能揭示这个差异是什么
      • 分类
        • 四格表资料的卡方检验:用于进行两个率或两个构成比的比较

          • 公式:若四个格子的频数分别为a,b,c,da, b, c, da,b,c,d,则卡方值 = n×(a×d−b×c)2a+b×c+d×a+c×b+d\frac{n \times (a \times d - b \times c)^2}{{a + b} \times {c + d} \times {a + c} \times {b + d}}a+b×c+d×a+c×b+dn×(a×d−b×c)2​,或者用如上的计算公式(拟合公式)
          • 自由度v=(行数−1)×(列数−1)自由度v = (行数 - 1) \times (列数 - 1)自由度v=(行数−1)×(列数−1)
        • 行×列表资料的卡方检验:用于多个率或多个构成比的比较。
          • 公式:r行c列表资料卡方检验的卡方值 = KaTeX parse error: Undefined control sequence: \[ at position 10: n \times \̲[̲ (\frac{A_11}{n…
        • 列联表资料的卡方检验
      • 应用条件
        • 四表格

          • 随机样本数据:两个样本独立

            • 所有的理论数T >= 5 且总样本量 n >= 40 => Pearson卡方检验
            • 所有的理论数 1 <= T < 5 且 n >= 40 => 连续性校正的卡方检验
            • 所有的理论数T < 1 或 n < 40 => Fisher’s 检验
          • 卡方检验的理论频数不能太小。
        • R * C 表卡方检验
          • R * C 表中理论数 < 5的格子 不超过 20%(1 / 5)
          • 不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
      • 应用
        • 适合度检验(检验二者接近的程度):实际执行多项式试验而得到的观察次数,与虚无假设的期望次数相比较
        • 独立性检验(检验两个属性间是否独立)
        • 统一性检验(检验两个或两个以上总体的某一特性分布)
    • 功效(power),别名 敏感度(sensitivity):反映一个检验检测出指定大小效应的能力
      • 计算:

        • 假设检验拒绝的漏报率:用同样的检验方法,对样本重采样/重复实验后计算检验值,统计检验值 > 0.05(显著阈值)的占比
        • 功效:假设检验的“正确通过率”,1 - 漏报率
      • 一般认为:80%的功效是可接受的
      • 通常:假设检验失败并不说明两个群组之间不存在差异,而是说:如果差异确实存在,这个差异太小,以至于无法在这个规模的样本中检测到
    • 多重检验的问题:误报率上升(数据集大+多重检验)。解决方法:1、调整p值;2、数据分区:一部分探索,一部分检验
    • words
      • Hypothesis Testing:假设检验
      • Null Hypothesis:原来假设
      • Statistically Significant:统计显著
      • Permutation Test:置换检验:通过重排观测数据计算p值
      • False positive:误报
      • False Negative:漏报
  • chp10: 线性最小二乘

    • 最小二乘

      • slope=∑i=1n(xi−x‾)×(yi−y‾)(xi−x‾)2=Cov(x,y)Var(x,y)slope = \frac{\sum_{i=1}^{n} (x_i - \overline{x}) \times (y_i - \overline{y})}{(x_i - \overline{x})^2} = \frac{Cov(x, y)}{Var(x, y)}slope=(xi​−x)2∑i=1n​(xi​−x)×(yi​−y​)​=Var(x,y)Cov(x,y)​
      • intercept=y‾−slope×x‾intercept = \overline{y} - slope \times \overline{x}intercept=y​−slope×x
      • 协方差:Cov(X,Y)=∑i=1n(xi−x‾)×(yi−y‾)nCov(X, Y) = \frac{\sum_{i=1}^{n} (x_i - \overline{x}) \times (y_i - \overline{y})}{n}Cov(X,Y)=n∑i=1n​(xi​−x)×(yi​−y​)​
      • 方差:Var(X,Y)=∑i=1n(xi−x‾)2nVar(X, Y) = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n}Var(X,Y)=n∑i=1n​(xi​−x)2​
    • 拟合优度(goodness of fit): 度量一个线性模型的质量和优劣
      • 残差的标准差,均方根误差
      • 决定系数(coefficient of determination, R2R^2R2): R2=1−Var(y−predicty)Var(y)R^2 = 1 - \frac{Var(y - predict_y)}{Var(y)}R2=1−Var(y)Var(y−predicty​)​,其值为:模型解释的百分比
        • 决定系数R2R^2R2与pearson相关系数ρ\rhoρ的关系:R2=ρ2R^2 = \rho^2R2=ρ2 R2R^2R2的单侧检验 等效于 ρ\rhoρ的双侧检验
      • 模型解释
        • 将原始的方差varyvar_yvary​降到残差的方差varrvar_rvarr​, pearson相关系数ρ\rhoρ的相关性只能将varyvar_yvary​降低 vary−varrvary\frac{var_y - var_r}{var_y}vary​vary​−varr​​
        • 若看到看似很强的相关性,R2R^2R2更能反映均方误差(MSE)的降低程度,而均方根误差(RMSE)的降低程度可以很好的说明预测能力/泛化能力
    • 检验线性模型
      • 检验均方误差(MSE)的显著降低是否偶然

        • 检验统计量R2R^2R2 (ρ\rhoρ, 到底是p值还是ρ\rhoρ?)
        • 原假设:变量间不存在关系
      • 检验斜率是否偶然
        • 统计检验量:最小二乘估计的斜率
        • 原假设:斜率为0(通过p值看是否统计显著)
      • 估计P值的方法
        • 计算原假设下斜率>观测斜率的概率:
        • 计算抽样分布中斜率 < 0的概率(若估计斜率为负,则计算抽样分布中斜率 > 0的概率):resample/重复实验
  • chp11:回归

    • 模型选择

      • 因变量是布尔型 => Logistic回归
      • 因变量是整数 => Poisson回归
    • 逻辑回归:
      • 模型:p=11+e−A×Xp = \frac{1}{1 + e^{-A \times X}}p=1+e−A×X1​
      • 训练过程
        • 由权重A和上面的模型公式,计算出ppp
        • 计算似然值
          • likes=y×p+(1−y)×(1−p)likes = y \times p + (1 - y) \times (1 - p)likes=y×p+(1−y)×(1−p)
          • 似然值 = likes所有元素相乘
        • 迭代:使得似然值最大的权重A,即为模型参数权重A的值
      • Newton方法:梯度下降: Wj=Wj+α×lim⁡1n(yj−A×xj)×xiW_j = W_j + \alpha \times \lim_{1}^{n} (y_j - A \times x_j) \times x_iWj​=Wj​+α×lim1n​(yj​−A×xj​)×xi​
    • words
      • maximum-likelihood estimate MLE:最大似然估计
      • dependent variable:因变量(内生变量)
      • explanatory variable:解释变量(自变量,外生变量)
      • spurious relationship:伪关系:两变量间的关系,由统计结果造成,或由模型之外但与两个变量都相关的因素导致
  • chp12:时间序列分析

    • model

      • AR:statsmodels.ar_model.AR
      • ARIMA:statsmodels.arima_model.arima
      • VAR:statsmodels.var_model.var
    • 很多分析时间序列的方法要求度量是均匀分布的
    • 观测序列是三部分的总和
      • 趋势:平滑函数
      • 季节性:日,周,月,年等:构建一个新序列,新序列 = 原序列 + 均匀分布的随机数(一定是同频(日,周,月,年等)的)
        • 例如:每周的周期,均匀分布的随机数加在周五-周日(按业务要求),其它不变
        • 新序列具有明显的季节性,若新序列与老序列具有很强的相关性,则老序列为同频的季节性
      • 噪音:趋势周围的随机变化
    • 序列相关:类似马尔科夫链。
      • 序列相关系数: 原序列移动lag位后,与原序列的pearson相关系数
      • 任何具有长期趋势的时间序列都具有很强的序列相关性
      • 序列去掉趋势后,是否依然存在相关性
        • 算出EWMA的残差: resid = df['ppg] - ewma
        • 计算相关性: corr = resid.corr(1, method=‘pearson’)
    • 自相关函数:将滞后值映射到使用该值得到的序列相关。
      • 自相关的计算:statsmodels
    • 误差来源
      • 抽样误差:预测基于估计参数,重抽样时:估计值会发生变化(参数依赖于样本)。重抽样
      • 随机变异:观测数据会在长期趋势附近随机变动,这种变异会持续出现。残差随机数
      • 建模误差:长期趋势非线性
    • 时间序列数据处理工具:自回归
    • words
      • stationary:平稳
  • chp13:生存分析

    • model

      • PH回归:statsmodels.formula.api.phreg
      • Lifelines
    • 概念
      • 生存分析(survival analysis):一种描述事务持续时间的方式
      • 研究范围
        • 人类寿命
        • 机械和电子元件的“生存期”
        • 一个事件将要发生的时间
      • 生存曲线(survival curve):一个函数:将一个持续时间ttt映射到存活时间超过ttt的概率
        • S(t)=1−CDF(t)S(t) = 1 - CDF(t)S(t)=1−CDF(t),其中CDF(t)CDF(t)CDF(t)是生存期小于或等于t的概率
      • 危险函数(hazard function):从时间ttt映射到在t结束/终止的比例
        • λ(t)=S(t)−S(t+1)S(t)=1−CDF(t)−1+CDF(t+1)1−CDF(t)=CDF(t+1)−CDF(t)1−CDF(t)=PMF(t+1)1−CDF(t)\lambda(t) = \frac{S(t) - S(t + 1)}{S(t)} = \frac{1 - CDF(t) - 1 + CDF(t + 1)}{1 - CDF(t)} = \frac{CDF(t + 1) - CDF(t)}{1 - CDF(t)} = \frac{PMF(t + 1)}{1 - CDF(t)}λ(t)=S(t)S(t)−S(t+1)​=1−CDF(t)1−CDF(t)−1+CDF(t+1)​=1−CDF(t)CDF(t+1)−CDF(t)​=1−CDF(t)PMF(t+1)​
      • 估计生存曲线
        • 病患的生存曲线,不能也不可能等全部病患死亡之后再统计CDFCDFCDF及计算生存曲线
        • 调查参与者初婚年龄。数据集提供调查参与者中已婚女性的初婚年龄和日期,对于参与者中的未婚女性,无法得知未来是否结婚。若用已婚女性的初婚年龄CDFCDFCDF计算生存曲线,会出现如下问题
          • 参与者中年龄大的女性已婚的概率更大
          • 全部是已婚女性(这不符合规律,也不可能)
        • 解决方法:Kaplan-Meier估计
      • 群组效应(cohort effect):就初婚年龄问题而言,如果参与者的相关特征不随时间变化,则没有问题。然后,出生在不同年代的女性具有不同的婚姻模式。我们可以将参与者按出生的年代分组来研究这种效应。这种由出生日期或类似事件定义的组,称为群组,各组之间的差异称为群组效应
    • words
      • survival analysis:生存分析
      • survival curve:生存曲线
      • cohort effect:群组效应
  • chp14:分析方法

    • 抽样均值x‾\overline{x}x的分布

      • 假设样本服从正态分布XN(μ,σ2)X ~ N(\mu, \sigma^2)X N(μ,σ2),抽取的样本容量为nnn

        • 多次抽样的均值x‾\overline{x}x的和,服从正态分布YN(n×μ,n×σ2)Y ~ N(n \times \mu, n \times \sigma^2)Y N(n×μ,n×σ2)
        • 将上面的正态分布Yn\frac{Y}{n}nY​,则ZN(μ,σ2n)Z ~ N(\mu, \frac{\sigma^2}{n})Z N(μ,nσ2​)
      • 即:ZZZ是抽样均值x‾\overline{x}x的分布,μ\muμ是x‾\overline{x}x无偏估计,抽样方差σ2n\frac{\sigma^2}{n}nσ2​
    • 中心极限定理:从任意分布中抽取n个值求和/求平均,随着n的增大,和/均值逐渐近似正态分布

      • 抽取的样本,必须是独立同分布。若相关,则不符合中心极限定理
      • 取值分布的均值和方差必须是有限值(Pareto分布就不符合)
      • 结果分布的收敛速度起决于分布的偏度,抽取自指数分布的值总和在nnn很小时就可以收敛,抽取自对数正态分布,收敛需要较大的nnn值
      • 应用
        • 两个样本的均值差是否显著

          • 计算样本的均值μ\muμ和方差σ2\sigma^2σ2,并生成对应的正态分布N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)
          • 生成均值和的正态分布N(n×μ,n×σ2)N(n \times \mu, n \times \sigma^2)N(n×μ,n×σ2)
          • 样本除以nnn生成正态分布:N(n×μ,n×σ2)n=>N(μ,σ2n)\frac{N(n \times \mu, n \times \sigma^2)}{n} => N(\mu, \frac{\sigma^2}{n})nN(n×μ,n×σ2)​=>N(μ,nσ2​)
          • 两个样本新生成的正态分布的μ\muμ的差值及σ\sigmaσ反映是否显著(均值差值为0,则认为来自于同一个分布)
          • 假设检验
            • 值x的单侧检验:p=1−sp.stats.norm.cdf(x,loc=μ,scale=σ)p = 1 - sp.stats.norm.cdf(x, loc=\mu, scale=\sigma)p=1−sp.stats.norm.cdf(x,loc=μ,scale=σ)
            • 值x的双侧检验:p=sp.stats.norm.cdf(−x,loc=μ,scale=σ)p = sp.stats.norm.cdf(-x, loc=\mu, scale=\sigma)p=sp.stats.norm.cdf(−x,loc=μ,scale=σ)
    • 相关性检验

      • ttt检验:对于符合正态分布且互不相关的两个变量,生成大小为nnn的样本,计算出Pearson相关系数rrr,然后计算变换相关性:t=r×n−21−r2t = r \times \sqrt{\frac{n - 2}{1 - r^2}}t=r×1−r2n−2​​,则ttt符合参数为n−2n - 2n−2的学生ttt分布

        • t=r×n−21−r2=>r=tn−2+t2t = r \times \sqrt{\frac{n - 2}{1 - r^2}} => r = \frac{t}{\sqrt{n - 2 + t^2}}t=r×1−r2n−2​​=>r=n−2+t2​t​
    • 重抽样和置换:

      • 优势

        • 易于解释和理解
        • 稳健灵活
        • 可以调试
      • 缺点:有时速度慢
      • 建议
        • 探索阶段使用计算方法。如果得到问题的统计答案,运行速度还不错,收工
        • 运行时间太长,使用分析方法就是优化方法之一
        • 如果可以使用分析方法替代一个计算方法,那么就以计算方法为比较的基础,用计算结果与分析结果相互验证
    • words

      • pdf: Probability density function:概率密度函数
      • cdf: Cumulative distribution function:累积分布函数:将一个值映射到百分位秩 => 求值对应的百分位秩
        # 计算正态分布的曲线 x 属于(-无穷, 0)的概率。置为0.5scipy.stats.norm.cdf(x=0, loc=0, scale=1)
      
      • ppf: Percent point function:百分比函数(cdf的反函数):将百分位秩映射到值 => 求百分位秩对应的值
        # 计算正态分布,当概率 p = 0.5是对应的x值。置为0scipy.stats.norm.ppf(q=0.5, loc=0, scale=1)
      

考研数学之概率论和数据统计知识点相关推荐

  1. 武汉理工计算机研究生就业去向统计,考研高校就业和薪酬数据统计:武汉理工大学...

    原标题:考研高校就业和薪酬数据统计:武汉理工大学 考研考生们最先考虑的就是择校择专业的问题,选择一个适合自己的专业和院校对以后的发展就业有很重要的影响.下面,跟随小编一起来看一下武汉理工大学就业率和薪 ...

  2. 概率论 方差公式_【考研数学】概率论与数理统计

    总论:概率论与数理统计这门课程,在考研真题中的难度是相对较小的:但由于它的概念繁杂,计算量较大,尤其是统计部分,很多同学在初学的时候都会被唬住,有的甚至放弃学概率.这种状态是要不得的,因为我总结这门课 ...

  3. 三重积分平均值_2015考研数学考前必须死磕的知识点

    高等数学共九章 第一章 函数.极限与连续 1.函数的有界性 2.极限的定义(数列.函数) 3.极限的性质(有界性.保号性) 4.极限的计算(重点)(四则运算.等价无穷小替换.洛必达法则.泰勒公式.重要 ...

  4. 【考研数学】概率论 - 随机事件和概率

    随机事件和概率 文章目录 随机事件和概率 1. 随机事件,事件间的关系和运算 1.1 概念 1.2 事件的关系与运算 2. 概率及概率公式 2.1 概念 2.2 概率公理 3. 古典概型.几何概型和伯 ...

  5. 西南交大计算机专硕薪资,考研高校就业和薪酬数据统计:西南交通大学

    2021考研考生们最先考虑的就是择校择专业的问题,选择一个适合自己的专业和院校对以后的发展就业有很重要的影响.下面,跟随小编一起来看一下西南交通大学就业率和薪酬情况,以帮助大家更好的选择专业. 西南交 ...

  6. 山东师范大学计算机专硕考研人数,考研高校就业和薪酬数据统计:山东师范大学...

    2021考研考生们最先考虑的就是择校择专业的问题,选择一个适合自己的专业和院校对以后的发展就业有很重要的影响.下面,跟随小编一起来看一下山东师范大学就业率和薪酬情况,以帮助大家更好的选择专业. 山东师 ...

  7. 【考研数学】概率论与数理统计

    这个知识点比较零碎. 文章目录 1. 基础知识:连续型总体的最大似然估计法 2. 解题技巧:随机变量函数的分布 3. 解题技巧:几何数列求和 4. 基础知识:切比雪夫不等式 5. 基础知识:卡方分布, ...

  8. 极限与连续知识点总结_考研数学一试卷全面分析,历年题型和知识点整理,送给2021的学子...

    今天小编整理了下考研数学一的试卷题型以及知识点,在准备2021年研究生考试的可以认真看下.数学一是高等数学.线性代数.和概率论与数理统计都要考,下面分三个部分来讲解. 一.高等数学部分 高等数学部分呢 ...

  9. 我是如何用知能行秒杀考研数学的

    作为一个使用知能行的资深用户,我觉得我很有资格回答这个问题. 首先你要搞清楚知能行的工作原理,你才能明白知能行在考研数学中的作用. 第一点,知能行是一个题库,但是他又不仅仅是一本题库,他就像是一个智能 ...

最新文章

  1. 【原】数字图像处理学习之三彩色图像处理
  2. while(scanf(%d,n)!=EOF)
  3. fatal: No configured push destination
  4. Model Search:炼丹师最强危机,谷歌开源最强AutoML工具!
  5. Oracle之SQL分析函数
  6. Linux版本之挑选适合服务器的OS发行版
  7. shrio的rememberMe不起作用
  8. FXML:使用BuilderFactory的自定义组件
  9. 归并排序 java_马士兵说之归并排序
  10. Notepad++使用技巧
  11. 仿 微信飞机大战项目
  12. LP3667B反激式开关电源5W(5V1A)输出电路
  13. Bilibili宋红康老师MySQL高级篇笔记-架构篇(有完整的md格式笔记,迟点整理好会挂链接)
  14. 怎么手动修改域名服务器地址,如何修改域名dns服务器地址
  15. Windows安装redis教程
  16. 向量积的坐标运算公式推导_向量外积的直接证明与直观解释,并以此证明正弦公式...
  17. 基于Basys2的数码管动态扫描module(verilog)的模块化设计
  18. 使用CSS3开启GPU硬件加速提升网站动画渲染性能
  19. 欢迎火狐FireFox正式进入中国
  20. 第十三届蓝桥杯省赛C++B组题解

热门文章

  1. linux常见命令与FileZilla
  2. 关于微信小程序NFC发送指令功能
  3. golang值引用和指针引用,结构体拷贝
  4. ajax请求一直出于请求状态,不返回的原因
  5. bagging 与boosting的联系与区别
  6. WIN10通用,任重而道远!
  7. LeetCode知识点总结 - 559
  8. 小学计算机教师德育工作计划,小学教师德育工作计划
  9. 用好大数据须有大智慧
  10. 我就要和相处一年的女友结婚了...现在唯一困挠我的是,我未来的小姨子