在上一篇文章中,我们提到,用费舍尔方法做文本分类,实际上是进行一个假设检验的过程。有一种与费舍尔方法密切相关的方法,称为逆高斯法(inverse normal method),也称Stouffer's Z-score method,因为这种方法可以引入权重信息,所以带权重的版本又称作"weighted Z-test"。它与费舍尔方法的区别在于,费舍尔使用的是p-value,而逆高斯法使用的是z分数。

依旧以文本分类器为例,如采用逆高斯法,分类概率计算如下:

假设待分类的文本词数为k,其中Zi为,这里面的Φ,Φ^-1分别为标准正态分布累计函数和其逆函数。

红线即为Φ,把横,竖坐标轴换一下就是Φ^-1

想到上篇文章总结的规律:某分布经变换后满足另一分布,做假设检验,在费舍尔方法里,这个变换后的分布是χ^2(2k)分布,变换方法是样本值取对数乘-2最后加和;在逆高斯法里,变换后的分布式标准正态分布,变换方法则如所展示的,为原始1-p值经逆正态函数处理后的加权和除以一个缩放系数。当不设置权重时,wi为1,则缩放系数等于√k。

这种方法的优点在于它对权重的引入,费舍尔方法虽然看上去也能引入权重,但加入权重后便不满足χ^2(2k)分布,而是更复杂的情况,所以一般不会去这么做。

另一方面,即便不引入权重,逆高斯法的性能也与费舍尔方法差不多,原因可由z and −log(p)的关系图看出:

在常见的z=1~5范围内,两者基本呈线性关系。

'''
基于《集体智慧编程》第六章示例程序,将以下函数添加到class fishermethod中
需在开头from math import sqrt
from scipy.stats import norm
'''def zscoreprob(self, features, cat):zlist = []for f in features:p = 1-self.weightedprob(f, cat, self.cprob)z = norm.ppf(p)zlist.append(z)sumz = sum(zlist)/sqrt(len(features))return 1-norm.cdf(sumz)

费舍尔方法 续:逆高斯法(Stouffer‘s Z-score method)相关推荐

  1. 信奥一本通-动态规划-例9.2-数字金字塔-方法四-逆推法代码实现

    #include<bits/stdc++.h> using namespace std;int main(){//x y分别为行列int x, y;//金字塔的高度int n;cin &g ...

  2. 【图像处理】——图像的二值化操作及阈值化操作(固定阈值法(全局阈值法——大津法OTSU和三角法TRIANGLE)和自适应阈值法(局部阈值法——均值和高斯法))

    目录 一.二值化的概念(实际上就是一个阈值化操作) 1.概念: 2.实现方法 3.常用方法 二.阈值类型 1.常见阈值类型(主要有五种类型) (1)公式描述 (2)图表描述 2.两种特殊的阈值算法(O ...

  3. 逆分布函数法生成随机数(以指数分布和双指数分布为例)

    前面在"C++均匀分布U(0,1)的随机数中"讲了如何在C++中生成均匀分布随机数,同时也提到了均匀分布的是其他随机数的生成基础,这里就来看看均匀分布在其他随机数生成中的重要作用吧 ...

  4. 递推算法5——逆推法之猴子摘桃问题

    逆推法是根据结果推出已知条件,推算方法与顺推法类似,只是需要将结果作为初始条件向前推算.比较典型的例子是猴子摘桃和存取问题 猴子摘桃 [问题描述] 猴子第一天摘了若干个桃子,当即吃了一半,还不过瘾,又 ...

  5. 计划评审方法和关键路线法【PERT/CPM、统筹方法】

    [1]图与网络模型及方法:图与网络的基本概念 [2]图&网络模型应用-最短路径问题 [3]树:基本概念与最小生成树 [4]匹配问题: 匈牙利算法 .最优指派.相等子图 [5]Euler 图和 ...

  6. 每日经典算法题(十三) 逆推算法(平方根相关)

    每日经典算法题(十三) 逆推算法(平方根相关) 平方根:Square Root 题目 有一个整数,它加上 100 后是一个 完全平方数 ,再加上 168 又是一个 完全平方数 ,请问该数是多少? 程序 ...

  7. 结构光逆相机法重建详解+代码

    代码地址:在公众号「计算机视觉工坊」,后台回复「逆相机法」,即可直接下载. 注:本文的理论主要来自于参考文献1.2,代码来源于南京理工大学左超老师课题组发表的参考文献2中,笔者在其基础上稍作修改,便于 ...

  8. 【最小二乘法 | 高斯法】

    最小二乘法在三坐标测量时常常被提起,那什么是最小二乘法呢?它具备什么样的特点?根据标准,哪些要求必须采用最小二乘法呢?今天我们就来聊一聊这个传说中的最小二乘法. 在认识最小二乘法之前,我们必须要先认识 ...

  9. python---方法解析顺序MRO(Method Resolution Order)<以及解决类中super方法>

    python---方法解析顺序MRO(Method Resolution Order)<以及解决类中super方法> 参考文章: (1)python---方法解析顺序MRO(Method ...

最新文章

  1. semantic ui框架学习笔记三
  2. oracle--rowid
  3. 左连接 和右链接的区别,内连接和外连接的区别
  4. Kmplayer播放器 绿色免安装版 2016 中文版
  5. 2014 网选 5024 Wang Xifeng's Little Plot
  6. 定时器name冲突会报错吗_部落冲突:冬季版本即将更新,多个超级兵种被曝光,会上线吗?...
  7. mysql 注册驱动_mysql8.0以上版本注册驱动并建立数据库的连接公共代码
  8. SQL Server 数据库备份与还原
  9. pcb成型板aoi检测_PCB设备:一款新的自动光学检测(AOI)系统
  10. 什么是透明背景格式logo?Logo白底变透明工具测评
  11. 抖音/快手/火山热门技术---抖音微商引流之抖音实战引流技巧
  12. 【渝粤题库】陕西师范大学 《道德教育案例研究》作业
  13. Java中实现银行ATM 模拟银行账户业务实现存款、取款和余额查询。
  14. 【MySQL】页面上查询时间与数据库中时间相差13个小时原因及解决办法
  15. 基于S3C2451的嵌入式电子相册
  16. ps的两种填充效果快捷键
  17. 安装软件提示无效驱动器D
  18. Tomcat中如何配置使用APR
  19. stringbuilder截取最后一个字符
  20. 【跳槽】回头草,该不该吃?能不能吃?

热门文章

  1. 【30分钟学完】canvas动画|游戏基础(7):动量守恒与多物体碰撞
  2. 海康威视工业相机SDK二次开发环境配置—Windows10+VS2017
  3. python random.randint()函数介绍
  4. Error (171173): Node xxxx from partition Top cannot preserve previous placement at PIN D16 and honor
  5. 合肥市专利申请费用减缓流程是怎样的
  6. 0601课的预习任务
  7. Java中length、length()、size()区别
  8. Java中的.length与.length()
  9. 关于前端页面在IE浏览器下无法显示的问题
  10. 一切还算顺利,远方的你还好吗?