Python 卡方决策,下面介绍一个常见的统计决策。在http://www.itl.nist.gov/div898/handbook/prc/section4/prc45.htm中有对该决策的详细描述。

这是一个关于数据是否随机分布的卡方决策。为了做出这个决策,需要计算一个预期分布,并将观察到的数据与预期进行比较。相差较大意味着需要进一步研究。相差不大意味着可以使用零假设,因为没什么值得研究了,即这些差异仅仅是随机变化造成的。

下面介绍如何使用Python来处理数据。首先介绍一些不属于案例研究的背景知识,但常出现在EDA应用程序中。需要收集原始数据并生成有用的可供分析的汇总信息。

在生产质量保障过程中,将有硅片缺陷的数据收集到数据库中。可以使用SQL查询来提取缺陷细节供后续分析。例如查询语句可能如下所示:

该查询的输出将是带有各个缺陷详情的.csv文件。

需要汇总先前的数据,可以在SQL查询层面使用COUNT语句和GROUP BY语句进行汇总,也可以在Python应用层面进行汇总。尽管通常认为纯数据库汇总更高效,但并非总是如此。在某些情况下,对原始数据的简单提取和用Python程序进行汇总可能比SQL汇总更快。如果看重性能,那么必须衡量这两种方法,而不是设想数据库操作总是最快的。

在某些情况下,可以高效地从数据库中获取汇总数据。汇总必须包含三个属性:轮换(shift)、缺陷类型和观测到的缺陷数量。汇总数据如下所示:

输出会显示轮换和缺陷类型的所有12种组合。

稍后将详细介绍如何读取原始数据并创建汇总。这便是Python的强大之处:处理原始源数据。

需要观察并比较轮换和缺陷个数的总体预期。如果观测到的数量和预期数量间的差异可以归因于随机波动,便要接受零假设,即没有什么错误点值得关注。如果这些数字不符合随机变化,那么就有问题需要进一步研究。

python 决策_Python 卡方决策相关推荐

  1. python 卡方分箱算法_python实现二分类的卡方分箱示例

    解决的问题: 1.实现了二分类的卡方分箱: 2.实现了最大分组限定停止条件,和最小阈值限定停止条件: 问题,还不太清楚,后续补充. 1.自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平 ...

  2. python卡方分箱_Python评分卡建模—卡方分箱

    为服从自由度为k的卡方分布,记作: 或者记作 . 二.卡方检验 χ2检验是以χ2分布为基础的一种假设检验方法,主要用于分类变量之间的独立性检验. 其基本思想是根据样本数据推断总体的分布与期望分布是否有 ...

  3. python 特征选择卡方_特征选择

    2020-01-10 皮尔逊相关系数 image.png 衡量线性相关性,检查数据集里目标和数值特征之间皮尔逊相关系数的绝对值.根据这个准则保留前n个特征.def cor_selector(X, y, ...

  4. python实现卡方(Chi-Squared Test)相关性检验

    python实现卡方(Chi-Squared Test)相关性检验 独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料 ...

  5. Python机器学习(三)--决策树算法

    Python机器学习(三)--决策树算法 原创  2014年07月14日 13:57:55

  6. 【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义

    """ 分箱逻辑:1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做 ...

  7. 如何用 Python 和机器学习帮你决策?

    还是不贷:如何用 Python 和机器学习帮你决策? 本文作者:AI研习社 2017-07-04 11:19 导语:用机器学习帮你决策贷款. 雷锋网按:本文作者王树义,原载于微信公众号玉树芝兰(nkw ...

  8. python 卡方分箱算法_特征工程 - 分箱

    卡方分箱 python自帶分箱函數  --  無法實現對分類型數據的分箱,可借助卡方分箱算法實現 import numpy as np import pandas as pd data = np.ra ...

  9. python卡方CHI特征检验提取关键文本特征

    理论 类别 非类别 包含单词的文档数 A B 不包含单词的文档数 C D 卡方特征提取主要度量类别 和 单词之间的依赖关系.计算公式如下 其中N是文档总数,A是包含单词且属于的文档数,B是包含单词但不 ...

最新文章

  1. 重磅:《肠道产业》2020-2021年度榜单
  2. PyTorch 多分类损失函数
  3. VUE全选和反选案例
  4. ubuntu的mysql教程 pdf_Ubuntu上的MySQL字符集设置技巧
  5. Windows API 进程状态信息函数
  6. C语言课后习题(23)
  7. ADO.NET常用对象详解之:DataAdapter对象
  8. position based dynamics
  9. 百度编辑器 ueditor .net开发
  10. 基于小米球(Ngrok)实现内网穿透
  11. websoc是什么可以卸载吗_Win7系统中unity web player是什么程序?能否卸载
  12. 常用的公共数据集(二)
  13. root登陆mysql怎么登_怎么登录 mysql
  14. try with resource 的使用
  15. 上班族们都有哪些一直坚持的业余兴趣爱好?
  16. Linux Kernel Security全景图系列之开篇
  17. 股票的最新和历史股息收益率查询(1)
  18. Smartbi V10.5新版本正式发布
  19. 为什么有些年轻人大学毕业后那么坦然的在家待业?
  20. 专业术语——Alpha 通道

热门文章

  1. python三维重建代码_三维重建怎么入门?
  2. 011-JVM-跨平台的语言和跨语言的平台
  3. OpenGL 飘动的旗
  4. 通信协议演进与JCE协议详解
  5. JavaScript获取当前月的最后一天
  6. SAP MM 自动化处理之公司间STO交货单自动创建
  7. 泰森多边形之边界计算
  8. 微语录(2011-03-14---2011-03-20)
  9. Python数据分析师面试之“完美世界”数据分析师实习生
  10. 超分辨率技术在实时音视频领域的研究与实践