实现功能:

按离散型变量进行分组统计,比如一个离散型变量A有1,2,3,4四种取值类型,另一个离散型变量B有0,1两种取值类型,统计A1B0,A1B1,A2B0,A2B1,A3B0,A3B1,A4B0,A4B1这八组其他变量的记录数。

实现代码:

import numpy as np
import pandas as pd
def Read_data(file):dt = pd.read_csv(file)dt.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol','fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved','exercise_induced_angina','st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']data =dtpd.set_option('display.max_rows', None)pd.set_option('display.max_columns', None)pd.set_option('display.width', None)pd.set_option('display.unicode.ambiguous_as_wide', True)pd.set_option('display.unicode.east_asian_width', True)print(data.head())return datadef Segment_statistics(data):#=======离散型变量分组统计=========================tmp3 = data.groupby(['chest_pain_type', 'sex'])print(tmp3.count())returnif __name__=="__main__":data1=Read_data("F:\数据杂坛\\0504\heartdisease\Heart-Disease-Data-Set-main\\UCI Heart Disease Dataset.csv")# Segment_statistics(data1)preprocess(data1)

实现效果:

一个离散型变量A有1,2,3,4四种取值类型,另一个离散型变量B有0,1两种取值类型,统计A1B0,A1B1,A2B0,A2B1,A3B0,A3B1,A4B0,A4B1这八组其他变量的记录数。

 喜欢记得点赞,在看,收藏,

关注V订阅号:数据杂坛,获取完整代码和效果,将持续更新!

python实现离散型变量分组统计相关推荐

  1. python实现数值型变量分段统计

    实现功能: 对年龄(age)这一数值型变量进行分段统计,统计每一区间(年龄段)患者人数. 实现代码: import numpy as np import pandas as pd def Read_d ...

  2. Python之pandas:利用describe函数统计【类别型】特征/离散型变量的描述性统计信息(包括个数count、unique、top及其freq、first、last)之详细攻略

    Python之pandas:利用describe函数统计[类别型]特征/离散型变量的描述性统计信息(包括个数count.unique.top及其freq.first.last)之详细攻略 目录 利用d ...

  3. 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量

    在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量.下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示 Python: ...

  4. 『R语言Python』针对多分类离散型变量的特征工程

    在训练模型之前,我们常常需要根据不同变量的基本情况进行相应且合理的特征工程,通过阅读文献和自行尝试,我针对多分类变量的特征工程做出了一些总结 数据来源(adult数据集):https://archiv ...

  5. 11种离散型变量编码方式及效果对比

    首先介绍一个关于离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用.下面是这个库的链接:Category Encod ...

  6. 离散型变量的编码方式——one-hot与哑变量(dummy variable)

    我们在用模型去解决机器学习问题的时候,要提前进行"特征工程".而特征工程中很重要的就是对特征的预处理. 当你使用的是logistic回归这样的模型的时候,模型要求所有特征都应该是数 ...

  7. python描述性统计离散型变量_数据的描述性统计(Python3 实现)

    众数(Mode) 众数是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个).简单来说就是指一组数据中出现次数最多的数据值. import collecti ...

  8. Python+pandas使用分裂与分组统计频次

    中国大学MOOC"Python程序设计基础"第4次开课 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大 ...

  9. python保存数据型变量_Python基础学习笔记(一)变量与数据类型

    https://m.toutiao.com/is/J3fN6eK/ Python是一门易学的面向对象的程序设计语言,可以轻易地完成界面.文件.封装等高阶需求,可移植性好,有非常多功能强大的库与包,如N ...

最新文章

  1. 航“空”、航“天”大不同
  2. Vue.js 组件注册
  3. 【leetcode】937. Reorder Log Files
  4. CF140C-New Year Snowmen【优先队列】
  5. php异步处理任务工具,PHP实现异步任务分发处理利器-Gearman
  6. Snabbdom(虚拟dom-源码)
  7. System.out.print实现原理猜解
  8. java在数组中放入随机数_如何在Java中随机播放数组
  9. python 0xa什么意思_python使用xpath中遇到:Element a at 0x39a9a80到底是什么?
  10. docker中使用idea部署运行项目(项目以镜像方式运行)
  11. c语言5的阶乘流程图_C语言程序设计(山东联盟)
  12. ubuntu下opencv3和opencv2共存
  13. Maven教程-使用Nexus搭建私服,Java基础视频
  14. “21天好习惯“ 第四期 — 4
  15. DM数据库更换key
  16. 字体大小fontsize中的pt、px、em
  17. 外贸邮箱购买申请哪个好?办公邮箱哪个比较好 工作用什么邮箱?
  18. Windows 7下查看本机的ip地址
  19. Java高并发程序设计入门
  20. 远程连接windows 2012 是报出“出现身份验证错误,要求的函数不受支持”解决方法”

热门文章

  1. unity的矢量数学
  2. 你适不适合做UE交互设计师
  3. Oceanbase和TiDB粗浅对比之 - 执行计划
  4. Pandas---条件筛选与组合筛选
  5. ChatGPT Plus 会员续费扣款失败如何处理
  6. “理财管家”正式发布了!
  7. 清除浏览器js和css缓存
  8. 3ds Max场景卡顿的优化方法
  9. 小程序源码:独家修复登录接口社区论坛-多玩法安装简单
  10. 微信抢红包的方案_微信抢红包怎样才能抢到最大的告诉你一个方法