python数据预处理——数据分箱(将值归类)
数据分箱的常用案例便是:根据成绩分为不及格、及格、良、优秀
示例
无标签
import pandas as pdvalue_list = [10, 20, 30.4, 59, 61, 79, 80, 90, 99, 100]# 没有标签,只有区间的划分
cut_bin = pd.cut(value_list, [0, 60, 80, 100])
print(pd.DataFrame(cut_bin, value_list))
结果如下:
10.0 (0, 60]
20.0 (0, 60]
30.4 (0, 60]
59.0 (0, 60]
61.0 (60, 80]
79.0 (60, 80]
80.0 (60, 80]
90.0 (80, 100]
99.0 (80, 100]
100.0 (80, 100]
有标签
# 有标签
cut_bin = pd.cut(value_list, [0, 60, 80, 100], labels=['不及格', '及格', '优'])
print(pd.DataFrame(cut_bin, value_list))
结果如下:
10.0 不及格
20.0 不及格
30.4 不及格
59.0 不及格
61.0 及格
79.0 及格
80.0 及格
90.0 优
99.0 优
100.0 优
注意:如果需要表示正无穷/负无穷,可以使用:float('inf')
/-float('inf')
,比如:[-float('inf'), 0, 60, 80, 100, float('inf')]
python数据预处理——数据分箱(将值归类)相关推荐
- 数据预处理的分箱操作
介绍 我们在建立模型前,一般需要对特征变量进行离散化,特征离散化后,模型会更稳定,降低模型过拟合的风险.尤其是采用 logsitic 建立评分卡模型时,必须对连续变量进行离散化.而特征离散化处理通常采 ...
- 数据预处理 -----数据分箱
一.定义 数据分箱(Binning)作为数据预处理的一部分,也被称为离散分箱或数据分段.其实分箱的概念其实很好理解,它的本质上就是把数据进行分组. 分箱就是把数据按特定的规则进行分组,实现数据的离散化 ...
- ML之ME:Best-KS分箱/KS值(分类预测问题中评价指标、数据分箱方法)的简介(KS与ROC的关系)、使用方法、案例应用之详细攻略
ML之ME:Best-KS分箱/KS值(分类预测问题中评价指标.数据分箱方法)的简介(KS与ROC的关系).使用方法.案例应用之详细攻略 目录 Best-KS分箱/KS值的简介 1.Best-KS分箱 ...
- python抽样_python数据预处理 :数据抽样解析
何为数据抽样: 抽样是数据处理的一种基本方法,常常伴随着计算资源不足.获取全部数据困难.时效性要求等情况使用. 抽样方法: 一般有四种方法: 随机抽样 直接从整体数据中等概率抽取n个样本.这种方法优势 ...
- 机器学习数据预处理之缺失值:固定值填充
机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...
- Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略
Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...
- 一、数据预处理——数据归一化 数据标准化
一.数据预处理--数据归一化 & 数据标准化 点击标题即可获取文章相关的源代码文件哟! 1.1 数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据 ...
- mysql 分组排序_Python、PowerBI、Excel、MySQL,都能做?搞清楚数据聚合与分箱
阅读提示 本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行. 本内容尽量简单直白.步骤详细,适合数据分析入门.特别喜欢技术语言的大佬们,可自行跳过. 上一篇:数据更新删除 ...
- Python数据预处理数据的方法总结(使用sklearn-preprocessing)
文章目录 数据预处理思路 数据预处理方法 1 标准化:去均值,方差规模化 2 规模化稀疏数据 3 规模化有异常值的数据 4 正则化Normalization 5 二值化–特征的二值化 6 类别特征编码 ...
最新文章
- spring30: 事务
- Oracle Sequence用plsql修改
- 如何添加sersync进程监控脚本
- 自动化机器学习(AutoML)之自动贝叶斯调参
- k-means 聚类过程演示
- 怎样计算一个整数的位数并把每一位上的数字保存下来
- HNOI2004 郁闷的出纳员(Splay)
- Mac操作指南:废纸篓里的文件无法清除如何解决?
- avs php,linux 安装AdultVideoScript (AVS)全教程
- python使用dbm持久字典详解
- foxmail连接163邮箱服务器,win10系统下foxmail绑定或添加163邮箱的方法
- 计算机考研a区院校,这些985院校没有A+学科!985院校的哪些专业在C+之下?
- Zotero快速复制文献
- 一键自动AI抠图,堪比人工PS!
- linux TL-WN725N2.0 AP Raspberry Pi 无线网卡驱动 路由设置
- 诛仙手游噬血珠碎片隐藏任务大全
- 让线程按顺序执行8种方法(转载)
- SCAPY官方教程四
- 多线程锁详解之【临界区】
- 2019年学习java还有前途吗?
热门文章
- 蒙特卡洛积分(Monte Carlo Integration)应用:利用蒙特卡洛积分生成 McBeth表
- SPH(光滑粒子流体动力学)流体模拟实现二:SPH算法(1)-数学原理
- mysql++3307,mysql多实例配置方法
- Java:实验四第5题
- python 将数据写入csv文件
- matlab 1到无穷_从零开始的matlab学习笔记——(6)符号计算与极限
- SVN中Branch/tag的比较
- 大话 JavaScript 动画
- Oracle的tnsnames.ora配置(PLSQL Developer)
- 使用Regsvr32命令修复系统故障