数据分箱2——等频、等距分箱
需要给定一个数值范围,然后按照下面的规则自动分箱:
- 等频分箱:每个区间内包括的值一样多
- 等距分箱:每两区间之间的距离是一样的
等频分箱使用:pd.qcut
,更多可以参考文档:https://pandas.pydata.org/docs/reference/api/pandas.qcut.html
等距分箱使用:pd.cut
,更多可以参考文档:https://pandas.pydata.org/docs/reference/api/pandas.cut.html
示例代码
import pandas as pdvalue_list = [0, 10, 20, 30.4, 59, 61, 79, 80, 90, 99, 100]# 等频分箱
value_freq_bins = pd.qcut(value_list, q=5)
print("等频分箱:", value_freq_bins.codes)# 等距分箱
value_dis_bins = pd.cut(value_list, bins=5)
print("等距分箱:", value_dis_bins.codes)
得到结果:
等频分箱: [0 0 0 1 1 2 2 3 3 4 4]
等距分箱: [0 0 0 1 2 3 3 3 4 4 4]
数据分箱2——等频、等距分箱相关推荐
- python分箱处理_python数据处理--WOE分箱
数据分箱的重要性离散特征的增加和减少都很容易,易于模型的快速迭代: 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展: 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1 ...
- mysql一张表1亿天数据_1亿条数据在PHP中实现Mysql数据库分表100张
转: 1亿条数据在PHP中实现Mysql数据库分表100张 http://php-z.com/thread-2115-1-1.html (出处: PHP-Z) 当数据量猛增的时候,大家都会选择库表散列 ...
- python 卡方分箱算法_特征工程 - 分箱
卡方分箱 python自帶分箱函數 -- 無法實現對分類型數據的分箱,可借助卡方分箱算法實現 import numpy as np import pandas as pd data = np.ra ...
- 大数据量下数据库设计及分库分表拆分原则
在设计数据库的建设前,首先准备工作是了解业务,然后根据业务数据进行数据库设计,设计的同时需要考虑业务数据量.可改造性.数据弱一致性.读写分离.复杂SQL多样化等: 首先,可数据根据读弱一致性可以考虑添 ...
- Hive Sampling 抽样函数:Random随机抽样、Block 基于数据块抽样、Bucket table 基于分桶表抽样
Hive Sampling 抽样函数 文章目录 Hive Sampling 抽样函数 Random随机抽样 Block 基于数据块抽样 Bucket table 基于分桶表抽样 语法 在HQL中,可以 ...
- adobe premiere做平衡分屏、不等距分屏、多角度效果
先打开adobe premiere 导入三个视频素材,举例演示,并把三个视频素材分别放在三个轨道上 每个PR都会有自带的特效插件:找到 视频效果 - 变换 - 裁剪 用鼠标把 裁剪特效拉到第 ...
- 卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
目录 分箱 分箱的概念 卡方分箱及代码实现 自定义分箱代码实现
- 计算一组数据平均值、最大值、最小值 (12 分)
7-1 计算一组数据平均值.最大值.最小值 (12 分) 本题目要求读入一组数据,输出其平均值.最大值.最小值. 输入格式: 输入在一行中若干空格间隔的整数. 输出格式: 对每一组输入,在一行中以空格 ...
- 7-1 计算一组数据平均值、最大值、最小值 (12 分) 本题目要求读入一组数据,输出其平均值、最大值、最小值。 输入格式: 输入在一行中若干空格间隔的整数。 输出格式: 对每一组输入,在一行中
7-1 计算一组数据平均值.最大值.最小值 (12 分) 本题目要求读入一组数据,输出其平均值.最大值.最小值. 输入格式: 输入在一行中若干空格间隔的整数. 输出格式: 对每一组输入,在一行中以空格 ...
最新文章
- 【嵌入式】Libmodbus之TCP模式Slave端程序示例
- bind、delegate、on的区别
- 永不示弱_永不过时的网页设计:今天和2000年的在线投资组合
- MapReduce寻找共同好友
- 创建控制文件后的疑难解答
- 两个方法事务调用问题
- 硬盘安装 Ubuntu 9.04 与 XP 双系统 (含 Grub 不写入 MBR 的方法)
- 我的面经——投行+咨询+外资银行
- 计算机安装网络打印机,如何安装网络打印机?电脑上安装网络打印机详细教程...
- L2-016 愿天下有情人都是失散多年的兄妹
- PMP常考知识点核对单-8.项目质量管理
- 金彩教育:提升产品标签的方法
- Unity 鼠标点击事件穿透
- HTML5 video autoplay=autoplay 无法自动播放的问题
- Pycharm如何将项目部署到树莓派上?
- 回书写时先什么后封口_‘‘问’’字在书写时先写什么,再写什么,像这样顺序书写的汉字有什么和什么?...
- L0/L1/L2/Lp/L∞范数的联系与区别
- Python学习笔记 day9 堡垒机前戏之paramiko模块
- HashMap为什么用链表加红黑树?目的是什么?原理是什么
- 仿天猫 购物车(Android studio 仿天猫 详情页面 添加购物车选择 颜色 尺寸demo)
热门文章
- Martin Odersky Scala编程公开课 第二周作业
- 使用python开发json、csv数据格式转换工具
- 如何起oracle,如何使用Oralce企业管理(Oracle Enterprise Manager)控制台
- telnet后为啥打开的时防火墙_以前用散煤取暖时,农民很大方,换上天然气后就“蔫了”,为啥?...
- Java:实验四第5题
- docker 中安装 mongodb
- SpringMVC 模型数据
- 【Xamarin.Android】掌握android支持库
- linux6.5+5.4 vncserver配置
- Aqua Data Studio数据库连接工具解决Sybase中文乱码问题