jupyter 布尔过滤与数据离散化
布尔过滤
import numpy as np
import pandas as pd
data = pd.Series(np.random.randn(1000))
data.describe()
找出大于0的,全为NAN的删除
data[data>0].dropna(how = 'all')
data[np.abs(data) > 3].dropna(how = 'all')
为了便于分析,连续数据常常被离散化
data = pd.DataFrame(np.random.randint(1,50,(20,2)),columns = ['k1','k2'])
data.head(6)
欲了解k1数据的分布情况
bins = [0,10,20,30,40,50] #给数据分区间
cats = pd.cut(data.k1,bins) # 可以使用 right = False 控制左右括号的开闭
cats#给出数据所在区间
cats.value_counts() #计数每一个范围的元素个数,由个数从高到低排列
pd.cut(data.k1,bins, right=False)
data = np.random.randn(1000)
cats = pd.cut(data, 4)#将数据在整个数据范围内进行均分成4个部分
cats
cats.value_counts()
cats = pd.qcut(data, 4)#将数据在整个数据范围内进行个数均分,使每个区间有相同的个数的元素
cats
cats.value_counts()#注意,区间
jupyter 布尔过滤与数据离散化相关推荐
- pandas高级处理-数据离散化
pandas高级处理-数据离散化 1 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数.离散化方法经常作为数据挖掘的工具.[简化数据,让数据用起来 ...
- 进行数据离散化的原因_数据离散化及其KMeans算法实现的理解
摘要 这篇文章尝试借用数据离散化这个事给大家讲明白K-Means算法的含义. 数据离散化的理解 数据离散化是数据预处理的一个非常重要的步骤,就是将连续的数据分成几个段. 举个简单例子,好比我们一个班上 ...
- 数据预处理Part4——数据离散化
文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...
- 机器学习之Pandas:Pandas介绍、基本数据操作、DataFrame运算、Pandas画图、文件读取与处、缺失值处理、数据离散化、合并、交叉表和透视表、分组与聚合、案例(超长篇,建议收藏慢慢看)
文章目录 Pandas 学习目标 1Pandas介绍 学习目标 1 Pandas介绍 2 为什么使用Pandas 3 案例: 问题:如何让数据更有意义的显示?处理刚才的股票数据 给股票涨跌幅数据增加行 ...
- 数据预处理:数据离散化
目录 数据离散化的应用场景和必要性 针对时间数据的离散化 针对多值离散数据的离散化 针对连续数据的离散化 针对连续数据的二值化 参考资料:<Python数据分析与数据化运营>宋天龙 数据离 ...
- Pandas8_高级处理-数据离散化和数据合并
import numpy as np import pandas as pd 数据离散化 什么是数据离散化? 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整 ...
- 在leangoo里怎么设置看板周期,过滤看板数据?
设置看板周期有两种方式: 1)点击看板上的看板周期时间直接修改 2)通过菜单 设置看板周期 过滤看板数据: 1. 快速过滤某一个人的任务 2. 组合筛选:通过关键词.标签和成员对看板数据进行过滤 浏览 ...
- R语言caret包构建xgboost模型实战:特征工程(连续数据离散化、因子化、无用特征删除)、配置模型参数(随机超参数寻优、10折交叉验证)并训练模型
R语言caret包构建xgboost模型实战:特征工程(连续数据离散化.因子化.无用特征删除).配置模型参数(随机超参数寻优.10折交叉验证)并训练模型 目录
- C#过滤重复数据,使用泛型
#region List<T> 过滤重复数据 public delegate bool EqualsComparer<T>(T x, T y); /// <summary ...
最新文章
- Oracle的存储过程和存储函数
- “模板类与友元”那些事(C++)
- 如何写好一份工程师简历
- mysql 大数据 join_MySQL JOIN算法原理
- 信息学奥赛一本通(1043:整数大小比较)
- 解决ipad,ios录屏保存失败-5823
- mysql event 变量_DQL--select和MySQL的Event
- Java后台直接生成二维码介绍
- Ubuntu - 新建管理员用户
- android 批量扫描,Android:连续扫描所有AP(接入点)
- 数字图像处理复习记录(一)图像平滑、图像锐化、间隔检测
- 3GPP TS 29244-g30 中英文对照 | 6.2.6 PFCP Association Setup Procedure
- gmail不支持html格式,gmail邮箱附件如何以html格式查看
- 计算机专业英语第12章在线测试答案,计算机专业英语第章在线测试.doc
- xshell远程连接不到服务器,Xshell远程连接服务器失败解决方法。
- 安卓手机上最好的3个txt阅读器
- 给函数取一个“好”名字
- ak sk认证java demo_AK-SK鉴权
- 弘辽科技:抖音电商,一场标准的「字节」式战役
- N多系统单点登录,实现、解决方案。四种解决方案