布尔过滤

import numpy as np
import pandas as pd
data = pd.Series(np.random.randn(1000))
data.describe()


找出大于0的,全为NAN的删除

data[data>0].dropna(how = 'all')
data[np.abs(data) > 3].dropna(how = 'all')


为了便于分析,连续数据常常被离散化

data = pd.DataFrame(np.random.randint(1,50,(20,2)),columns = ['k1','k2'])
data.head(6)


欲了解k1数据的分布情况

bins = [0,10,20,30,40,50] #给数据分区间
cats = pd.cut(data.k1,bins)        # 可以使用 right = False 控制左右括号的开闭
cats#给出数据所在区间

cats.value_counts()   #计数每一个范围的元素个数,由个数从高到低排列

pd.cut(data.k1,bins, right=False)

data = np.random.randn(1000)
cats = pd.cut(data, 4)#将数据在整个数据范围内进行均分成4个部分
cats

cats.value_counts()

cats = pd.qcut(data, 4)#将数据在整个数据范围内进行个数均分,使每个区间有相同的个数的元素
cats

cats.value_counts()#注意,区间

jupyter 布尔过滤与数据离散化相关推荐

  1. pandas高级处理-数据离散化

    pandas高级处理-数据离散化 1 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数.离散化方法经常作为数据挖掘的工具.[简化数据,让数据用起来 ...

  2. 进行数据离散化的原因_数据离散化及其KMeans算法实现的理解

    摘要 这篇文章尝试借用数据离散化这个事给大家讲明白K-Means算法的含义. 数据离散化的理解 数据离散化是数据预处理的一个非常重要的步骤,就是将连续的数据分成几个段. 举个简单例子,好比我们一个班上 ...

  3. 数据预处理Part4——数据离散化

    文章目录 离散化,对数据做逻辑分层 1. 什么是数据离散化? 2. 为什么要将数据离散化 3. 如何将数据离散化? 3.1 时间数据离散化 3.2 多值离散数据离散化 3.3 连续数据离散化 3.4 ...

  4. 机器学习之Pandas:Pandas介绍、基本数据操作、DataFrame运算、Pandas画图、文件读取与处、缺失值处理、数据离散化、合并、交叉表和透视表、分组与聚合、案例(超长篇,建议收藏慢慢看)

    文章目录 Pandas 学习目标 1Pandas介绍 学习目标 1 Pandas介绍 2 为什么使用Pandas 3 案例: 问题:如何让数据更有意义的显示?处理刚才的股票数据 给股票涨跌幅数据增加行 ...

  5. 数据预处理:数据离散化

    目录 数据离散化的应用场景和必要性 针对时间数据的离散化 针对多值离散数据的离散化 针对连续数据的离散化 针对连续数据的二值化 参考资料:<Python数据分析与数据化运营>宋天龙 数据离 ...

  6. Pandas8_高级处理-数据离散化和数据合并

    import numpy as np import pandas as pd 数据离散化 什么是数据离散化? 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整 ...

  7. 在leangoo里怎么设置看板周期,过滤看板数据?

    设置看板周期有两种方式: 1)点击看板上的看板周期时间直接修改 2)通过菜单 设置看板周期 过滤看板数据: 1. 快速过滤某一个人的任务 2. 组合筛选:通过关键词.标签和成员对看板数据进行过滤 浏览 ...

  8. R语言caret包构建xgboost模型实战:特征工程(连续数据离散化、因子化、无用特征删除)、配置模型参数(随机超参数寻优、10折交叉验证)并训练模型

    R语言caret包构建xgboost模型实战:特征工程(连续数据离散化.因子化.无用特征删除).配置模型参数(随机超参数寻优.10折交叉验证)并训练模型 目录

  9. C#过滤重复数据,使用泛型

    #region List<T> 过滤重复数据 public delegate bool EqualsComparer<T>(T x, T y); /// <summary ...

最新文章

  1. Oracle的存储过程和存储函数
  2. “模板类与友元”那些事(C++)
  3. 如何写好一份工程师简历
  4. mysql 大数据 join_MySQL JOIN算法原理
  5. 信息学奥赛一本通(1043:整数大小比较)
  6. 解决ipad,ios录屏保存失败-5823
  7. mysql event 变量_DQL--select和MySQL的Event
  8. Java后台直接生成二维码介绍
  9. Ubuntu - 新建管理员用户
  10. android 批量扫描,Android:连续扫描所有AP(接入点)
  11. 数字图像处理复习记录(一)图像平滑、图像锐化、间隔检测
  12. 3GPP TS 29244-g30 中英文对照 | 6.2.6 PFCP Association Setup Procedure
  13. gmail不支持html格式,gmail邮箱附件如何以html格式查看
  14. 计算机专业英语第12章在线测试答案,计算机专业英语第章在线测试.doc
  15. xshell远程连接不到服务器,Xshell远程连接服务器失败解决方法。
  16. 安卓手机上最好的3个txt阅读器
  17. 给函数取一个“好”名字
  18. ak sk认证java demo_AK-SK鉴权
  19. 弘辽科技:抖音电商,一场标准的「字节」式战役
  20. N多系统单点登录,实现、解决方案。四种解决方案

热门文章

  1. 别只盯着LoRa、SigFox, LPWAN 连接技术还有这些!
  2. 微信小程序退款 报错 FAIL 证书验证失败
  3. python常用内置库时间,日期与JSON转换
  4. 从零开始学C++11新标准知识(内含大厂面试题100道)第二期
  5. day1 -- ELMO语言模型
  6. 数据预处理 - 归一化与Z-Score标准化
  7. Buuctf --hellow world
  8. [NOIP2017普及组] 棋盘
  9. 京东AI:戴口罩人脸识别pytorch开源库
  10. c语言用while循环输出九九乘法表,用C语言的while循环,打印九九乘法表