背景:

在数据的处理中需要winsorize,缩尾处理,python中有直接winsorize的命令但是出现了一些问题。特别是遇到缺失值的时候


问题描述

正常的winsorize应该是,最大值和90%分位数一致,但是在处理过程中发现对betal这一列的处理中,如果采用winsorize的忽略缺失值命令,nan_policy='omit'会出现问题。

​
scipy.stats.mstats.winsorize(a, limits=None, inclusive=(True, True), inplace=False, axis=None, nan_policy='propagate')[source]​


解决方案

betadf['check'] = betadf['betal'].clip(lower=betadf['betal'].quantile(0.1), upper=betadf['betal'].quantile(0.9))

采用clip和quantile结合的方法进行处理,能得到正确的结果:

附:winsorize的说明和解决问题参考的链接

winsorize官方说明

解决问题参考连接,感谢这位朋友

python在winsorize中遇到缺失值的问题相关推荐

  1. python处理csv中的缺失值_Python中重复值、缺失值、空格值处理

    1.重复值处理 把数据结构中,行相同的数据只保留一行. 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates()from pandas impor ...

  2. 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)

    Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...

  3. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  4. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  5. 数据预处理常用技巧 | 数据分析中如何处理缺失值?(文末福利)

    无论是数据分析.数据挖掘,还是机器学习,都离不开数据预处理这一重要步骤.没有高质量的数据,就没有高质量的分析结果.而数据不完整,也就是数据中包含缺失值,正是数据分析工作者最常见的问题之一.本文我们就来 ...

  6. python处理数据的优势-【Python数据分析基础】: 数据缺失值处理

    作者:xiaoyu 微信公众号:Python数据科学 圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已. 再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所 ...

  7. python神经网络库 keras_在Python和R中使用Keras和Tensorflow进行深度学习

    了解TensorFlow 2.0和Keras在Python和R中的深度学习并构建神经网络 深入了解人工神经网络(ANN)和深度学习 了解Keras和Tensorflow库的用法 了解适用人工神经网络( ...

  8. datagridview列 值提取_Pandas中的缺失值处理

    相信大家在处理数据的时候经常会发现有一些数据的缺失,这个时候便会很头大,因为有时候的缺失的数据是本来就没有的,这些数据不管就好了,有的数据虽然没有,但是也可以根据一些数据推算出来这个数据是多少然后给它 ...

  9. 如何用python处理缺失值_用Python处理数据集中的缺失值

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 现实生活中的数据经常存在缺失值.产生缺失值的原因有很多,如观察资料未被记录.数据损坏等.由于很多机器学习算 ...

最新文章

  1. linux下常用命令之nc
  2. 企业级NGINX的重定向rewrite
  3. React绑定事件处理函数this的几种方法
  4. 多台电脑共用一个耳机、音箱
  5. jQuery 一些操作
  6. 前端学习(2502):vue指令v-if
  7. web.xml 配置404和500错误的自定义页面
  8. mysql拆分英文数字_MySQL中的REGEX仅显示由连字符分隔的数字。
  9. linux 下ifconfig修改IP
  10. c语言回溯算法数独,数独回溯算法
  11. ThoughtWorks HomeWork
  12. 目标检测之YOLOX: Exceeding YOLO Series in 2021
  13. 如何使用SRT字幕,导入字幕到视频中
  14. 轻量化网络—ShuffleNet V1 V2理解
  15. vue + element-ui 对登录功能、重置表单、退出功能、路由重定向、挂载路由导航守卫的实现
  16. 经典算法之,细化时间颗粒度24*7细化为48*7颗粒度
  17. 收藏别人的《设计模式》
  18. matlab emi滤波器设计,EMI滤波器设计.pdf
  19. 《Get Started with WebRTC》文档学习
  20. eWebeditor集成aspjpeg

热门文章

  1. 什么是 out 参数?
  2. 【目标检测】|DBB 增强版ACNet重参数化
  3. 如何理解产品的海关编码(HS Code),编码归类的主要依据是什么?
  4. Android应用安全开发之浅谈密钥硬编码
  5. java 高性能读写文件_Java写入文件的性能详细分析
  6. 自定义属性的设置,获取和移除
  7. 【实用工具】HBuilder
  8. mac安装旺旺启动台找不到_U盘装 MacOS 10.11系统安装教程
  9. Hyperledger Fabric 1.4.6 多机器集群部署
  10. Linux操作系统命令复习