python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名
这是一个解决方案。
整理训练数据。然后对验证数据使用searchsorted。import pandas as pd
import numpy as np
# Generate Dummy Data
df_train = pd.DataFrame({'Values': 1000*np.random.rand(15712)})
#Sort Data
df_train = df_train.sort_values('Values')
# Calculating Rank and Rank_Pct for demo purposes
#but note that it is not needed for the solution
# The ranking of the validation data below does not depend on this
df_train['Rank'] = df_train.rank()
df_train['Rank_Pct']= df_train.Values.rank(pct=True)
# Demonstrate how Rank Percentile is calculated
# This gives the same value as .rank(pct=True)
pct_increment = 1./len(df_train)
df_train['Rank_Pct_Manual'] = df_train.Rank*pct_increment
df_train.head()
Values Rank Rank_Pct Rank_Pct_Manual
2724 0.006174 1.0 0.000064 0.000064
3582 0.016264 2.0 0.000127 0.000127
5534 0.095691 3.0 0.000191 0.000191
944 0.141442 4.0 0.000255 0.000255
7566 0.161766 5.0 0.000318 0.000318
现在使用searchsorted获取验证数据的秩比# Generate Dummy Validation Data
df_validation = pd.DataFrame({'Values': 1000*np.random.rand(1000)})
# Note searchsorted returns array index.
# In sorted list rank is the same as the array index +1
df_validation['Rank_Pct'] = (1 + df_train.Values.searchsorted(df_validation.Values))*pct_increment
以下是最终df_验证数据帧的前几行:print df_validation.head()
Values Rank_Pct
0 307.378334 0.304290
1 744.247034 0.744208
2 669.223821 0.670825
3 149.797030 0.145621
4 317.742713 0.314218
python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名相关推荐
- 怎么用python分析数据_如何用python进行数据分析?
.Python数据分析流程及学习路径 数据分析的流程概括起来主要是:读写.处理计算.分析建模和可视化四个部分.在不同的步骤中会用到不同的Python工具.每一步的主题也包含众多内容. 根据每个部分需要 ...
- 如何用python整理数据_如何用python实现对数据库的整理
展开全部 先花点时间来说说一个程序怎么和数e68a843231313335323631343130323136353331333361303131据库进行交互 1.和数据库建立连接 2.执行sql语句 ...
- python葡萄酒数据_用python进行葡萄酒质量预测
python葡萄酒数据 Warning: This is long article for those who seek only machine learning code, please just ...
- python归一化处理_详解python实现数据归一化处理的方式:(0,1)标准化
在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系"压缩"到(0,1)的范 ...
- 如何用python爬微博数据_怎样用python爬新浪微博大V所有数据?
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
- 用python爬微博数据_怎样用python爬新浪微博大V所有数据?
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
- django前端引用数据_「基于Python技术的智慧中医商业项目」Django前端网站篇-5.资讯的数据交互...
如果你对中医感兴趣欢迎留言讨论,觉得我的内容对你有帮助的话,能够请我喝一杯沪上阿姨不禁万分感谢. 内容简介 本章介绍Django搭建中医网站项目平台前端建设之资讯模块的数据交互的内容.其中由于代码量较 ...
- python如何读dat数据_如何用Python进行数据质量分析
概述 数据挖掘的第一步工作是数据准备,而数据准备的第一步就是数据质量分析了.本篇文章着重介绍如何使用Python进行数据质量分析的初步工作,属于比较基础的入门教程. 为什么要进行数据质量分析 根据百度 ...
- df python 增加数据_【Note】关于玩转数据处理R语言120题的注解(P1-P50)
前言: 这是关于张敬信老师@张敬信的专栏R&Python数据科学中的文章:玩转数据处理120题(R语言tidyverse版本)的个人自学笔记.敬信老师是我本科期间的恩师之一,非常感谢他提供的学 ...
最新文章
- MongoDb数据库面试整理
- hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较
- PHP一行命令打印当前系统时间
- My SQL出错代码及出错信息对照
- 盘点程序猿经常说的那些行话,你了解吗?
- [XML-Jsoup]Jsoup_对象的使用(Jsoup工具类,Document,Elements,Element,Node)
- 斯坦佛编程教程-Unix编程工具(五)
- 佰腾科技:专利大数据的云上裂变之路
- 飞鸽传书有多少用户?
- linux查看是哪个端口,linux 查看哪个端口使用情况
- mvn命令编译GeoServer源代码
- presto自定义UDF函数
- STM32学习笔记(正点原子STM32Mini版)
- python贝叶斯网络预测天气_基于pym的贝叶斯网络条件概率表的生成
- 三通短信每月发送量导入Sqlserver随笔
- 对联广告php代码,JS实现很实用的对联广告代码(可自适应高度)
- 2022最新前端vue面试题
- Little Elephant and Magic Square
- 利用HttpWebRequest自动抓取51la统计数据
- 微软梁念坚谈新平台 企业跨界办公随需而变
热门文章
- structure101_使用structure101分析软件包的依赖关系
- [免费网络研讨会] Java 11的第一印象
- 了解自定义对象创建:JSON绑定概述系列
- 李宏毅 课程打包_按功能而不是按层打包课程
- 工厂模式 构建者模式_实践中的构建者模式
- 扩展Java EE应用程序的基础
- @Deprecated新外观可能是什么?
- 在Spring MVC应用程序中使用Bean Validation 1.1获得更好的错误消息
- Spring 3.2矩阵变量是什么? - 第1部分
- SiftingAppender:将不同的线程记录到不同的日志文件中