python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名

这是一个解决方案。

整理训练数据。然后对验证数据使用searchsorted。import pandas as pd

import numpy as np

# Generate Dummy Data

df_train = pd.DataFrame({'Values': 1000*np.random.rand(15712)})

#Sort Data

df_train = df_train.sort_values('Values')

# Calculating Rank and Rank_Pct for demo purposes

#but note that it is not needed for the solution

# The ranking of the validation data below does not depend on this

df_train['Rank'] = df_train.rank()

df_train['Rank_Pct']= df_train.Values.rank(pct=True)

# Demonstrate how Rank Percentile is calculated

# This gives the same value as .rank(pct=True)

pct_increment = 1./len(df_train)

df_train['Rank_Pct_Manual'] = df_train.Rank*pct_increment

df_train.head()

Values Rank Rank_Pct Rank_Pct_Manual

2724 0.006174 1.0 0.000064 0.000064

3582 0.016264 2.0 0.000127 0.000127

5534 0.095691 3.0 0.000191 0.000191

944 0.141442 4.0 0.000255 0.000255

7566 0.161766 5.0 0.000318 0.000318

现在使用searchsorted获取验证数据的秩比# Generate Dummy Validation Data

df_validation = pd.DataFrame({'Values': 1000*np.random.rand(1000)})

# Note searchsorted returns array index.

# In sorted list rank is the same as the array index +1

df_validation['Rank_Pct'] = (1 + df_train.Values.searchsorted(df_validation.Values))*pct_increment

以下是最终df_验证数据帧的前几行：print df_validation.head()

Values Rank_Pct

0 307.378334 0.304290

1 744.247034 0.744208

2 669.223821 0.670825

3 149.797030 0.145621

4 317.742713 0.314218

python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名相关推荐

怎么用python分析数据_如何用python进行数据分析？
.Python数据分析流程及学习路径数据分析的流程概括起来主要是:读写.处理计算.分析建模和可视化四个部分.在不同的步骤中会用到不同的Python工具.每一步的主题也包含众多内容. 根据每个部分需要 ...
如何用python整理数据_如何用python实现对数据库的整理
展开全部先花点时间来说说一个程序怎么和数e68a843231313335323631343130323136353331333361303131据库进行交互 1.和数据库建立连接 2.执行sql语句 ...
python葡萄酒数据_用python进行葡萄酒质量预测
python葡萄酒数据 Warning: This is long article for those who seek only machine learning code, please just ...
python归一化处理_详解python实现数据归一化处理的方式：（0,1）标准化
在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系"压缩"到(0,1)的范 ...
如何用python爬微博数据_怎样用python爬新浪微博大V所有数据？
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
用python爬微博数据_怎样用python爬新浪微博大V所有数据？
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
django前端引用数据_「基于Python技术的智慧中医商业项目」Django前端网站篇-5.资讯的数据交互...
如果你对中医感兴趣欢迎留言讨论,觉得我的内容对你有帮助的话,能够请我喝一杯沪上阿姨不禁万分感谢. 内容简介本章介绍Django搭建中医网站项目平台前端建设之资讯模块的数据交互的内容.其中由于代码量较 ...
python如何读dat数据_如何用Python进行数据质量分析
概述数据挖掘的第一步工作是数据准备,而数据准备的第一步就是数据质量分析了.本篇文章着重介绍如何使用Python进行数据质量分析的初步工作,属于比较基础的入门教程. 为什么要进行数据质量分析根据百度 ...
df python 增加数据_【Note】关于玩转数据处理R语言120题的注解（P1-P50）
前言: 这是关于张敬信老师@张敬信的专栏R&Python数据科学中的文章:玩转数据处理120题(R语言tidyverse版本)的个人自学笔记.敬信老师是我本科期间的恩师之一,非常感谢他提供的学 ...

python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名

python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名相关推荐

最新文章

热门文章