这是一个解决方案。

整理训练数据。然后对验证数据使用searchsorted。import pandas as pd

import numpy as np

# Generate Dummy Data

df_train = pd.DataFrame({'Values': 1000*np.random.rand(15712)})

#Sort Data

df_train = df_train.sort_values('Values')

# Calculating Rank and Rank_Pct for demo purposes

#but note that it is not needed for the solution

# The ranking of the validation data below does not depend on this

df_train['Rank'] = df_train.rank()

df_train['Rank_Pct']= df_train.Values.rank(pct=True)

# Demonstrate how Rank Percentile is calculated

# This gives the same value as .rank(pct=True)

pct_increment = 1./len(df_train)

df_train['Rank_Pct_Manual'] = df_train.Rank*pct_increment

df_train.head()

Values Rank Rank_Pct Rank_Pct_Manual

2724 0.006174 1.0 0.000064 0.000064

3582 0.016264 2.0 0.000127 0.000127

5534 0.095691 3.0 0.000191 0.000191

944 0.141442 4.0 0.000255 0.000255

7566 0.161766 5.0 0.000318 0.000318

现在使用searchsorted获取验证数据的秩比# Generate Dummy Validation Data

df_validation = pd.DataFrame({'Values': 1000*np.random.rand(1000)})

# Note searchsorted returns array index.

# In sorted list rank is the same as the array index +1

df_validation['Rank_Pct'] = (1 + df_train.Values.searchsorted(df_validation.Values))*pct_increment

以下是最终df_验证数据帧的前几行:print df_validation.head()

Values Rank_Pct

0 307.378334 0.304290

1 744.247034 0.744208

2 669.223821 0.670825

3 149.797030 0.145621

4 317.742713 0.314218

python 百分比数据_如何使用python计算数据列相对于另一列的百分比排名相关推荐

  1. 怎么用python分析数据_如何用python进行数据分析?

    .Python数据分析流程及学习路径 数据分析的流程概括起来主要是:读写.处理计算.分析建模和可视化四个部分.在不同的步骤中会用到不同的Python工具.每一步的主题也包含众多内容. 根据每个部分需要 ...

  2. 如何用python整理数据_如何用python实现对数据库的整理

    展开全部 先花点时间来说说一个程序怎么和数e68a843231313335323631343130323136353331333361303131据库进行交互 1.和数据库建立连接 2.执行sql语句 ...

  3. python葡萄酒数据_用python进行葡萄酒质量预测

    python葡萄酒数据 Warning: This is long article for those who seek only machine learning code, please just ...

  4. python归一化处理_详解python实现数据归一化处理的方式:(0,1)标准化

    在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系"压缩"到(0,1)的范 ...

  5. 如何用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  6. 用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  7. django前端引用数据_「基于Python技术的智慧中医商业项目」Django前端网站篇-5.资讯的数据交互...

    如果你对中医感兴趣欢迎留言讨论,觉得我的内容对你有帮助的话,能够请我喝一杯沪上阿姨不禁万分感谢. 内容简介 本章介绍Django搭建中医网站项目平台前端建设之资讯模块的数据交互的内容.其中由于代码量较 ...

  8. python如何读dat数据_如何用Python进行数据质量分析

    概述 数据挖掘的第一步工作是数据准备,而数据准备的第一步就是数据质量分析了.本篇文章着重介绍如何使用Python进行数据质量分析的初步工作,属于比较基础的入门教程. 为什么要进行数据质量分析 根据百度 ...

  9. df python 增加数据_【Note】关于玩转数据处理R语言120题的注解(P1-P50)

    前言: 这是关于张敬信老师@张敬信的专栏R&Python数据科学中的文章:玩转数据处理120题(R语言tidyverse版本)的个人自学笔记.敬信老师是我本科期间的恩师之一,非常感谢他提供的学 ...

最新文章

  1. MongoDb数据库面试整理
  2. hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较
  3. PHP一行命令打印当前系统时间
  4. My SQL出错代码及出错信息对照
  5. 盘点程序猿经常说的那些行话,你了解吗?
  6. [XML-Jsoup]Jsoup_对象的使用(Jsoup工具类,Document,Elements,Element,Node)
  7. 斯坦佛编程教程-Unix编程工具(五)
  8. 佰腾科技:专利大数据的云上裂变之路
  9. 飞鸽传书有多少用户?
  10. linux查看是哪个端口,linux 查看哪个端口使用情况
  11. mvn命令编译GeoServer源代码
  12. presto自定义UDF函数
  13. STM32学习笔记(正点原子STM32Mini版)
  14. python贝叶斯网络预测天气_基于pym的贝叶斯网络条件概率表的生成
  15. 三通短信每月发送量导入Sqlserver随笔
  16. 对联广告php代码,JS实现很实用的对联广告代码(可自适应高度)
  17. 2022最新前端vue面试题
  18. Little Elephant and Magic Square
  19. 利用HttpWebRequest自动抓取51la统计数据
  20. 微软梁念坚谈新平台 企业跨界办公随需而变

热门文章

  1. structure101_使用structure101分析软件包的依赖关系
  2. [免费网络研讨会] Java 11的第一印象
  3. 了解自定义对象创建:JSON绑定概述系列
  4. 李宏毅 课程打包_按功能而不是按层打包课程
  5. 工厂模式 构建者模式_实践中的构建者模式
  6. 扩展Java EE应用程序的基础
  7. @Deprecated新外观可能是什么?
  8. 在Spring MVC应用程序中使用Bean Validation 1.1获得更好的错误消息
  9. Spring 3.2矩阵变量是什么? - 第1部分
  10. SiftingAppender:将不同的线程记录到不同的日志文件中