python--DataFrame随机抽样
平时工作中,经常遇到随机抽样的需求,可用Pandas库中的sample函数,简单又快捷。
官方文档解释在这:sample
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
- n: 要抽取的行数,需为整数值
- frac:抽取的比列,需为小数值,比方说我们想随机抽取30%的数据,则设置frac=0.3即可。
- replace:抽样后的数据是否代替原DataFrame(),默认为False
- weights:默认为等概率加权
- random_state:随机种子,本质是一个控制器,设置此值为任意实数,则每次随机的结果是一样的
- axis:抽取数据的行还是列,axis=0的时是抽取行,axis=1时是抽取列
import pandas
#随机从rs数据集中抽取2000行数据,并且保证下次抽取时与此次抽取结果一样
rs.sample(n=2000,random_state=123,axis=0)#随机从rs数据集中抽取50%的行数据
rs.sample(frac=0.5,axis=0)
python--DataFrame随机抽样相关推荐
- python打印自动换行如何解决_解决python DataFrame 打印结果不换行问题
解决python DataFrame 打印结果不换行问题 如下所示: 加入代码: pd.set_option('display.width', 5000) 补充知识:Python 实现不换行打印字符的 ...
- python数据框的横向贾总_[Spark][Python]DataFrame的左右连接例子
[Spark][Python]DataFrame的左右连接例子 $ hdfs dfs -cat people.json {"name":"Alice",&quo ...
- python中如何计算集合的长度_Python如何计算序列长度 python dataframe中元素如何统计?...
如何在python列表中查找某个元素的索引 方法二:利用enumerate函数.没有任何一个男人,可以游手好闲赢得女人的欣赏. python dataframe中元素如何统计? 比如我有一个数据集a, ...
- python Dataframe 根据某一列的值来删除多行
python Dataframe 根据某一列的值来删除多行 在Dataframe中,有的时候想根据某一列值来删除. 方法一:你可以做负isin()索引: In [57]: df Out[57]:a b ...
- python DataFrame常用描述性统计分析方法
python DataFrame常用描述性统计分析方法 文章目录 python DataFrame常用描述性统计分析方法 sum() 求和 mean() 求平均值 max() 最大值 & mi ...
- python dataframe 中位数_python下的Pandas中DataFrame基本操作(一),基本函数整理
pandas作者Wes McKinney 在[PYTHON FOR DATA ANALYSIS]中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰 ...
- python随机抽取样本1500个_(python)随机抽样
随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种"等概率".随机抽样有四种基本形式,即简单随机抽样.等距抽样.类型 ...
- python dataframe取某行某列_pandas dataframe.apply() 实现对某一行/列进行处理获得一个新行/新列...
重点: dataframe.apply(function,axis)对一行或一列做出一些操作(axis=1则为对某一列进行操作,此时,apply函数每次将dataframe的一行传给function, ...
- python dataframe 计算上下两行的差值_用Python进行数据清洗!
导读:数据清洗是数据分析的必备环节,在进行分析过程中,会有很多不符合分析要求的数据,例如重复.错误.缺失.异常类数据. Python资源共享群:626017123 01 重复值处理 数据录入过程.数据 ...
- python dataframe 如何去除缺失值
2019独角兽企业重金招聘Python工程师标准>>> df.dropna(axis=0, how='any', thresh=None, subset=None, inplace= ...
最新文章
- Java开发需掌握的常用Linux命令(持续更新)
- python中的time库安装步骤-Python中time模块的使用
- seaborn 笔记:load_dataset
- QT编程中遇到的问题总结
- C++中全局变量的使用
- 译:重置/还原Windows IIs设置为默认设置
- ORA-12514, TNS:listener does not currently know of service requested in connect descriptor
- tensorflow 转张量类型为float_一文看懂TensorFlow计算图
- svn导出项目到myeclipse,运行报ClassNotFoundException
- sencha touch 类的使用
- 死亡细胞Mod制作教程
- dos 命令检索文件
- 入门HTML之表格入门基本属性
- SAP客户主数据相关表
- php卡片猜数字游戏二进制,卡片猜数字游戏二进制码
- win10 无法选择无限网络连接服务器,Win10可以连接无线网络却无法上网的原因及解决方法...
- API ShowWindow
- Gulp的自动化编译PostCss
- openlayers小车_计算机科学与软件工程学院本科生双创项目答辩结果重磅推出
- Android源码设计模式探索与实战【外观模式】
热门文章
- Ambarella Ethernet PHY rtl9000 Linux driver 调试
- 想准确识别各地方言?这套15000小时方言语音数据推荐了解一下
- 【01】国内外git托管平台(总结by魔芋)
- 图像——vignetting shading 光晕
- android 进退分屏代码策略,Android的分屏模式开发注意事项
- oracle 归档日志 重做日志,Oracle的重做日志和归档日志
- markdown如何设置图片大小_cnblogs文章/MarkDown内如何调整图片的宽度?
- 计算机二级word家长回执单得分,全国计算机国家二级office课件_word第一次课.doc...
- python打开是什么颜色-Python中常见颜色记录
- 光追(光线追踪)和 DLSS是什么?