平时工作中,经常遇到随机抽样的需求,可用Pandas库中的sample函数,简单又快捷。

官方文档解释在这:sample

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

  • n: 要抽取的行数,需为整数值
  • frac:抽取的比列,需为小数值,比方说我们想随机抽取30%的数据,则设置frac=0.3即可。
  • replace:抽样后的数据是否代替原DataFrame(),默认为False
  • weights:默认为等概率加权
  • random_state:随机种子,本质是一个控制器,设置此值为任意实数,则每次随机的结果是一样的
  • axis:抽取数据的行还是列,axis=0的时是抽取行,axis=1时是抽取列
import pandas
#随机从rs数据集中抽取2000行数据,并且保证下次抽取时与此次抽取结果一样
rs.sample(n=2000,random_state=123,axis=0)#随机从rs数据集中抽取50%的行数据
rs.sample(frac=0.5,axis=0)

python--DataFrame随机抽样相关推荐

  1. python打印自动换行如何解决_解决python DataFrame 打印结果不换行问题

    解决python DataFrame 打印结果不换行问题 如下所示: 加入代码: pd.set_option('display.width', 5000) 补充知识:Python 实现不换行打印字符的 ...

  2. python数据框的横向贾总_[Spark][Python]DataFrame的左右连接例子

    [Spark][Python]DataFrame的左右连接例子 $ hdfs dfs -cat people.json {"name":"Alice",&quo ...

  3. python中如何计算集合的长度_Python如何计算序列长度 python dataframe中元素如何统计?...

    如何在python列表中查找某个元素的索引 方法二:利用enumerate函数.没有任何一个男人,可以游手好闲赢得女人的欣赏. python dataframe中元素如何统计? 比如我有一个数据集a, ...

  4. python Dataframe 根据某一列的值来删除多行

    python Dataframe 根据某一列的值来删除多行 在Dataframe中,有的时候想根据某一列值来删除. 方法一:你可以做负isin()索引: In [57]: df Out[57]:a b ...

  5. python DataFrame常用描述性统计分析方法

    python DataFrame常用描述性统计分析方法 文章目录 python DataFrame常用描述性统计分析方法 sum() 求和 mean() 求平均值 max() 最大值 & mi ...

  6. python dataframe 中位数_python下的Pandas中DataFrame基本操作(一),基本函数整理

    pandas作者Wes McKinney 在[PYTHON FOR DATA ANALYSIS]中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰 ...

  7. python随机抽取样本1500个_(python)随机抽样

    随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种"等概率".随机抽样有四种基本形式,即简单随机抽样.等距抽样.类型 ...

  8. python dataframe取某行某列_pandas dataframe.apply() 实现对某一行/列进行处理获得一个新行/新列...

    重点: dataframe.apply(function,axis)对一行或一列做出一些操作(axis=1则为对某一列进行操作,此时,apply函数每次将dataframe的一行传给function, ...

  9. python dataframe 计算上下两行的差值_用Python进行数据清洗!

    导读:数据清洗是数据分析的必备环节,在进行分析过程中,会有很多不符合分析要求的数据,例如重复.错误.缺失.异常类数据. Python资源共享群:626017123 01 重复值处理 数据录入过程.数据 ...

  10. python dataframe 如何去除缺失值

    2019独角兽企业重金招聘Python工程师标准>>> df.dropna(axis=0, how='any', thresh=None, subset=None, inplace= ...

最新文章

  1. Java开发需掌握的常用Linux命令(持续更新)
  2. python中的time库安装步骤-Python中time模块的使用
  3. seaborn 笔记:load_dataset
  4. QT编程中遇到的问题总结
  5. C++中全局变量的使用
  6. 译:重置/还原Windows IIs设置为默认设置
  7. ORA-12514, TNS:listener does not currently know of service requested in connect descriptor
  8. tensorflow 转张量类型为float_一文看懂TensorFlow计算图
  9. svn导出项目到myeclipse,运行报ClassNotFoundException
  10. sencha touch 类的使用
  11. 死亡细胞Mod制作教程
  12. dos 命令检索文件
  13. 入门HTML之表格入门基本属性
  14. SAP客户主数据相关表
  15. php卡片猜数字游戏二进制,卡片猜数字游戏二进制码
  16. win10 无法选择无限网络连接服务器,Win10可以连接无线网络却无法上网的原因及解决方法...
  17. API ShowWindow
  18. Gulp的自动化编译PostCss
  19. openlayers小车_计算机科学与软件工程学院本科生双创项目答辩结果重磅推出
  20. Android源码设计模式探索与实战【外观模式】

热门文章

  1. Ambarella Ethernet PHY rtl9000 Linux driver 调试
  2. 想准确识别各地方言?这套15000小时方言语音数据推荐了解一下
  3. 【01】国内外git托管平台(总结by魔芋)
  4. 图像——vignetting shading 光晕
  5. android 进退分屏代码策略,Android的分屏模式开发注意事项
  6. oracle 归档日志 重做日志,Oracle的重做日志和归档日志
  7. markdown如何设置图片大小_cnblogs文章/MarkDown内如何调整图片的宽度?
  8. 计算机二级word家长回执单得分,全国计算机国家二级office课件_word第一次课.doc...
  9. python打开是什么颜色-Python中常见颜色记录
  10. 光追(光线追踪)和 DLSS是什么?