从0到1Python数据科学之旅:http://dwz.date/cqpw

微信公众号:pythonEducation模型和统计项目QQ:231469242

1    数据切片选取
1.1    pandas.DataFrame.sample 随机选取若干行
1.1.1     功能说明
             有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

功能相似:numpy.random.choice
    Generates a random sample from a given 1-D numpy array.

1.1.2     使用说明
1.    函数名及功能
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]

2.    输入参数说明

参数名称 参数说明 举例说明
n 要抽取的行数
df.sample(n=3,random_state=1)
提取3行数据列表
注意,使用random_state,以确保可重复性的例子。

frac
抽取行的比例
例如frac=0.8,就是抽取其中80%。

df.sample(frac=0.8, replace=True, random_state=1)
replace
是否为有放回抽样,
True:有放回抽样
False:未放回抽样

True:取行数据后,可以重复放回后再取
False:取行数据后不放回,下次取其它行数据
注意:当N>总数据容量,replace设置为值时有效

weights
字符索引或概率数组

axis=0:为行字符索引或概率数组
axis=1:为列字符索引或概率数组

random_state
int: 随机数发生器种子
或numpy.random.RandomState

random_state=None,取得数据不重复
random_state=1,可以取得重复数据

axis
选择抽取数据的行还是列
axis=0:抽取行
axis=1:抽取列

也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行。
3.    返回值说明
返回选择的N行元素的DataFrame对象。

Python数据分析与机器学习项目实战:http://dwz.date/ckS4

pandas的自带数据集_pandas.DataFrame.sample随机抽样相关推荐

  1. pandas的自带数据集_盘点 | Python自带的那些数据集

    01  Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提 ...

  2. pandas的自带数据集_用Python和Pandas进行数据清理:检测丢失值

    数据清理是一个非常耗时的任务,在应用机器学习模型之前,你需要获得待处理的数据,然后你会意识到这些数据是一团乱麻. 根据IBM数据分析的观点 -- 数据科学家花费80%的时间来寻找.清理和组织数据上,只 ...

  3. pandas取第一行数据_Pandas DataFrame 取一行数据会得到Series的方法

    Pandas DataFrame 取一行数据会得到Series的方法 Pandas DataFrame 取一行数据会得到Series的方法 如题,想要取如下dataframe的一行数据,以为得到的还是 ...

  4. python将scikit-learn自带数据集转换为pandas dataframe格式

    python将scikit-learn自带数据集转换为pandas dataframe格式 目录 python将scikit-learn自带数据集转换为pandas dataframe格式 #仿真数据

  5. pandas使用rename函数重命名dataframe中数据列的名称、从而创建一个包含重复列名称的dataframe数据集

    pandas使用rename函数重命名dataframe中数据列的名称.从而创建一个包含重复列名称的dataframe数据集 目录

  6. python的自带数据集_盘点 | Python自带的那些数据集

    01 Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供 ...

  7. python使用pandas模块介绍以及使用,dataframe结构,Series结构,基本数据操作,DataFrame运算,pandas画图,存储,缺失值处理,离散化,合并

    目录 1 pandas介绍 1.1 Pandas介绍 1.2 为什么使用Pandas 1.3 案例:在numpy当中创建的股票涨跌幅数据形式 1.4 DataFrame 1.4.1 DataFrame ...

  8. dataframe sample 采样,抽样

    20220324 https://blog.csdn.net/DSTJWJW/article/details/90667570 不重复随机抽样 20211223 # 读取数据集 test_data_a ...

  9. 机器学习之Pandas:Pandas介绍、基本数据操作、DataFrame运算、Pandas画图、文件读取与处、缺失值处理、数据离散化、合并、交叉表和透视表、分组与聚合、案例(超长篇,建议收藏慢慢看)

    文章目录 Pandas 学习目标 1Pandas介绍 学习目标 1 Pandas介绍 2 为什么使用Pandas 3 案例: 问题:如何让数据更有意义的显示?处理刚才的股票数据 给股票涨跌幅数据增加行 ...

最新文章

  1. 智源论坛报名丨斯坦福大学马腾宇博士:为深度模型设计显示正则器
  2. 红旗Linux软件开发技术,中科红旗闷声研发下一代红旗Linux 11操作系统
  3. 大智慧数据文件python_马克的Python学习笔记#模块和包 3
  4. Windows下窗口的生命周期
  5. mongodb备份还原
  6. Oracle的SQL基础之用户与表空间
  7. stm32PWM输入捕获模式详解
  8. 利用MyEclipse连接数据库并自动生成基于注解或者XML的实体类
  9. qemu-nbd挂载虚拟机镜像文件系统
  10. dota2服务器何时修复,《DOTA2》10月10日更新:服务器改善bug饰品修复
  11. archlinux + dwm系统美化
  12. 在计算机硬件系统中 cache是,CPU中Cache是什么
  13. 【IoT】创业:产品雷达图 - 如何明智地权衡产品?
  14. 基于linux的mplay的mp3程序,mplay_mxplayer播放器1.8.11_linux 视频播放器
  15. 软件测试自学毛笔字纹身,横眉冷对千夫指 俯首甘为孺子牛的毛笔楷书和行书...
  16. Jenkins 添加配置Git账号密码凭据
  17. python 给手机发送邮件消息
  18. GDI泄漏问题:QWindowsBackingStore::flush:GetDC failed
  19. vue.js 动态加载 html,Vue加载组件、动态加载组件的几种方式
  20. Happy Birthday! My Motherland!

热门文章

  1. 搭建大数据开发环境-Hadoop篇
  2. javaee 第五周作业
  3. 7.3.8.1 - 并发多线程 死锁和递归锁 - 信号量
  4. Spring中常用注解的介绍
  5. Objective-C与Swift混编
  6. linux awk 内置变量使用介绍
  7. 召唤AI大神与病毒作战!Kaggle发起CORD-19数据集文本挖掘竞赛
  8. ShapeNet:超实时人脸特征点检测与形状拟合开源库
  9. 月薪3K与月薪3万的程序员,距离是怎么拉开的?
  10. 收藏 | 各种Optimizer梯度下降优化算法回顾和总结