ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

目录

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果

实现代码


数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

输出结果

name      object
ID        object
age       object
sex       object
hobbey    object
dtype: objectname    ID  age   sex hobbey
0   Bob     1  NaN     男    打篮球
1  LiSa     2   28     女   打羽毛球
2  Mary         38     女   打乒乓球
3  Alan  None       None
-----------------------------------------
输出数据形状: (3, 6)
导出数据成功!0     1    2    3    4     5
1  0.0   Bob    1  NaN    男   打篮球
3  2.0  Mary        38    女  打乒乓球
4  3.0  Alan  NaN  NaN  NaN   NaN

实现代码

import pandas as pd
import numpy as npcontents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],"ID":   [1,              2,                         ' ',                          None],    # 输出 NaN"age":  [np.nan,        28,                           38 ,                          '' ],    # 输出
#           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT"sex":  ['男',          '女',                        '女',                        None,],    # 输出 None"hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出 }
data_frame = pd.DataFrame(contents)
data_frame.to_excel("data_Frame.xls")
print(data_frame.dtypes)
print(data_frame)
print('-----------------------------------------')
data_frame_temp=data_frame.copy()file_path_in='data_Frame.xls'
file_path_out='data_Frame_Sampling.xls'
# ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件import pandas as pd
data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名
data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2
print("输出数据形状:",data_all_Sampling.shape)
data_all_Sampling.to_csv(file_path_out)
print('导出数据成功!')
print(data_all_Sampling)

ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件相关推荐

  1. Dataset:数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据

    Dataset:数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据 目录 数据生成之利用pandas自定义生成随机数据 输出结果 实现代码 数据生成之利用pan ...

  2. 成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题

    成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题 目录 解决问题 解决思路 解决方法 解决问题 利用pandas的read_csv函数读取csv文件的时候出现中文乱码 ...

  3. pandas数据可视化_5利用Pandas进行强大的可视化以进行数据预处理

    pandas数据可视化 One of the most common pitfalls I observe repeatedly among relatively junior data scient ...

  4. list取数据_Day.5利用Pandas做数据处理(二)

    数据合并 使用Join()合并,合并的方式是根据行和行进行合并. # 使用join合并,着重关注的是 行的合并import pandas as pd df1=pd.DataFrame({'Red':[ ...

  5. 【Python】电商用户复购数据实战:图解Pandas的移动函数shift

    公众号:尤而小屋 作者:Peter 编辑:Peter 本文主要介绍的是pandas中的一个移动函数:shift.最后结合一个具体的电商领域中用户的复购案例来说明如何使用shift函数. 这个案例综合性 ...

  6. 利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

    利用pandas库中的read_html方法快速抓取网页中常见的表格型数据 本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要 ...

  7. 利用pandas读写HDF5文件

    一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...

  8. dataframe修改数据_数据处理进阶pandas入门(一)

    前言 NumPy作为数据处理的利器,在对数据进行科学计算.存储处理大型矩阵等方面为我们带来了极大的方便,但对于更进一步的数据分析任务,文件操作等方面显得有些吃力.于是,作为NumPy的进阶库panda ...

  9. Python批量处理csv文件转Excel--xlsx文件——利用pandas库(csv文件可指定分隔符)

    最近工作需要处理大量csv文件转换成.xlsx进行数据处理,手动转换效率低,于是上网查了很多批量转csv教程,可惜的是所有教程几乎都是默认csv分隔符为逗号,很不幸的是我的csv文件是分号  &quo ...

最新文章

  1. [C# 基础知识系列]专题五:当点击按钮时触发Click事件背后发生的事情
  2. BZOJ 1012: [JSOI2008]最大数maxnumber
  3. 从一般到特殊-C#中的对象
  4. python中的json序列化
  5. mysql innodb缓存策略之Buffer Pool
  6. UIScrollview 技巧
  7. 36 MM配置-采购-采购订单-采购订单审批-编辑特性
  8. java定时器检测状态_java 定时检测服务器端口状态方法(一)
  9. python 路由转发_[转载]无线传感器网络路由协议(转)
  10. python 爬虫,起点完结榜前100榜单
  11. android 获取mac地址
  12. VB2010(24)窗体用户控件
  13. mysql rds 迁移_如何实现迁移RDS for MySQL数据到本地 MySQL
  14. 国产规则引擎urule,产品化方案的扛把子
  15. wx.createVideoContext 全屏播放
  16. 破解云锁服务器安全软件的反爬机制(python)
  17. 聊一聊阿里P8、P9及以上人的水平
  18. WPS Office应用大全
  19. Qt(c++)调用python一直报错slot、hypot等
  20. 统计一组名字中每个姓出现的次数

热门文章

  1. android 微信跨境支付,微信跨境支付.pdf
  2. 面试python的理解_Python面试中会遇到的一些问题,和自己的理解。
  3. 后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...
  4. python Series 添加行_傻傻分不清系列 | Python中各种字符串处理方法
  5. Effective C# 摘录(1) - C# Language Elements
  6. MyBatis的运行的核心原理解析(三)
  7. Java 获得方法调用者名称
  8. Ceph BlueFS
  9. 高性能缓存服务器Varnish详解
  10. 【BZOJ3242】【UOJ#126】【NOI2013】快餐店