数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

name      object
ID        object
age       object
sex       object
hobbey    object
dtype: objectname    ID  age   sex hobbey
0   Bob     1  NaN     男    打篮球
1  LiSa     2   28     女   打羽毛球
2  Mary         38     女   打乒乓球
3  Alan  None       None
-----------------------------------------
输出数据形状： (3, 6)
导出数据成功！0     1    2    3    4     5
1  0.0   Bob    1  NaN    男   打篮球
3  2.0  Mary        38    女  打乒乓球
4  3.0  Alan  NaN  NaN  NaN   NaN

实现代码

import pandas as pd
import numpy as npcontents={"name": ['Bob',        'LiSa',                     'Mary',                       'Alan'],"ID":   [1,              2,                         ' ',                          None],    # 输出 NaN"age":  [np.nan,        28,                           38 ,                          '' ],    # 输出
#           "born": [pd.NaT,     pd.Timestamp("1990-01-01"),  pd.Timestamp("1980-01-01"),        ''],  # 输出 NaT"sex":  ['男',          '女',                        '女',                        None,],    # 输出 None"hobbey":['打篮球',     '打羽毛球',                   '打乒乓球',                    '',],    # 输出 }
data_frame = pd.DataFrame(contents)
data_frame.to_excel("data_Frame.xls")
print(data_frame.dtypes)
print(data_frame)
print('-----------------------------------------')
data_frame_temp=data_frame.copy()file_path_in='data_Frame.xls'
file_path_out='data_Frame_Sampling.xls'
# ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件import pandas as pd
data_all = pd.read_excel(file_path_in, header=None)         # 取消读取csv或txt时默认第一行为列名
data_all_Sampling=data_all.sample(n=3,random_state=123)   # 随机选取100行数据 n=100，或者随机选取20%的数据 frac=0.2
print("输出数据形状：",data_all_Sampling.shape)
data_all_Sampling.to_csv(file_path_out)
print('导出数据成功！')
print(data_all_Sampling)

ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件相关推荐

Dataset：数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据
Dataset:数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据目录数据生成之利用pandas自定义生成随机数据输出结果实现代码数据生成之利用pan ...
成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题
成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题目录解决问题解决思路解决方法解决问题利用pandas的read_csv函数读取csv文件的时候出现中文乱码 ...
pandas数据可视化_5利用Pandas进行强大的可视化以进行数据预处理
pandas数据可视化 One of the most common pitfalls I observe repeatedly among relatively junior data scient ...
list取数据_Day.5利用Pandas做数据处理（二）
数据合并使用Join()合并,合并的方式是根据行和行进行合并. # 使用join合并,着重关注的是行的合并import pandas as pd df1=pd.DataFrame({'Red':[ ...
【Python】电商用户复购数据实战：图解Pandas的移动函数shift
公众号:尤而小屋作者:Peter 编辑:Peter 本文主要介绍的是pandas中的一个移动函数:shift.最后结合一个具体的电商领域中用户的复购案例来说明如何使用shift函数. 这个案例综合性 ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要 ...
利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
dataframe修改数据_数据处理进阶pandas入门（一）
前言 NumPy作为数据处理的利器,在对数据进行科学计算.存储处理大型矩阵等方面为我们带来了极大的方便,但对于更进一步的数据分析任务,文件操作等方面显得有些吃力.于是,作为NumPy的进阶库panda ...
Python批量处理csv文件转Excel--xlsx文件——利用pandas库（csv文件可指定分隔符）
最近工作需要处理大量csv文件转换成.xlsx进行数据处理,手动转换效率低,于是上网查了很多批量转csv教程,可惜的是所有教程几乎都是默认csv分隔符为逗号,很不幸的是我的csv文件是分号 &quo ...

ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件

输出结果

实现代码

ML之FE：数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样，并另存为csv文件相关推荐

最新文章

热门文章