ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
目录
数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
输出结果
实现代码
数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件
输出结果
name object
ID object
age object
sex object
hobbey object
dtype: objectname ID age sex hobbey
0 Bob 1 NaN 男 打篮球
1 LiSa 2 28 女 打羽毛球
2 Mary 38 女 打乒乓球
3 Alan None None
-----------------------------------------
输出数据形状: (3, 6)
导出数据成功!0 1 2 3 4 5
1 0.0 Bob 1 NaN 男 打篮球
3 2.0 Mary 38 女 打乒乓球
4 3.0 Alan NaN NaN NaN NaN
实现代码
import pandas as pd
import numpy as npcontents={"name": ['Bob', 'LiSa', 'Mary', 'Alan'],"ID": [1, 2, ' ', None], # 输出 NaN"age": [np.nan, 28, 38 , '' ], # 输出
# "born": [pd.NaT, pd.Timestamp("1990-01-01"), pd.Timestamp("1980-01-01"), ''], # 输出 NaT"sex": ['男', '女', '女', None,], # 输出 None"hobbey":['打篮球', '打羽毛球', '打乒乓球', '',], # 输出 }
data_frame = pd.DataFrame(contents)
data_frame.to_excel("data_Frame.xls")
print(data_frame.dtypes)
print(data_frame)
print('-----------------------------------------')
data_frame_temp=data_frame.copy()file_path_in='data_Frame.xls'
file_path_out='data_Frame_Sampling.xls'
# ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件import pandas as pd
data_all = pd.read_excel(file_path_in, header=None) # 取消读取csv或txt时默认第一行为列名
data_all_Sampling=data_all.sample(n=3,random_state=123) # 随机选取100行数据 n=100,或者随机选取20%的数据 frac=0.2
print("输出数据形状:",data_all_Sampling.shape)
data_all_Sampling.to_csv(file_path_out)
print('导出数据成功!')
print(data_all_Sampling)
ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件相关推荐
- Dataset:数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据
Dataset:数据生成之利用pandas自定义生成随机各自类型(离散型和连续型)的dataframe数据 目录 数据生成之利用pandas自定义生成随机数据 输出结果 实现代码 数据生成之利用pan ...
- 成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题
成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题 目录 解决问题 解决思路 解决方法 解决问题 利用pandas的read_csv函数读取csv文件的时候出现中文乱码 ...
- pandas数据可视化_5利用Pandas进行强大的可视化以进行数据预处理
pandas数据可视化 One of the most common pitfalls I observe repeatedly among relatively junior data scient ...
- list取数据_Day.5利用Pandas做数据处理(二)
数据合并 使用Join()合并,合并的方式是根据行和行进行合并. # 使用join合并,着重关注的是 行的合并import pandas as pd df1=pd.DataFrame({'Red':[ ...
- 【Python】电商用户复购数据实战:图解Pandas的移动函数shift
公众号:尤而小屋 作者:Peter 编辑:Peter 本文主要介绍的是pandas中的一个移动函数:shift.最后结合一个具体的电商领域中用户的复购案例来说明如何使用shift函数. 这个案例综合性 ...
- 利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据 本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要 ...
- 利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
- dataframe修改数据_数据处理进阶pandas入门(一)
前言 NumPy作为数据处理的利器,在对数据进行科学计算.存储处理大型矩阵等方面为我们带来了极大的方便,但对于更进一步的数据分析任务,文件操作等方面显得有些吃力.于是,作为NumPy的进阶库panda ...
- Python批量处理csv文件转Excel--xlsx文件——利用pandas库(csv文件可指定分隔符)
最近工作需要处理大量csv文件转换成.xlsx进行数据处理,手动转换效率低,于是上网查了很多批量转csv教程,可惜的是所有教程几乎都是默认csv分隔符为逗号,很不幸的是我的csv文件是分号 &quo ...
最新文章
- [C# 基础知识系列]专题五:当点击按钮时触发Click事件背后发生的事情
- BZOJ 1012: [JSOI2008]最大数maxnumber
- 从一般到特殊-C#中的对象
- python中的json序列化
- mysql innodb缓存策略之Buffer Pool
- UIScrollview 技巧
- 36 MM配置-采购-采购订单-采购订单审批-编辑特性
- java定时器检测状态_java 定时检测服务器端口状态方法(一)
- python 路由转发_[转载]无线传感器网络路由协议(转)
- python 爬虫,起点完结榜前100榜单
- android 获取mac地址
- VB2010(24)窗体用户控件
- mysql rds 迁移_如何实现迁移RDS for MySQL数据到本地 MySQL
- 国产规则引擎urule,产品化方案的扛把子
- wx.createVideoContext 全屏播放
- 破解云锁服务器安全软件的反爬机制(python)
- 聊一聊阿里P8、P9及以上人的水平
- WPS Office应用大全
- Qt(c++)调用python一直报错slot、hypot等
- 统计一组名字中每个姓出现的次数
热门文章
- android 微信跨境支付,微信跨境支付.pdf
- 面试python的理解_Python面试中会遇到的一些问题,和自己的理解。
- 后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...
- python Series 添加行_傻傻分不清系列 | Python中各种字符串处理方法
- Effective C# 摘录(1) - C# Language Elements
- MyBatis的运行的核心原理解析(三)
- Java 获得方法调用者名称
- Ceph BlueFS
- 高性能缓存服务器Varnish详解
- 【BZOJ3242】【UOJ#126】【NOI2013】快餐店