数据预处理-pandas-04-p4
数据预处理
创建一个人工数据集,并存储在csv(逗号分隔值)文件
import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n')f.write('NA,Pave,127500\n')f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')
从创建的 csv 文件中加载原始数据集
import pandas as pddata = pd.read_csv(data_file)
print(data)
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
为了处理缺失的数据,典型的方法包括 插值 和 删除,
这里,我们将考虑插值
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
对于 inputs
中的类别值或离散值,我们将 “NaN” 视为一个类别
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
NumRooms Alley_Pave Alley_nan
0 3.0 1 0
1 2.0 0 1
2 4.0 0 1
3 3.0 0 1
现在 inputs
和 outputs
中的所有条目都是数值类型,它们可以转换为张量格式
import torchX, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
(tensor([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=torch.float64),tensor([127500, 106000, 178100, 140000]))
数据预处理-pandas-04-p4相关推荐
- 数据预处理之数据合并(基于pandas)
文章目录 数据预处理 pandas.concat pandas.DateFrame.append pandas.merge pandas.DateFrame.join 数据预处理 数据预处理主要包括: ...
- Pandas 数据预处理
Pandas数据处理 一 概述 1.1 业务建模流程 将业务抽象为分类or回归问题 定义标签,得到y 选取合适的样本,并匹配出全部的信息作为特征的来源 特征工程 + 模型训练 + 模型评价与调优(相互 ...
- pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)
1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...
- pandas数据预处理(字段筛选、query函数进行数据筛选、缺失值删除)、seaborn可视化分面图(facet)、seaborn使用Catplot可视化分面箱图(Faceted Boxplot)
pandas数据预处理(字段筛选.query函数进行数据筛选.缺失值删除).seaborn可视化分面图(facet).seaborn使用Catplot可视化分面箱图(Faceted Boxplot) ...
- 数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法、方案
数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法.方案 缺失值+sklearn from sklearn.preprocessing import Imputer ...
- 【Python】4000字归纳总结 Pandas+Sklearn 带你做数据预处理
就在前天的一篇原创文章中, 7000字 23张图,Pandas一键生成炫酷的动态交互式图表 有粉丝问道,是不是写一篇关于数据预处理的文章,小编立马就答应了他的请求,那么今天我们就来讲讲数据预处理过程当 ...
- 04 数据操作 + 数据预处理【动手学深度学习v2】
数据操作 宽是列的个数 4维是n个3维数组放一起 比如每次读128张图片 5维 视频 有时间维度 [1:3,1:] 1:3--拿1,2行,左闭右开 1:--拿1到所有列 [::3,::2] ::所有行 ...
- Python应用实战-用pandas实现数据预处理
数据预处理常用的处理步骤,包括找出异常值.处理缺失值.过滤不合适值.去掉重复行.分箱.分组.排名.category转数值等,下面使用 pandas 解决这些最常见的预处理任务. 找出异常值常用两种方法 ...
- pandas 第一行_Pandas数据预处理相关经验
在这里记录一些平常用的pandas操作以供参考. 学习相关操作的最好方法还是找官方的文档最好,否则就会产生百度1小时,查文档3分钟的尴尬处境,之前为了找python里类似 in 的操作搜了半天资料也没 ...
- pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...
一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...
最新文章
- s-systemtap工具使用图谱(持续更新)
- linux命令 iperf-网络性能测试工具
- java实现语法分析器_语法分析 | 语法分析的任务
- JQUERY的location.href.split
- 松下电视机服务器未响应,松下电视遥控器失灵是什么原因?要怎么办?
- DM8168的McSPI/McASP/McBSP接口
- ip和端口的本质与作用,网络协议栈
- codeforces 762E(cdq分治)
- tensorflow之数据集
- 虚拟机镜像xp\win7\win10\win8\win2003,免安装系统,下载即用
- java多线程 —— 面试题集合(最全集合)
- R2统计学正确计算方法
- 泛微oa系统什么框架_泛微OA系统怎么样?与其他OA相比呢?
- G盘格式化了,要怎样恢复文件
- [nlp] LLS减少学习捷径:分析和缓解伪特征标签相关性
- 电脑同时连接有线和无线网络怎么设置有线网络优先
- wireshark分析实战
- 初学MSP430F5529定时器
- 灾难恢复_灾难恢复–以及如何避免需要它!
- 核查清单-小程序分享功能
热门文章
- Mysql的Root密码忘记,查看或修改的解决方法(图文介绍)
- Hybrid App技术批量制作APP应用与跨平台解决方案
- 自定义Exception异常
- 为什么会出现“无法连接服务器-与网络有关或与实例有关的错误”?
- Shell命令对整数求和,每行一个?
- Win11怎么查看设备管理器?Win11设备管理器在哪里打开?
- 编译安装PCL点云库,Kinect2驱动,乐视Astra相机驱动
- Bsdiff:Bsd断电差分升级
- car-like robot与两轮差速驱动机器人异同分析
- C语言求一个文件的长度,求二进制文件的长度