数据预处理

创建一个人工数据集,并存储在csv(逗号分隔值)文件

import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n')f.write('NA,Pave,127500\n')f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')

从创建的 csv 文件中加载原始数据集

import pandas as pddata = pd.read_csv(data_file)
print(data)
   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000

为了处理缺失的数据,典型的方法包括 插值删除
这里,我们将考虑插值

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN

对于 inputs 中的类别值或离散值,我们将 “NaN” 视为一个类别

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1

现在 inputsoutputs 中的所有条目都是数值类型,它们可以转换为张量格式

import torchX, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
(tensor([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=torch.float64),tensor([127500, 106000, 178100, 140000]))

数据预处理-pandas-04-p4相关推荐

  1. 数据预处理之数据合并(基于pandas)

    文章目录 数据预处理 pandas.concat pandas.DateFrame.append pandas.merge pandas.DateFrame.join 数据预处理 数据预处理主要包括: ...

  2. Pandas 数据预处理

    Pandas数据处理 一 概述 1.1 业务建模流程 将业务抽象为分类or回归问题 定义标签,得到y 选取合适的样本,并匹配出全部的信息作为特征的来源 特征工程 + 模型训练 + 模型评价与调优(相互 ...

  3. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

  4. pandas数据预处理(字段筛选、query函数进行数据筛选、缺失值删除)、seaborn可视化分面图(facet)、seaborn使用Catplot可视化分面箱图(Faceted Boxplot)

    pandas数据预处理(字段筛选.query函数进行数据筛选.缺失值删除).seaborn可视化分面图(facet).seaborn使用Catplot可视化分面箱图(Faceted Boxplot) ...

  5. 数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法、方案

    数据预处理+缺失值处理方案+Missing Value+pandas+缺失值填充方法.方案 缺失值+sklearn from sklearn.preprocessing import Imputer ...

  6. 【Python】4000字归纳总结 Pandas+Sklearn 带你做数据预处理

    就在前天的一篇原创文章中, 7000字 23张图,Pandas一键生成炫酷的动态交互式图表 有粉丝问道,是不是写一篇关于数据预处理的文章,小编立马就答应了他的请求,那么今天我们就来讲讲数据预处理过程当 ...

  7. 04 数据操作 + 数据预处理【动手学深度学习v2】

    数据操作 宽是列的个数 4维是n个3维数组放一起 比如每次读128张图片 5维 视频 有时间维度 [1:3,1:] 1:3--拿1,2行,左闭右开 1:--拿1到所有列 [::3,::2] ::所有行 ...

  8. Python应用实战-用pandas实现数据预处理

    数据预处理常用的处理步骤,包括找出异常值.处理缺失值.过滤不合适值.去掉重复行.分箱.分组.排名.category转数值等,下面使用 pandas 解决这些最常见的预处理任务. 找出异常值常用两种方法 ...

  9. pandas 第一行_Pandas数据预处理相关经验

    在这里记录一些平常用的pandas操作以供参考. 学习相关操作的最好方法还是找官方的文档最好,否则就会产生百度1小时,查文档3分钟的尴尬处境,之前为了找python里类似 in 的操作搜了半天资料也没 ...

  10. pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...

    一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...

最新文章

  1. s-systemtap工具使用图谱(持续更新)
  2. linux命令 iperf-网络性能测试工具
  3. java实现语法分析器_语法分析 | 语法分析的任务
  4. JQUERY的location.href.split
  5. 松下电视机服务器未响应,松下电视遥控器失灵是什么原因?要怎么办?
  6. DM8168的McSPI/McASP/McBSP接口
  7. ip和端口的本质与作用,网络协议栈
  8. codeforces 762E(cdq分治)
  9. tensorflow之数据集
  10. 虚拟机镜像xp\win7\win10\win8\win2003,免安装系统,下载即用
  11. java多线程 —— 面试题集合(最全集合)
  12. R2统计学正确计算方法
  13. 泛微oa系统什么框架_泛微OA系统怎么样?与其他OA相比呢?
  14. G盘格式化了,要怎样恢复文件
  15. [nlp] LLS减少学习捷径:分析和缓解伪特征标签相关性
  16. 电脑同时连接有线和无线网络怎么设置有线网络优先
  17. wireshark分析实战
  18. 初学MSP430F5529定时器
  19. 灾难恢复_灾难恢复–以及如何避免需要它!
  20. 核查清单-小程序分享功能

热门文章

  1. Mysql的Root密码忘记,查看或修改的解决方法(图文介绍)
  2. Hybrid App技术批量制作APP应用与跨平台解决方案
  3. 自定义Exception异常
  4. 为什么会出现“无法连接服务器-与网络有关或与实例有关的错误”?
  5. Shell命令对整数求和,每行一个?
  6. Win11怎么查看设备管理器?Win11设备管理器在哪里打开?
  7. 编译安装PCL点云库,Kinect2驱动,乐视Astra相机驱动
  8. Bsdiff:Bsd断电差分升级
  9. car-like robot与两轮差速驱动机器人异同分析
  10. C语言求一个文件的长度,求二进制文件的长度