一、前言

数据预处理一般包括如下几个步骤

读取数据【txt、csv】
拆分输入、输出数据
缺失数据处理【删除、插值】
字符串类型的数据处理【稀疏矩阵、embedding】
转成tensor张量

二、实现方法


import pandas as pd
import torch'''
数据集：house_data.csv
任务：根据房间数和入户样式预测价格
'''# 1.读取数据 -----------------------------
house_data_file = './house_data.csv'
data = pd.read_csv(house_data_file)
print(data)
#    NumRooms      Alley  Price
# 0       NaN       Pave  12500
# 1       2.0        NaN  10600
# 2       4.0  grassland  17800
# 3       NaN        NaN  14000# 2.拆分输入、输出数据 ------------------------------------
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)
#    NumRooms      Alley
# 0       NaN       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       NaN        NaN
print(outputs)
# 0    12500
# 1    10600
# 2    17800
# 3    14000
# Name: Price, dtype: int64# 3.缺失数据取均值【对字符串格式的数据不生效】 ---------------
inputs = inputs.fillna(inputs.mean())
print(inputs)
#    NumRooms      Alley
# 0       3.0       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       3.0        NaN# 将所有不同的字符串值转成单独一个分类 ----------------------------
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)   # 入户小径、入户草地、入户没有抓到数据的情况各分一类
#    NumRooms  Alley_Pave  Alley_grassland  Alley_nan
# 0       3.0           1                0          0
# 1       2.0           0                0          1
# 2       4.0           0                1          0
# 3       3.0           0                0          1# 转成 pytorch 张量 -------------------------------------------------
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
# tensor([[3., 1., 0., 0.],
#         [2., 0., 0., 1.],
#         [4., 0., 1., 0.],
#         [3., 0., 0., 1.]], dtype=torch.float64)
print(y)
# tensor([12500, 10600, 17800, 14000])# 到此为止就可以送入模型训练了 -----

NLP数据预处理的一般方法相关推荐

NLP数据预处理与词嵌入
NLP数据预处理与词嵌入 NLP数据预处理读入语料库首先准备一个语料库,实际上就是一个 txt 文件,这里用的是小说 time machine ,该语料库比较短小,仅有 ~3000 行,~3000 ...
数据预处理的常见方法
数据预处理定义内涵用户从多种渠道收集的数据可能包含噪音,或是存在不一致.不完整等问题,无法直接进行训练.为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理.数据预处理是指在数据分析 ...
机器学习过程中的数据预处理和特征选择方法
1.数据清洗数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论.在实际的工作中,数据清洗通常占开发过程的50%-80%左右的 ...
关于文本数据预处理的一些方法
最近在进行一个关于深度学习的文本情感分类的项目,从数据获取到清洗,以及文本标注这些都在准备.文本预处理是NLP中十分关键的一个流程,正所谓数据是否优质决定着神经网络的训练效果,以及后续对神经网络的调参 ...
机器学习中数据预处理——标准化/归一化方法（scaler）
由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...
数据预处理之标准化方法
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据.随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题 ...
数据预处理的主要方法有哪些？每个方法的主要内容是什么？
数据清理(Data Cleaninig):去掉数据中的噪声,纠正不一致. 数据集成(Data Integration):将多个数据源合并成一致的数据存储,构成一个完整的数据集. 数据转换(Data T ...
python数据预处理_Python数据分析——数据预处理的方法
前言 1. 关于数据集数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...
matlab预处理光谱数据,一种近红外光谱数据预处理方法与流程
本发明公开了属于近红外光谱分析技术领域,尤其涉及一种近红外光谱数据预处理的新方法,主要用于建立近红外定量和定性模型时对近红外光谱数据的预处理. 背景技术: 近红外光谱技术具有分析速度快.样本制作简单的 ...

NLP数据预处理的一般方法

文章目录

一、前言

二、实现方法

NLP数据预处理的一般方法相关推荐

最新文章

热门文章