NLP数据预处理的一般方法
文章目录
- 一、前言
- 二、实现方法
一、前言
数据预处理一般包括如下几个步骤
- 读取数据【txt、csv】
- 拆分输入、输出数据
- 缺失数据处理【删除、插值】
- 字符串类型的数据处理【稀疏矩阵、embedding】
- 转成tensor张量
二、实现方法
import pandas as pd
import torch'''
数据集:house_data.csv
任务:根据房间数和入户样式预测价格
'''# 1.读取数据 -----------------------------
house_data_file = './house_data.csv'
data = pd.read_csv(house_data_file)
print(data)
# NumRooms Alley Price
# 0 NaN Pave 12500
# 1 2.0 NaN 10600
# 2 4.0 grassland 17800
# 3 NaN NaN 14000# 2.拆分输入、输出数据 ------------------------------------
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)
# NumRooms Alley
# 0 NaN Pave
# 1 2.0 NaN
# 2 4.0 grassland
# 3 NaN NaN
print(outputs)
# 0 12500
# 1 10600
# 2 17800
# 3 14000
# Name: Price, dtype: int64# 3.缺失数据取均值【对字符串格式的数据不生效】 ---------------
inputs = inputs.fillna(inputs.mean())
print(inputs)
# NumRooms Alley
# 0 3.0 Pave
# 1 2.0 NaN
# 2 4.0 grassland
# 3 3.0 NaN# 将所有不同的字符串值转成单独一个分类 ----------------------------
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs) # 入户小径、入户草地、入户没有抓到数据的情况各分一类
# NumRooms Alley_Pave Alley_grassland Alley_nan
# 0 3.0 1 0 0
# 1 2.0 0 0 1
# 2 4.0 0 1 0
# 3 3.0 0 0 1# 转成 pytorch 张量 -------------------------------------------------
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
# tensor([[3., 1., 0., 0.],
# [2., 0., 0., 1.],
# [4., 0., 1., 0.],
# [3., 0., 0., 1.]], dtype=torch.float64)
print(y)
# tensor([12500, 10600, 17800, 14000])# 到此为止就可以送入模型训练了 -----
NLP数据预处理的一般方法相关推荐
- NLP数据预处理与词嵌入
NLP数据预处理与词嵌入 NLP数据预处理 读入语料库 首先准备一个语料库,实际上就是一个 txt 文件,这里用的是小说 time machine ,该语料库比较短小,仅有 ~3000 行,~3000 ...
- 数据预处理的常见方法
数据预处理 定义内涵 用户从多种渠道收集的数据可能包含噪音,或是存在不一致.不完整等问题,无法直接 进行训练.为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理.数据预 处理是指在数据分析 ...
- 机器学习过程中的数据预处理和特征选择方法
1.数据清洗 数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论.在实际的工作中,数据清洗通常占开发过程的50%-80%左右的 ...
- 关于文本数据预处理的一些方法
最近在进行一个关于深度学习的文本情感分类的项目,从数据获取到清洗,以及文本标注这些都在准备.文本预处理是NLP中十分关键的一个流程,正所谓数据是否优质决定着神经网络的训练效果,以及后续对神经网络的调参 ...
- 机器学习中数据预处理——标准化/归一化方法(scaler)
由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...
- 数据预处理之标准化方法
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据.随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题 ...
- 数据预处理的主要方法有哪些?每个方法的主要内容是什么?
数据清理(Data Cleaninig):去掉数据中的噪声,纠正不一致. 数据集成(Data Integration):将多个数据源合并成一致的数据存储,构成一个完整的数据集. 数据转换(Data T ...
- python数据预处理_Python数据分析——数据预处理的方法
前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...
- matlab预处理光谱数据,一种近红外光谱数据预处理方法与流程
本发明公开了属于近红外光谱分析技术领域,尤其涉及一种近红外光谱数据预处理的新方法,主要用于建立近红外定量和定性模型时对近红外光谱数据的预处理. 背景技术: 近红外光谱技术具有分析速度快.样本制作简单的 ...
最新文章
- 如何打破30岁职业瓶颈?
- 深入浅析mysql引擎
- 学习Angular前了解下TypeScript
- 精通CSS+DIV网页样式与布局——CSS文字效果
- linux-centos7 常用的基本命令--用户账号管理、查看和修改主机名
- conda失败说没有写权限_爱情中,为什么男生表白失败,女生还说可以继续做朋友,想过没有...
- python julia go_挑战Python的四个语言:Swift、Go、Julia、R
- c++ascii码转换为数字_在C++中将字符串转换为数字
- Oracle在rownum使用结果集排序
- react-redux一点就透,我这么笨都懂了!
- linux内核并发教程,修改Linux内核参数提高Nginx服务器并发性能
- oracle数据从一个表空间导入到另外一个表空间
- PMP培训机构哪家好,求推荐?
- 腾讯云mysql服务cpu毛刺问题
- 高中英语试验修订本(第一册)上(人教版)
- #38 WARNING(SPCODD-38): ERROR(SPCODD-47):
- web服务器攻击的八种方式
- 在ArcGIS中批量删除属性表字段
- 虚心接受别人善意的批评
- @Value(“#{}“) 与 @Value(“${}“) 的区别