文章目录

  • 一、前言
  • 二、实现方法

一、前言

数据预处理一般包括如下几个步骤

  1. 读取数据【txt、csv】
  2. 拆分输入、输出数据
  3. 缺失数据处理【删除、插值】
  4. 字符串类型的数据处理【稀疏矩阵、embedding】
  5. 转成tensor张量

二、实现方法


import pandas as pd
import torch'''
数据集:house_data.csv
任务:根据房间数和入户样式预测价格
'''# 1.读取数据 -----------------------------
house_data_file = './house_data.csv'
data = pd.read_csv(house_data_file)
print(data)
#    NumRooms      Alley  Price
# 0       NaN       Pave  12500
# 1       2.0        NaN  10600
# 2       4.0  grassland  17800
# 3       NaN        NaN  14000# 2.拆分输入、输出数据 ------------------------------------
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)
#    NumRooms      Alley
# 0       NaN       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       NaN        NaN
print(outputs)
# 0    12500
# 1    10600
# 2    17800
# 3    14000
# Name: Price, dtype: int64# 3.缺失数据取均值【对字符串格式的数据不生效】 ---------------
inputs = inputs.fillna(inputs.mean())
print(inputs)
#    NumRooms      Alley
# 0       3.0       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       3.0        NaN# 将所有不同的字符串值转成单独一个分类 ----------------------------
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)   # 入户小径、入户草地、入户没有抓到数据的情况各分一类
#    NumRooms  Alley_Pave  Alley_grassland  Alley_nan
# 0       3.0           1                0          0
# 1       2.0           0                0          1
# 2       4.0           0                1          0
# 3       3.0           0                0          1# 转成 pytorch 张量 -------------------------------------------------
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
# tensor([[3., 1., 0., 0.],
#         [2., 0., 0., 1.],
#         [4., 0., 1., 0.],
#         [3., 0., 0., 1.]], dtype=torch.float64)
print(y)
# tensor([12500, 10600, 17800, 14000])# 到此为止就可以送入模型训练了 -----

NLP数据预处理的一般方法相关推荐

  1. NLP数据预处理与词嵌入

    NLP数据预处理与词嵌入 NLP数据预处理 读入语料库 首先准备一个语料库,实际上就是一个 txt 文件,这里用的是小说 time machine ,该语料库比较短小,仅有 ~3000 行,~3000 ...

  2. 数据预处理的常见方法

    数据预处理 定义内涵 用户从多种渠道收集的数据可能包含噪音,或是存在不一致.不完整等问题,无法直接 进行训练.为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理.数据预 处理是指在数据分析 ...

  3. 机器学习过程中的数据预处理和特征选择方法

    1.数据清洗 数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论.在实际的工作中,数据清洗通常占开发过程的50%-80%左右的 ...

  4. 关于文本数据预处理的一些方法

    最近在进行一个关于深度学习的文本情感分类的项目,从数据获取到清洗,以及文本标注这些都在准备.文本预处理是NLP中十分关键的一个流程,正所谓数据是否优质决定着神经网络的训练效果,以及后续对神经网络的调参 ...

  5. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

  6. 数据预处理之标准化方法

    评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据.随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题 ...

  7. 数据预处理的主要方法有哪些?每个方法的主要内容是什么?

    数据清理(Data Cleaninig):去掉数据中的噪声,纠正不一致. 数据集成(Data Integration):将多个数据源合并成一致的数据存储,构成一个完整的数据集. 数据转换(Data T ...

  8. python数据预处理_Python数据分析——数据预处理的方法

    前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...

  9. matlab预处理光谱数据,一种近红外光谱数据预处理方法与流程

    本发明公开了属于近红外光谱分析技术领域,尤其涉及一种近红外光谱数据预处理的新方法,主要用于建立近红外定量和定性模型时对近红外光谱数据的预处理. 背景技术: 近红外光谱技术具有分析速度快.样本制作简单的 ...

最新文章

  1. 如何打破30岁职业瓶颈?
  2. 深入浅析mysql引擎
  3. 学习Angular前了解下TypeScript
  4. 精通CSS+DIV网页样式与布局——CSS文字效果
  5. linux-centos7 常用的基本命令--用户账号管理、查看和修改主机名
  6. conda失败说没有写权限_爱情中,为什么男生表白失败,女生还说可以继续做朋友,想过没有...
  7. python julia go_挑战Python的四个语言:Swift、Go、Julia、R
  8. c++ascii码转换为数字_在C++中将字符串转换为数字
  9. Oracle在rownum使用结果集排序
  10. react-redux一点就透,我这么笨都懂了!
  11. linux内核并发教程,修改Linux内核参数提高Nginx服务器并发性能
  12. oracle数据从一个表空间导入到另外一个表空间
  13. PMP培训机构哪家好,求推荐?
  14. 腾讯云mysql服务cpu毛刺问题
  15. 高中英语试验修订本(第一册)上(人教版)
  16. #38 WARNING(SPCODD-38): ERROR(SPCODD-47):
  17. web服务器攻击的八种方式
  18. 在ArcGIS中批量删除属性表字段
  19. 虚心接受别人善意的批评
  20. @Value(“#{}“) 与 @Value(“${}“) 的区别

热门文章

  1. Tomcat优化方案
  2. MySQL通过命令导入导出数据
  3. 菜鸟写jquery入门教程(for web前端开发群4)(03)
  4. 直面顾客不满:坏消息也可以是好消息
  5. MongoDB 文档字段增删改
  6. 回归分析-(多元)线性回归分析基础( Linear Regression)
  7. 【算法】只有五行的Floyd最短路算法
  8. pycharm配置python2.7.6环境_pycharm如何配置python环境
  9. 小程序开发之页面布局
  10. web前端期末大作业 html+css家乡旅游主题网页设计---湖南 登录或注册表单