文章目录

  • 前言
  • 一、数据导入与查看
  • 二、数据操作
  • 三、可视化
    • 1.显示两个特征的关系
    • 2.热力图

前言

对于数据处理,我们可以运用python的一些库来完成和实现,下面是一些常用的程序代码总结


一、数据导入与查看

这里的数据集名称为data

0.导入API

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('fivethirtyeight')

1.首先导入数据:

data = pd.read_csv(‘data_YXDM_30.csv’)

2.查看前几行:

data.head()

3.查看数据信息

data.info()

4.显示描述性统计(只能显示全数字列)

data.describe()

二、数据操作

5.lambda的使用

data[‘id’] = data[‘id’].map(lambda value: value+1)
将id列的每一行都+1,结果如下:

6.转换数据类型

data[‘SH_CODE’]= data[‘SH_CODE’]astype(float)

7.查看该列不同元素个数

data[‘SH_CODE’].value_counts()
data[‘SH_CODE’].value_counts(normalize=True) #概率

8.根据7画出柱状图和饼状图

data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(20).plot(kind=‘bar’)

data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(5).plot(kind=‘pie’)

9.数据筛选

#只挑出一列
didian = data[‘SH_CODE’][(data[‘SH_CODE’] >=1) & (data[‘SH_CODE’] <=5)]

#改变整个矩阵
time = data.loc[(data[‘XFTIME’]>=0) & (data[‘XFTIME’]<=10080)]

10.显示该列数据独特值数量

data[‘XFTIME’].nunique()

11.编号

ordering = list(data['XH'].value_counts().index)
ordering
data['id'] = data['XH'].map(lambda x: ordering.index(x))

三、可视化

1.显示两个特征的关系

log = data.loc[(data['SH_CODE']>=0) & (data['SH_CODE']<=5)&(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]data['XFTIME'] .hist(by=log['SH_CODE'], sharex=True, sharey=True, figsize=(10, 10), bins=20)

log.groupby('SH_CODE')['XFTIME'].mean().plot(kind='line')

data_sub = data.loc[(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]
x = data_sub['SH_CODE']
y = data_sub['XFTIME']fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(x, y)
plt.show()


2.热力图

fig,axs=plt.subplots(nrows=1,ncols=1,figsize=(30,30))
sns.heatmap(data['SH_CODE'])

特征工程之数据预处理与可视化相关推荐

  1. 特征工程之数据预处理(下)

    机器学习入门系列(2)–如何构建一个完整的机器学习项目,第四篇! 该系列的前三篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之 ...

  2. 机器学习笔记六——特征工程之数据预处理

    特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充 数据预 ...

  3. 机器学习实战——特征工程之数据预处理

    机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...

  4. 机器学习系列(3)_特征工程01数据预处理

    参考链接: 1.scikit-learn官网 2.sklearn提供的自带的数据集 3.Kaggle官网 4.数据挖掘--无量纲化 文章目录 一.数据中台 二.sklearn中的数据预处理与特征工程 ...

  5. 【数据平台】sklearn库特征工程之数据预处理

    1.背景: 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较.无量纲化可以解决这一问题. 信息冗余:对于某些定量特征,其包含的 ...

  6. 多特征值数据预处理_「人工智能」No.6 特征工程之数据预处理

    [导读:当今人类即将或者已然了进入智能时代,这是·情报通·人工智能科普系列第[6]篇文章,欢迎阅读和收藏!] 1 基本概念 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ...

  7. 特征工程之数据预处理(上)

    机器学习入门系列(2)–如何构建一个完整的机器学习项目,第三篇! 该系列的前两篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 分别介绍了 ...

  8. 机器学习 | 特征工程(数据预处理、特征抽取)

    所谓特征工程即模型搭建之前进行的数据预处理和特征提取.有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了.所以说啊,不积跬步无以至千里,生活中的每 ...

  9. 特征工程和数据预处理常用工具和方法

    import pandas as pdtrain_data = pd.read_csv("train.csv")train_data.shape #应该是给了property (8 ...

最新文章

  1. linux系统安全加固脚本
  2. linux shell ls 输出存进数组变量
  3. 28、FileThumbnails
  4. Django--实现分页功能,并且基于cookie实现用户定制每页的数据条数
  5. 查看家庭组组计算机用户名密码是什么,windows10系统如何查看家庭组密码
  6. sql注入程序_Java应用程序中SQL注入
  7. 小程序 、h5图片铺满div,自适应容器大小
  8. Nginx配置文件语法和核心功能配置项详解
  9. Java架构师面试题系列之Dubbo面试专题(29题,含详细答案解析)
  10. mysql怎么换引擎_如何更换MySQL默认存储引擎
  11. Movavi Picverse for mac(AI智能修图工具)
  12. pytorch test单张图片_PyTorch的元学习库:Torchmeta
  13. pdf类型转换器打印机
  14. linux录音硬件电路,电话扩音录音装置电路及制作
  15. 基于Java的超级玛丽游戏的设计与实现(含源文件)
  16. c# 基于BouncyCastle.Crypto的国密sm2,sm4封装,与java版本兼容
  17. java文件乱码_Java文件读取乱码问题解决
  18. 将一个D触发器转换成JK触发器
  19. 文字下划线效果(标题hover效果)
  20. 搜狗输入法截屏工具的使用

热门文章

  1. 关于高德地图2.0卡顿问题的解决方案(chrome设置+显卡设置)
  2. python 通信部分
  3. 从零到万的粉丝:抖音的推荐算法到底是怎样的?
  4. [开发]resin+spring+struts配搭在线上常见的三个问题
  5. 一级建造师考试备考顺序
  6. 利用axis调用webservice
  7. Micro SD 卡(TF卡) spi 模式实现方法
  8. VS Code刷力扣LeetCode方法
  9. PDF如何在线压缩?PDF压缩到最小的方法
  10. 修改mp3图片和信息——BesMp3Editor