文章目录

前言
一、数据导入与查看
二、数据操作
三、可视化
- 1.显示两个特征的关系
- 2.热力图

前言

对于数据处理，我们可以运用python的一些库来完成和实现，下面是一些常用的程序代码总结

一、数据导入与查看

这里的数据集名称为data

0.导入API

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('fivethirtyeight')

1.首先导入数据：

data = pd.read_csv(‘data_YXDM_30.csv’)

2.查看前几行:

data.head()

3.查看数据信息

data.info()

4.显示描述性统计(只能显示全数字列)

data.describe()

二、数据操作

5.lambda的使用

data[‘id’] = data[‘id’].map(lambda value: value+1)
将id列的每一行都+1，结果如下：

6.转换数据类型

data[‘SH_CODE’]= data[‘SH_CODE’]astype(float)

7.查看该列不同元素个数

data[‘SH_CODE’].value_counts()
data[‘SH_CODE’].value_counts(normalize=True) #概率

8.根据7画出柱状图和饼状图

data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(20).plot(kind=‘bar’)

data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(5).plot(kind=‘pie’)

9.数据筛选

#只挑出一列
didian = data[‘SH_CODE’][(data[‘SH_CODE’] >=1) & (data[‘SH_CODE’] <=5)]

#改变整个矩阵
time = data.loc[(data[‘XFTIME’]>=0) & (data[‘XFTIME’]<=10080)]

10.显示该列数据独特值数量

data[‘XFTIME’].nunique()

11.编号

ordering = list(data['XH'].value_counts().index)
ordering
data['id'] = data['XH'].map(lambda x: ordering.index(x))

三、可视化

1.显示两个特征的关系

log = data.loc[(data['SH_CODE']>=0) & (data['SH_CODE']<=5)&(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]data['XFTIME'] .hist(by=log['SH_CODE'], sharex=True, sharey=True, figsize=(10, 10), bins=20)

log.groupby('SH_CODE')['XFTIME'].mean().plot(kind='line')

data_sub = data.loc[(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]
x = data_sub['SH_CODE']
y = data_sub['XFTIME']fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(x, y)
plt.show()

2.热力图

fig,axs=plt.subplots(nrows=1,ncols=1,figsize=(30,30))
sns.heatmap(data['SH_CODE'])

特征工程之数据预处理与可视化相关推荐

特征工程之数据预处理（下）
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第四篇! 该系列的前三篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法特征工程之 ...
机器学习笔记六——特征工程之数据预处理
特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充数据预 ...
机器学习实战——特征工程之数据预处理
机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...
机器学习系列(3)_特征工程01数据预处理
参考链接: 1.scikit-learn官网 2.sklearn提供的自带的数据集 3.Kaggle官网 4.数据挖掘--无量纲化文章目录一.数据中台二.sklearn中的数据预处理与特征工程 ...
【数据平台】sklearn库特征工程之数据预处理
1.背景: 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较.无量纲化可以解决这一问题. 信息冗余:对于某些定量特征,其包含的 ...
多特征值数据预处理_「人工智能」No.6 特征工程之数据预处理
[导读:当今人类即将或者已然了进入智能时代,这是·情报通·人工智能科普系列第[6]篇文章,欢迎阅读和收藏!] 1 基本概念 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ...
特征工程之数据预处理（上）
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第三篇! 该系列的前两篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法分别介绍了 ...
机器学习 | 特征工程（数据预处理、特征抽取）
所谓特征工程即模型搭建之前进行的数据预处理和特征提取.有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了.所以说啊,不积跬步无以至千里,生活中的每 ...
特征工程和数据预处理常用工具和方法
import pandas as pdtrain_data = pd.read_csv("train.csv")train_data.shape #应该是给了property (8 ...

特征工程之数据预处理与可视化

文章目录

前言

一、数据导入与查看

二、数据操作

三、可视化

1.显示两个特征的关系

2.热力图

特征工程之数据预处理与可视化相关推荐

最新文章

热门文章