特征工程之数据预处理与可视化
文章目录
- 前言
- 一、数据导入与查看
- 二、数据操作
- 三、可视化
- 1.显示两个特征的关系
- 2.热力图
前言
对于数据处理,我们可以运用python的一些库来完成和实现,下面是一些常用的程序代码总结
一、数据导入与查看
这里的数据集名称为data
0.导入API
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('fivethirtyeight')
1.首先导入数据:
data = pd.read_csv(‘data_YXDM_30.csv’)
2.查看前几行:
data.head()
3.查看数据信息
data.info()
4.显示描述性统计(只能显示全数字列)
data.describe()
二、数据操作
5.lambda的使用
data[‘id’] = data[‘id’].map(lambda value: value+1)
将id列的每一行都+1,结果如下:
6.转换数据类型
data[‘SH_CODE’]= data[‘SH_CODE’]astype(float)
7.查看该列不同元素个数
data[‘SH_CODE’].value_counts()
data[‘SH_CODE’].value_counts(normalize=True) #概率
8.根据7画出柱状图和饼状图
data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(20).plot(kind=‘bar’)
data[‘SH_CODE’].value_counts().sort_values(ascending=False).head(5).plot(kind=‘pie’)
9.数据筛选
#只挑出一列
didian = data[‘SH_CODE’][(data[‘SH_CODE’] >=1) & (data[‘SH_CODE’] <=5)]
#改变整个矩阵
time = data.loc[(data[‘XFTIME’]>=0) & (data[‘XFTIME’]<=10080)]
10.显示该列数据独特值数量
data[‘XFTIME’].nunique()
11.编号
ordering = list(data['XH'].value_counts().index)
ordering
data['id'] = data['XH'].map(lambda x: ordering.index(x))
三、可视化
1.显示两个特征的关系
log = data.loc[(data['SH_CODE']>=0) & (data['SH_CODE']<=5)&(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]data['XFTIME'] .hist(by=log['SH_CODE'], sharex=True, sharey=True, figsize=(10, 10), bins=20)
log.groupby('SH_CODE')['XFTIME'].mean().plot(kind='line')
data_sub = data.loc[(data['XFTIME']>=0) & (data['XFTIME']<=60*24)]
x = data_sub['SH_CODE']
y = data_sub['XFTIME']fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(x, y)
plt.show()
2.热力图
fig,axs=plt.subplots(nrows=1,ncols=1,figsize=(30,30))
sns.heatmap(data['SH_CODE'])
特征工程之数据预处理与可视化相关推荐
- 特征工程之数据预处理(下)
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第四篇! 该系列的前三篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之 ...
- 机器学习笔记六——特征工程之数据预处理
特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充 数据预 ...
- 机器学习实战——特征工程之数据预处理
机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...
- 机器学习系列(3)_特征工程01数据预处理
参考链接: 1.scikit-learn官网 2.sklearn提供的自带的数据集 3.Kaggle官网 4.数据挖掘--无量纲化 文章目录 一.数据中台 二.sklearn中的数据预处理与特征工程 ...
- 【数据平台】sklearn库特征工程之数据预处理
1.背景: 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较.无量纲化可以解决这一问题. 信息冗余:对于某些定量特征,其包含的 ...
- 多特征值数据预处理_「人工智能」No.6 特征工程之数据预处理
[导读:当今人类即将或者已然了进入智能时代,这是·情报通·人工智能科普系列第[6]篇文章,欢迎阅读和收藏!] 1 基本概念 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ...
- 特征工程之数据预处理(上)
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第三篇! 该系列的前两篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 分别介绍了 ...
- 机器学习 | 特征工程(数据预处理、特征抽取)
所谓特征工程即模型搭建之前进行的数据预处理和特征提取.有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了.所以说啊,不积跬步无以至千里,生活中的每 ...
- 特征工程和数据预处理常用工具和方法
import pandas as pdtrain_data = pd.read_csv("train.csv")train_data.shape #应该是给了property (8 ...
最新文章
- linux系统安全加固脚本
- linux shell ls 输出存进数组变量
- 28、FileThumbnails
- Django--实现分页功能,并且基于cookie实现用户定制每页的数据条数
- 查看家庭组组计算机用户名密码是什么,windows10系统如何查看家庭组密码
- sql注入程序_Java应用程序中SQL注入
- 小程序 、h5图片铺满div,自适应容器大小
- Nginx配置文件语法和核心功能配置项详解
- Java架构师面试题系列之Dubbo面试专题(29题,含详细答案解析)
- mysql怎么换引擎_如何更换MySQL默认存储引擎
- Movavi Picverse for mac(AI智能修图工具)
- pytorch test单张图片_PyTorch的元学习库:Torchmeta
- pdf类型转换器打印机
- linux录音硬件电路,电话扩音录音装置电路及制作
- 基于Java的超级玛丽游戏的设计与实现(含源文件)
- c# 基于BouncyCastle.Crypto的国密sm2,sm4封装,与java版本兼容
- java文件乱码_Java文件读取乱码问题解决
- 将一个D触发器转换成JK触发器
- 文字下划线效果(标题hover效果)
- 搜狗输入法截屏工具的使用