二手车交易价格预测:数据的探索性分析

1.EDA目标

  • EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。

  • 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。

  • 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

  • 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。

2.EDA 内容介绍

  1. 载入各种数据科学以及可视化库:

    数据科学库 pandas、numpy、scipy;
    可视化库 matplotlib、seabon;
    其他;
    
  2. 载入数据:

    载入训练集和测试集;
    简略观察数据(head()+shape);
    
  3. 数据总览:

    通过describe()来熟悉数据的相关统计量
    通过info()来熟悉数据类型
    
  4. 判断数据缺失和异常

     查看每列的存在nan情况异常值检测
    
  5. 了解预测值的分布

     总体分布概况(无界约翰逊分布等)查看skewness and kurtosis查看预测值的具体频数
    
  6. 特征分为类别特征和数字特征,并对类别特征查看unique分布

  7. 数字特征分析

     相关性分析查看几个特征得 偏度和峰值每个数字特征得分布可视化数字特征相互之间的关系可视化多变量互相回归关系可视化
    
  8. 类型特征分析

     unique分布类别特征箱形图可视化类别特征的小提琴图可视化类别特征的柱形图可视化类别特征的每个类别频数可视化(count_plot)
    
  9. 用pandas_profiling生成数据报告

3. 具体步骤

3.1 载入各种数据科学与可视化库

import numpy as np
import pandas as pd
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.special import jn
from IPython.display import display, clear_output
import time
warnings.filterwarnings('ignore')
%matplotlib inline
## 模型预测的
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
## 数据降维处理的
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
import lightgbm as lgb
import xgboost as xgb
## 参数搜索和评价的
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

3.2 数据读取

## 通过Pandas对于数据进行读取
Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('used_car_testA_20200313.csv', sep=' ')
## 输出数据的大小信息
print('Train data shape:',Train_data.shape)
print('TestA data shape:',TestA_data.shape)
Train data shape: (150000, 31)
TestA data shape: (50000, 30)

3.3 数据信息查看

要养成看数据集的head()以及shape的习惯,这会让你每一步更放心,导致接下里的连串的错误, 如果对自己的pandas等操作不放心,建议执行一步看一下,这样会有效的方便你进行理解函数并进行操作

Train_data.head()
#通过 .info() 简要可以看到对应一些数据列名,以及NAN缺失信息
Train_data.info()
#通过 .columns 查看列名
Train_data.columns
TestA_data.info()
#查看每一列类型和缺失值情况
#通过 .describe() 可以查看数值特征列的一些统计信息
Train_data.describe()
  1. describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下
  2. info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常

4. 经验总结

在实际的不管是工程还是比赛过程中,EDA只是最开始的一步,也是最基本的一步。

接下来一般要结合模型的效果以及特征工程等来分析数据的实际建模情况,根据自己的一些理解,查阅文献,对实际问题做出判断和深入的理解。

最后不断进行EDA与数据处理和挖掘,来到达更好的数据结构和分布以及较为强势相关的特征

数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):

是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。

  1. 对于数据的初步分析(直接查看数据,或.sum(),
    .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。
  2. 分析记录某些特征值缺失占比30%以上样本的缺失处理,有助于后续的模型验证和调节,分析特征应该是填充(填充方式是什么,均值填充,0填充,众数填充等),还是舍去,还是先做样本分类用不同的特征模型去预测。
  3. 对于异常值做专门的分析,分析特征异常的label是否为异常值(或者偏离均值较远或者事特殊符号),异常值是否应该剔除,还是用正常值填充,是记录异常,还是机器本身异常等。
  4. 对于Label做专门的分析,分析标签的分布情况等。
  5. 进步分析可以通过对特征作图,特征和label联合做图(统计图,离散图),直观了解特征的分布情况,通过这一步也可以发现数据之中的一些异常值等,通过箱型图分析一些特征值的偏离情况,对于特征和特征联合作图,对于特征和label联合作图,分析其中的一些关联性。

二手车交易价格预测:数据的探索性分析相关推荐

  1. Task2 二手车交易价格预测-EDA-数据探索性分析

    Task2 二手车交易价格预测-EDA-数据探索性分析 1.1EDA的目标 EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用. 当 ...

  2. 二手车交易价格预测-01

    数据挖掘入门- 二手车交易价格预测-01 1-赛题分析 1.1 目的 1.2 数据 1.3 字段表 2-评测标准 3-结果提交 4-Datawhale带学资料 4.1 Baseline方案 4.2 比 ...

  3. 第一次认真的二手车交易价格预测--赛题分析

    二手车交易价格预测--赛题分析 数据比赛步骤 一. 赛题分析 1.1 学习目标 1.2 了解赛题 1.2.1 赛题概况 1.2.2 数据概况 train.csv 1.2.3 预测指标 一般问题评价指标 ...

  4. 【算法竞赛学习】二手车交易价格预测-Task2数据分析

    二手车交易价格预测-Task2 数据分析 二. EDA-数据探索性分析 Tip:此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家 ...

  5. 阿里天池二手车交易价格预测(一)——EDA

    阿里天池二手车交易价格预测(一)--EDA Exploratory Data Analysis是数据科学领取理解和分析数据的方法,通过不断的收集.分析和假设验证,以取得对数据的深入理解. EDA的价值 ...

  6. 二手车交易价格预测-task2

    数据挖掘入门- 二手车交易价格预测-task2 EDA(Exploratory Data Analysis)-数据探索性分析 2.1 EDA目标 2.2 内容介绍 2.3 经验总结 EDA(Explo ...

  7. 二手车交易价格预测----:模型结果融合

    二手车交易价格预测 --模型结果融合 通过对赛题的分析,我们可以看出此类问题是对价格进行回归预测,那我们对于数据需要事先做预处理分析,这里我们采用EDA探索性数据分析来进行. 探索性数据分析是对调查, ...

  8. 二手车交易价格预测方案——数据分析EDA

    二手车交易价格预测 题目解析 赛题概况 数据概况 数据脱敏 评价指标 EDA目标 读取数据 head(),tail(),describe() 数据总览和异常值检查 describe(),info() ...

  9. 【算法竞赛学习】二手车交易价格预测-Task5模型融合

    二手车交易价格预测-Task5 模型融合 五.模型融合 Tip:此部分为零基础入门数据挖掘的 Task5 模型融合 部分,带你来了解各种模型结果的融合方式,在比赛的攻坚时刻冲刺Top,欢迎大家后续多多 ...

最新文章

  1. PyTorch 重磅更新,不只是支持 Windows
  2. laravel 发送带附件的邮件
  3. 客户端发送消息时,源码运行的大致流程
  4. sql server获取表的所有字段
  5. 面向对象第四单元小结
  6. cookies和session区别
  7. 火狐打印预览_将打印和打印预览命令添加到Firefox的上下文菜单
  8. [微信开发] - 关于测试号以及消息发送及回复
  9. [[UIScreen mainScreen] bounds] 返回的屏幕尺寸不对
  10. iOS开发之旧版本Xcode下载
  11. python项目描述怎么写_个人项目(python)
  12. “ORA-01017(:用户名/口令无效; 登录被拒绝)” ORA-28000: the accout is locked(用户账号被锁)解决方法
  13. windows内核驱动开发(WDK环境搭建)
  14. hsql导入mysql_转-jira从HSQL迁移到MYSQL
  15. 黑苹果声卡HDA无声问题
  16. Windows 10, version 22H2 (released Oct 2022) 简体中文版、英文版下载
  17. [unity3d] iTween文档解析(2) (iTween方法和属性)
  18. 打开GTA 5竟要跑19.8亿次if语句!黑客嘲讽R星代码烂,修改后直接省70%加载时间
  19. 警告:不能读取 AppletViewer 的属性文件解决
  20. wse抓包_WSE和时间戳记-TimeZones和Tijuana

热门文章

  1. 计算机辅助教学常见的类型,计算机辅助六种教学形式
  2. 一款出色的电脑时长提醒助手:MacBreakZ 5 for mac
  3. 每天学一点点英语——(ignorance)
  4. 计算机设备型号怎么查光驱,怎么查看电脑光驱类型?
  5. 卸载软件时出现“不能够打开文件INSTALL.LOG”
  6. 4.4robot framework的关键字操作
  7. 如何使用AnyMP4 Mac Blu-ray Player蓝光播放器?
  8. 用java编写验证码程序_编写,验证和分析实时Java应用程序
  9. 1. Flutter安装(Windows)
  10. 数据结构课设 宿舍管理系统