DW学习-二手车预测赛题分析

一、赛题解析

1.赛题概况

以二手车市场为背景，预测二手汽车的交易价格。数据源于交易平台的二手车交易记录，总数据量超过40W，31列变量信息，15列为匿名变量。为保证比赛公平，抽取15万条作为训练集，5万为测试集A，5万为测试集B，对name、model、brand和regionCode信息进行脱敏。
注：此处数据并未直接显示漂移的误差或误报等异常，异常点需要先处理掉。
行为流程内的关联与关系，业务逻辑理解。
模型的泛化能力。
样本量的大小，生成的特征-电脑的承载。

2.赛制说明

赛事分为两个阶段，分别为正式赛即长期赛。
正式赛（3.12-4.11）

每天提交两次，排行榜每小时更新，测评指标从高到低排序，最优成绩进行展示。
最后一次更新为11日晚上20点。
下载数据，本地调试算法，左侧提交入口结果。
长期赛（4.11后）
4月1日后长期开放，无时间限制。

3. 数据概况

题目字段表

Field	Description	备注
SaleID	交易ID，唯一编码
name	汽车交易名称，已脱敏	汽车市场性信息脱敏
regDate	汽车注册日期，例如20160101，或201601月01日	此处理解为上市时间
model	车型编码，已脱敏
brand	车型品牌，已脱敏
bodyType	车身类型：豪华轿车-0，微型车-1，厢型车-2，大巴车-3，敞篷车-4，双门汽车-5，商务车-6，搅拌车-7
fuelType	燃油类型：汽油-0，柴油-1，液化石油气-2，天然气-3，混合动力-4，其他-5，电动-6
gearbox	变速箱：手动-0，自动-1
power	发动机功率：范围[0,600]
kilometer	汽车已行驶公里，单位万km
notRepairedDamage	汽车有尚未修复的损坏：是-0，否-1	真实性产生怀疑
regionCode	地区编码，已脱敏
seller	销售方：个题-0，非个体-1
offerType	报价类型：提供-0，请求-1
creatDate	汽车上线时间，即开始售卖时间	与regDate相减
price	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-14在内15个匿名特征	保密性处理，多生成进行筛选

 字段表加入备注（后补），主要对数据类型和业务方面进行补充说明。

其中，有一列为v系列特征属于匿名特征，包含0-14在内的15个匿名特征，需要做匿名特征处理。

4. 预测指标

评测指标不同，判断标准不一样，最佳状态是训练的验证标准与线上评测保持一致。
评价标准为MAE（Mean Absolute Error）

根据上述的预测指标，注意以下几点：
① 绝对误差的平均值，为反应预测值误差的实际差距。
② 单个数值的预测指标离原有的真实数值差距过大时对预测指标有一定影响，受到价格单位的影响，需要考量原数据类型。
③ 相对于其他预测指标的评判而对实际业务的标准判断应用性产生疑问。
注：评估指标是对一个模型效果的数值量化，是针对模型效果和理想效果之间的一个打分，常见如下：
① 分类算法常见评估指标

二类分类器/分类算法：accuracy, Precision, Recall, F-score, Pr曲线，ROC-AUC曲线
多累分类器/分类算法：accuracy, 宏平均和微平均，F-score
② 回归预测常见的评估指标
平均绝对误差（Mean Absolute Error,MAE），均方误差（Mean Squared Error,MSE）,平均绝对百分误差（Mean Absolute Percentage Error，MAPE）,均方根误差(Root Mean Squared Error)，R2(R-Square)

5. 分析赛题

题目以二手车市场为交易，预测二手汽车的交易价格，为数据挖掘中典型的回归问题，主应用XGBoost、Lgb、Catboost等。常用pandas、numpy、matplotlib、seabon、sklearn、keras、missing等常用挖掘库或框架。
原二手汽车交易记录有40W条，取15万作为训练集，两个5万作为测试集，即共25万条数据，另有15万条数据未用，需要一定的泛化能力，防止过拟合。原信息有4列进行脱敏，这个在一定程度上决定了数据挖掘的上限。另有一列为匿名特征，需要做匿名特征处理。
通过EDA来挖掘数据的关联并熟悉数据。

二、业务解析

1.业务概况

由于时间问题，暂时以【Overfitting is watching you队】的业务资料为主进行业务了解，具体请参考链接: 二手车赛题理解
二手车的价格主要参考两部分因素，一部分是选车的硬性指标，例如车型即车身类型，例如轿车、敞篷等；车子的配置，例如变速箱、发动机的功率和燃油等指标；车况即车子是否维修过；车子里程；违章是否解决和上市时间等等。另一部分是购车时的软性指标，例如地域，同一种车辆不同地域的价格有所不同；购车时间、购车渠道都会对同一二手车有不同的影响。所以在实际二手车价格的预测中均要考量。
数据指标的选择往往决定了数据分析的上限，原有的数据指标是否包含了业务层面的诉求？二手车价格的预测结果是否满足实际业务的需求？下面将对原有的数据指标和实际业务指标进行对比分析。

2.业务指标

一般市场业务指标

Field	Description	Connected Index
车型	车身类型：如同豪华轿车-0，微型车-1，厢型车-2，大巴车-3，敞篷车-4，双门汽车-5，商务车-6，搅拌车-7	bodyType
配置	燃油类型、变速箱、发动机功率	fuelType & gearbox & power
车况	汽车有尚未修复的损坏：是-0，否-1	notRepairedDamage
里程	汽车已行驶公里，单位万km	kilometer
上市时间	汽车发布上市时期	regDate
地域	地区编码，已脱敏	regionCode
违章次数	交通违章次数	None
购车时间	已购此车辆的具体时间点	与creatDate相关
购车渠道	销售方：个题-0，非个体-1	seller
price	二手车交易价格	price

对比表1和表2找出业务理解与原数据指标的相关性，可以发现
① bodyType、fuelType & gearbox & power、notRepairedDamage、kilometer、 regDate、regionCode 、creatDate、seller 特征与价格预测影响性较强。
② 业务理解中的违章次数表1并没有明确标明，从业务指标对比可以看出，原数据指标至少包含业务指标的88%以上，满足率相对较高。
③ 表1有15个匿名特征，是否包含业务理解的违章次数由公司业务决定，但违章次数是购二手车的必备选车条件之一，在次不排除v系列特征对二手车价格的高指标影响。

3.业务分析

二手车的价格判定源于市场，常见的市场二手车估价方法有四种，具体方式如下：

① 残值法

新车使用10年视为报废，15%作为不折旧的固定部分为残值，其余85%为浮动折旧值。可分三个阶段：3年-4年-3年折旧，折旧率分别为11%、10%和9%，前三年每年折11%。
计算公式为：评估价=市场现行新车售价×[15%（不动残值）+85%（浮动值）×（分阶段折旧率）]+评估值。
评估值：应考虑该车在当地的保有量和车况（外观、保养程度），酌情给出评估值（一般为新车价的2%~5%）。

② 折旧法

二手车分为十年计算，分为三个阶段，前三年每年折旧15%，中间四年每年折旧10%，最后三年每年折旧5%。以一台10万的车子为例
第二年： 10*（1-15%）= 8.5万
第三年： 8.5*（1-15%）=7.2万
……

③ 重置成本法

把车子寿命算作15年，精确到月份，具体公式如下
二手车价格 = 当前新车价*（180- 已使用月份）%180

④ 里程法

一部车有效寿命30万公里，将其分为5段，每段6万公里，每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15。
假设新车价12万元，已行驶7.5万公里（5年左右），那么该车估值为12万元×（3+3+2+1）÷15=7.2万元。

综上，上述四种常见的市场二手车价格预算中，三种以车子的寿命（使用时间）作为唯一参考标准，一种以车子的里程作为唯一参考标准，与实际预测情况而言都不具有科学严谨性。但是假设上述方法是市场主流的价格预测方法，则市场价格偏好以寿命和里程为主要参考标准，即原数据指标中的两个时间和里程，其他指标有一定的参考性。

三、数据分析

1.数据介绍

a)数据载入

b)数据总览

c)数据检测

d)预测分布

2.特征分析

a)数字特征

b)类别特征

3.数据报告

四、阶段总结