DW学习-二手车预测赛题分析
一、赛题解析
1.赛题概况
以二手车市场为背景,预测二手汽车的交易价格。数据源于交易平台的二手车交易记录,总数据量超过40W,31列变量信息,15列为匿名变量。为保证比赛公平,抽取15万条作为训练集,5万为测试集A,5万为测试集B,对name、model、brand和regionCode信息进行脱敏。
注:此处数据并未直接显示漂移的误差或误报等异常,异常点需要先处理掉。
行为流程内的关联与关系,业务逻辑理解。
模型的泛化能力。
样本量的大小,生成的特征-电脑的承载。
2.赛制说明
赛事分为两个阶段,分别为正式赛即长期赛。
正式赛(3.12-4.11)
- 每天提交两次,排行榜每小时更新,测评指标从高到低排序,最优成绩进行展示。
- 最后一次更新为11日晚上20点。
- 下载数据,本地调试算法,左侧提交入口结果。
长期赛(4.11后)
4月1日后长期开放,无时间限制。
3. 数据概况
题目字段表
Field | Description | 备注 |
---|---|---|
SaleID | 交易ID,唯一编码 | |
name | 汽车交易名称,已脱敏 | 汽车市场性信息脱敏 |
regDate | 汽车注册日期,例如20160101,或201601月01日 | 此处理解为上市时间 |
model | 车型编码,已脱敏 | |
brand | 车型品牌,已脱敏 | |
bodyType | 车身类型:豪华轿车-0,微型车-1,厢型车-2,大巴车-3,敞篷车-4,双门汽车-5,商务车-6,搅拌车-7 | |
fuelType | 燃油类型:汽油-0,柴油-1,液化石油气-2,天然气-3,混合动力-4,其他-5,电动-6 | |
gearbox | 变速箱:手动-0,自动-1 | |
power | 发动机功率:范围[0,600] | |
kilometer | 汽车已行驶公里,单位万km | |
notRepairedDamage | 汽车有尚未修复的损坏:是-0,否-1 | 真实性产生怀疑 |
regionCode | 地区编码,已脱敏 | |
seller | 销售方:个题-0,非个体-1 | |
offerType | 报价类型:提供-0,请求-1 | |
creatDate | 汽车上线时间,即开始售卖时间 | 与regDate相减 |
price | 二手车交易价格(预测目标) | |
v系列特征 | 匿名特征,包含v0-14在内15个匿名特征 | 保密性处理,多生成进行筛选 |
字段表加入备注(后补),主要对数据类型和业务方面进行补充说明。
其中,有一列为v系列特征属于匿名特征,包含0-14在内的15个匿名特征,需要做匿名特征处理。
4. 预测指标
评测指标不同,判断标准不一样,最佳状态是训练的验证标准与线上评测保持一致。
评价标准为MAE(Mean Absolute Error)
根据上述的预测指标,注意以下几点:
① 绝对误差的平均值,为反应预测值误差的实际差距。
② 单个数值的预测指标离原有的真实数值差距过大时对预测指标有一定影响,受到价格单位的影响,需要考量原数据类型。
③ 相对于其他预测指标的评判而对实际业务的标准判断应用性产生疑问。
注:评估指标是对一个模型效果的数值量化,是针对模型效果和理想效果之间的一个打分,常见如下:
① 分类算法常见评估指标
- 二类分类器/分类算法:accuracy, Precision, Recall, F-score, Pr曲线,ROC-AUC曲线
- 多累分类器/分类算法:accuracy, 宏平均和微平均,F-score
② 回归预测常见的评估指标 - 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error),R2(R-Square)
5. 分析赛题
题目以二手车市场为交易,预测二手汽车的交易价格,为数据挖掘中典型的回归问题,主应用XGBoost、Lgb、Catboost等。常用pandas、numpy、matplotlib、seabon、sklearn、keras、missing等常用挖掘库或框架。
原二手汽车交易记录有40W条,取15万作为训练集,两个5万作为测试集,即共25万条数据,另有15万条数据未用,需要一定的泛化能力,防止过拟合。原信息有4列进行脱敏,这个在一定程度上决定了数据挖掘的上限。另有一列为匿名特征,需要做匿名特征处理。
通过EDA来挖掘数据的关联并熟悉数据。
二、业务解析
1.业务概况
由于时间问题,暂时以【Overfitting is watching you队】的业务资料为主进行业务了解,具体请参考链接: 二手车赛题理解
二手车的价格主要参考两部分因素,一部分是选车的硬性指标,例如车型即车身类型,例如轿车、敞篷等;车子的配置,例如变速箱、发动机的功率和燃油等指标;车况即车子是否维修过;车子里程;违章是否解决和上市时间等等。另一部分是购车时的软性指标,例如地域,同一种车辆不同地域的价格有所不同;购车时间、购车渠道都会对同一二手车有不同的影响。所以在实际二手车价格的预测中均要考量。
数据指标的选择往往决定了数据分析的上限,原有的数据指标是否包含了业务层面的诉求?二手车价格的预测结果是否满足实际业务的需求?下面将对原有的数据指标和实际业务指标进行对比分析。
2.业务指标
一般市场业务指标
Field | Description | Connected Index |
---|---|---|
车型 | 车身类型:如同豪华轿车-0,微型车-1,厢型车-2,大巴车-3,敞篷车-4,双门汽车-5,商务车-6,搅拌车-7 | bodyType |
配置 | 燃油类型、变速箱、发动机功率 | fuelType & gearbox & power |
车况 | 汽车有尚未修复的损坏:是-0,否-1 | notRepairedDamage |
里程 | 汽车已行驶公里,单位万km | kilometer |
上市时间 | 汽车发布上市时期 | regDate |
地域 | 地区编码,已脱敏 | regionCode |
违章次数 | 交通违章次数 | None |
购车时间 | 已购此车辆的具体时间点 | 与creatDate相关 |
购车渠道 | 销售方:个题-0,非个体-1 | seller |
price | 二手车交易价格 | price |
对比表1和表2找出业务理解与原数据指标的相关性,可以发现
① bodyType、fuelType & gearbox & power、notRepairedDamage、kilometer、 regDate、regionCode 、creatDate、seller 特征与价格预测影响性较强。
② 业务理解中的违章次数表1并没有明确标明,从业务指标对比可以看出,原数据指标至少包含业务指标的88%以上,满足率相对较高。
③ 表1有15个匿名特征,是否包含业务理解的违章次数由公司业务决定,但违章次数是购二手车的必备选车条件之一,在次不排除v系列特征对二手车价格的高指标影响。
3.业务分析
二手车的价格判定源于市场,常见的市场二手车估价方法有四种,具体方式如下:
① 残值法
新车使用10年视为报废,15%作为不折旧的固定部分为残值,其余85%为浮动折旧值。可分三个阶段:3年-4年-3年折旧,折旧率分别为11%、10%和9%,前三年每年折11%。
计算公式为:评估价=市场现行新车售价×[15%(不动残值)+85%(浮动值)×(分阶段折旧率)]+评估值。
评估值:应考虑该车在当地的保有量和车况(外观、保养程度),酌情给出评估值(一般为新车价的2%~5%)。
② 折旧法
二手车分为十年计算,分为三个阶段,前三年每年折旧15%,中间四年每年折旧10%,最后三年每年折旧5%。以一台10万的车子为例
第二年: 10*(1-15%)= 8.5万
第三年: 8.5*(1-15%)=7.2万
……
③ 重置成本法
把车子寿命算作15年,精确到月份,具体公式如下
二手车价格 = 当前新车价*(180- 已使用月份)%180
④ 里程法
一部车有效寿命30万公里,将其分为5段,每段6万公里,每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15。
假设新车价12万元,已行驶7.5万公里(5年左右),那么该车估值为12万元×(3+3+2+1)÷15=7.2万元。
综上,上述四种常见的市场二手车价格预算中,三种以车子的寿命(使用时间)作为唯一参考标准,一种以车子的里程作为唯一参考标准,与实际预测情况而言都不具有科学严谨性。但是假设上述方法是市场主流的价格预测方法,则市场价格偏好以寿命和里程为主要参考标准,即原数据指标中的两个时间和里程,其他指标有一定的参考性。
三、数据分析
1.数据介绍
a)数据载入
b)数据总览
c)数据检测
d)预测分布
2.特征分析
a)数字特征
b)类别特征
3.数据报告
四、阶段总结
DW学习-二手车预测赛题分析相关推荐
- 第一次认真的二手车交易价格预测--赛题分析
二手车交易价格预测--赛题分析 数据比赛步骤 一. 赛题分析 1.1 学习目标 1.2 了解赛题 1.2.1 赛题概况 1.2.2 数据概况 train.csv 1.2.3 预测指标 一般问题评价指标 ...
- 【数据挖掘】 基于二手车交易价格预测-赛题分析
文章目录 1. 赛题背景 2. 赛题数据 字段表 3. 评测标准 4. 结果提交 5. 赛题分析 想要看更加舒服的排版.更加准时的推送 关注公众号"不太灵光的程序员" 干货推送,微 ...
- 【算法竞赛学习】金融风控之贷款违约预测-赛题理解
Task1 赛题理解 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题.通过这道赛题来引导大家了解金融风控中的 ...
- 数据分析模板一赛题分析(预测房屋租金)
总结一份属于自己的模板,不管三七二十一,拿来先套用.方便自己学习和记录. 拿到一份赛题数据,我们要赛题分析.就做以下2点. 认识数据 对比赛数据做EDA 1.认识数据 了解比赛的背景 你是做金融数据分 ...
- 2023年电赛国赛仪器仪表类赛题分析和预测
2023年电赛国赛仪器仪表类赛题分析和预测 前言: 2023年题目应当与往年差异不大,无非是仪器类.电源类.控制类.通信类等几大类.但近几年随着科学技术的发展,电赛也添加了许多的新元素,比如互联网+. ...
- 天池二手车拍卖赛题理解之特征工程
天池二手车交易价格预测赛题理解之特征分析常见操作 原文链接:Datawhale 零基础入门数据挖掘-Task3 特征工程 本文为个人阅读笔记,仅记录阅读过程中遇到的新知识. 数据归一化实现: (截图中 ...
- 二手车数据挖掘- 赛题理解
Datawhale 零基础入门数据挖掘-Task1 赛题理解 一. 赛题理解 Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后 ...
- 数据挖掘-Task1:心跳信号分类预测(赛题理解)
目录 前言 一.赛题 1.1 赛题概况 1.2 数据概况 1.3 预测指标 1.4 赛题分析 二.代码示例 2.1 数据读取 (导入pandas) 2.2 分类指标计算示例 2.3 baseline ...
- 2020“数维杯”国际大学生数学建模竞赛赛题分析
2020"数维杯"国际大学生数学建模竞赛赛题分析 1.ABCD赛题分析 1.1A题翻译:中国螺纹钢需求预测 1.2B题翻译:股票价格的混沌模型 1.3C题翻译:城市道路最佳除雪方案 ...
最新文章
- 搜索引擎的时效性需求满足
- 声网sdk android接入,Android 集成声网Agora 音视频实时通话(三)
- Linux问题分析或解决_ssh无法连接
- pipeline 流水线设计
- Python-流程控制之循环
- Oracle数据库DECODE函数的使用.
- EBS DBA指南笔记(一)
- PHP 逆转字符串与逆转句子
- 白话debounce和throttle
- oracle 11g rac 环境(1)
- pytorch---模型保存于加载(4)在一个文件中保存多个模型
- qml demo分析(maskedmousearea-异形窗口)
- Day002_LInux基础_常用命令
- 使用rkhunter检测rootkit
- wsdl文件怎么看服务器地址,wsdl文件 服务器地址
- CodeBlock13.12对gcc与g++的更新
- java简单实现购物车添加,查询,修改,结算商品程序
- hql删除mysql语句_hibernate -- HQL语句总结
- 为什么实体类要实现serializable接口序列化
- go开发虚拟串口服务器,vspd.go