task2 EDA探索性数据分析
1、赛题数据
赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏
2、评测标准
评价标准为MAE(Mean Absolute Error)。
MAE越小,说明模型预测得越准确。
赛事官网:
零基础入门数据挖掘 - 二手车交易价格预测
3、具体步骤
3.1、环境:pycharm + python3
3.2、读取数据
下面展示一些 内联代码片
。
// An highlighted block
var foo = 'bar';
#读取数据并#切分数据dataset = pd.read_csv(r'C:\python3\envs\pytorch\atest_torch\data\used_car_train_20200313.csv', sep=' ')# print(dataset)# print(dataset.columns.values)X = dataset[['SaleID', 'name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'power', 'kilometer','notRepairedDamage', 'regionCode', 'seller', 'offerType', 'creatDate', 'v_0', 'v_1', 'v_2','v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14']]Y = dataset['price']
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
#需要注意:因为该csv文件数据是按一个空格隔开的,在读取时需要用sep=’ '来分割开来。
3.2.2查看各列数据类型
#查看各列数据类型
print([X[column].dtypes for column in X])
- 1
- 2
发现notRepairedDamage数据存在异常,该特征为汽车有尚未修复的损坏:是:0,否:1。
我将“-”进行缺失值处理,赋值为0.5
更新时间:2020年3月17日
3.3拆分数据集与测试集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)
- 1
3.4xgboost构建模型
</div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-b6c3c6d139.css" rel="stylesheet"><div class="more-toolbox"><div class="left-toolbox"><ul class="toolbox-list"><li class="tool-item tool-active is-like "><a href="javascript:;"><svg class="icon" aria-hidden="true"><use xlink:href="#csdnc-thumbsup"></use></svg><span class="name">点赞</span><span class="count"></span></a></li><li class="tool-item tool-active is-collection "><a href="javascript:;" data-report-click="{"mod":"popu_824"}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-Collection-G"></use></svg><span class="name">收藏</span></a></li><li class="tool-item tool-active is-share"><a href="javascript:;" data-report-click="{"mod":"1582594662_002"}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-fenxiang"></use></svg>分享</a></li><!--打赏开始--><!--打赏结束--><li class="tool-item tool-more"><a><svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg></a><ul class="more-box"><li class="item"><a class="article-report">文章举报</a></li></ul></li></ul></div></div><div class="person-messagebox"><div class="left-message"><a href="https://blog.csdn.net/zxxmx"><img src="https://profile.csdnimg.cn/D/A/8/3_zxxmx" class="avatar_pic" username="zxxmx"><img src="https://g.csdnimg.cn/static/user-reg-year/1x/2.png" class="user-years"></a></div><div class="middle-message"><div class="title"><span class="tit"><a href="https://blog.csdn.net/zxxmx" data-report-click="{"mod":"popu_379"}" target="_blank">zxxmx</a></span></div><div class="text"><span>发布了1 篇原创文章</span> · <span>获赞 0</span> · <span>访问量 105</span></div></div><div class="right-message"><a href="https://im.csdn.net/im/main.html?userName=zxxmx" target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-letter">私信</a><a class="btn btn-sm bt-button personal-watch" data-report-click="{"mod":"popu_379"}">关注</a></div></div></div>
task2 EDA探索性数据分析相关推荐
- 【技能向--之一】EDA探索性数据分析--以kaggle美国信用卡评分项目为例
EDA探索性数据分析 1. What is EDA? 2. Why EDA? 3. How EDA? 3.1 基本设置 3.2 读取数据 3.3 探索与分析 3.31 数据概览 3.32 缺失值处理 ...
- 金融风控训练营--Task 02 EDA探索性数据分析 学习笔记
文章目录 前言 一.学习知识点概要 1.1 探索性数据分析(Exploratory Data Analysis,EDA)的目的 二.学习内容 2.1 数据总体了解 2.1.1 读取数据集并了解数据集大 ...
- 数据分析可视化利器:python pandas-profiling 一行代码EDA 探索性数据分析
文章大纲 1. 探索性数据分析 2.代码样例 3.效果 4.解决pandas profile 中文显示的问题 1. 探索性数据分析 数据的筛选.重组.结构化.预处理等都属于探索性数据分析的范畴,探索性 ...
- EDA探索性数据分析 -- 足球赛事红牌数据分析
目录: 一. 数据读取与预处理 二. 数据板块切分 2.1 创建子表并快速测试唯一性的辅助函数 2.2 Players子表 2.3 Clubs子表 2.4 Referees子表 2.5 refCoun ...
- EDA探索性数据分析 -- 联合国粮农组织: 水资源
目录: 一. 认识数据 1.1 读取数据 1.2 缺失值状况 二. 切片分析 2.1 time slicing 2.2 country slicing 2.3 variable slicing 2.4 ...
- 探索性数据分析EDA及数据分析图表的选择
文章目录 一.探索性数据分析EDA 二.数据分析图表的选择 一.探索性数据分析EDA 探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先 ...
- task2 EDA数据分析
目标 了解,验证数据集 了解变量关系,与预测值之间关系 数据处理.特征工程 数据探索性分析 EDA探索性数据分析 通过EDA可实现: 1. 得到数据的直观表现 2. 发现潜在的结构 3. 提取重要的 ...
- Sweetviz:让你只需三行代码实现Python探索性数据分析
Sweetviz 是一个开源 Python 库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析).输出一个HTML.文末提供技术交流群,喜欢点赞支持,收藏. 如上图所示,它 ...
- 精选10个Python库,几行代码轻松搞定探索性数据分析!
点击上方"菜鸟学Python",选择"星标"公众号 超级无敌干货,第一时间送达!!! 探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一.在拿到一个 ...
最新文章
- 最早接触到的计算机编程语言——c语言
- 基于Atmega8单片机的串口收发程序
- python职能-最受欢迎的10家互联网公司 Python薪资揭秘!
- 第二章-大数据处理框Hadoop
- linux 下安装nginx
- 计算机一级b需要学哪些,希望通过江苏省计算机一级B考试的同学千万要看哦!江苏省计算机一级B理论复习资料(绝密资料)...
- PHP的数据类型、浮点型比较
- java 调用js 解析yml_nodejs库yaml读取yml或yaml配置文件
- c盘java文件误删_java获取C盘下的隐藏目录文件名称
- @程序员,使用了 SQL 就不能用 DevOps?
- 惊!史上最佳GAN现身,超真实AI假照片,行家们都沸腾了
- 光配件招标采购技术标准
- 如何查找Steam好友代码(以及添加好友代码)
- 双链路是什么意思_双链路DVI是什么意思 工作原理是什么
- 软件插件化,大势所趋新势力
- Androi事件分发( 二),解决事件冲突
- 203、商城业务-商品详情-环境搭建
- IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总
- 80x86编程手册_编程从8到80
- 猫叔产品读记 | 全时关店潮、那些记得住的2019春节营销案例(2期)