清理后的数据如下图

1、读取数据

import matplotlib.pyplot as plt
import pandas as pd
from pylab import mplmpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题car = pd.read_csv('afterclean_ershoucheshuju.csv', encoding='utf-8', sep=',')name = car['carname']
month = car['carmonth']
mile = car['carmile']
price = car['price']
newprice = car['newprice']

2、总的开始分析

(1)首先得到各变量的基本的描述性统计量

#基本常用的描述性统计量
name_describe = name.describe()
month_describe = month.describe()
mile_describe = mile.describe()
price_describe = price.describe()
newprice_describe = newprice.describe()#类似的表达方式
(maxmonth, minmonth, meanmonth, medianmonth) = (month.max(), month.min(), month.mean(), month.median())
(maxmile, minmile, meanmile, medianmile) = (mile.max(), mile.min(), mile.mean(), mile.median())
(maxprice, minprice, meanprice, medianprice) = (price.max(), price.min(), price.mean(), price.median())
(maxnewprice, minnewprice, meannewprice, mediannewprice) = (newprice.max(), newprice.min(), newprice.mean(), newprice.median())


然后就是作出四个变量的条形图

#车龄柱状图
#plt.xlim(0,125)
#plt.ylim(0,50)
plt.title('二手车年龄分析')
plt.xlabel('二手车年龄')
plt.ylabel('二手车数量')
plt.hist(month, histtype='bar', rwidth=0.8, bins=40)     #默认形状是bar,rwidth表示两个柱子之间的距离,bins表示柱子的数量
plt.vlines(month_describe['mean'], 0, 20, color='red', label='平均年龄', linewidth=1.5, linestyle='--')
plt.vlines(medianmonth, 0, 20, color='red',label='中位数年龄', linewidth=1.5)
plt.legend()
plt.show()#车里程数直方图
plt.title("二手车里程数分析")
plt.xlabel("二手车里程 ")
plt.ylabel("二手车数量")
plt.hist(mile, bins=40)
plt.vlines(mile_describe['mean'], 0, 25, color='red', label='平均里程', linewidth=1.5, linestyle='--')
plt.vlines(medianmile, 0, 25, color='red',label='中位数里程', linewidth=1.5)
plt.legend()
plt.show()#车价格直方图
plt.title("二手车价格分析")
plt.xlabel("二手车价格 ")
plt.ylabel("二手车数量")
plt.hist(price, bins=40)
plt.vlines(price_describe['mean'], 0, 20, color='red', label='平均价格', linewidth=1.5, linestyle='--')
plt.vlines(medianprice, 0, 30, color='red',label='中位数价格', linewidth=1.5)
plt.legend()
plt.show()#绘制车原价分布直方图
#plt.xlim(0,500000)
#plt.ylim(0,30)
plt.title("二手车原价格分析")
plt.xlabel("二手车原价格 ")
plt.ylabel("二手车数量")
plt.hist(newprice, bins=60)
plt.vlines(newprice_describe['mean'], 0, 30, color='red', label='平均原价格', linewidth=1.5, linestyle='--')
plt.vlines(mediannewprice, 0, 30, color='red',label='中位数原价格', linewidth=1.5)
plt.legend()
plt.show()



由后面两张图可以看得出来,二手车价格与二手车价格由于两端异常值的存在,对均值的结果影响较大,因此,用中位数来代替均值会更有效。
由图一图二,二手车的使用年限和行驶里程大致呈正态分布。
由图三,二手车卖出的价格大多数在3-10万的价格之间。
由图四,二手车原价大多数在10-20万之间。
图三图四大致呈卡方分布。

(2)接下来生成一个新变量——残值率(price/newprice),画出残值率与行驶月份的散点图。

#残值率
plt.title('二手车残值率分析')
plt.xlabel('二手车年龄')
plt.ylabel('二手车残值率')
canzhilv = price / newprice
plt.scatter(month, canzhilv, c='red', marker='.', linewidths=0.8)      #散点图,marker表示点的形状, linewidths表示点的大小
#plt.plot(month, canzhilv)     #线图
plt.show()


由上图可以看到,二手车的行驶月份与残值率大致呈负相关,即行驶的月份越长,残值率越低,也就是车辆的价值越低,这与我们平时的认知相符合。当车子行驶了大概在50-60个月的时候,二手车的卖出价格大约就是新车原价的一般。
(3)二手车月份与里程数的关系

plt.title('二手车月份与里程数的关系')
plt.xlabel('二手车月份')
plt.ylabel('二手车里程数')
plt.scatter(month, mile, c='red', marker='.', linewidths=0.8)      #散点图,marker表示点的形状, linewidths表示点的大小
plt.show()


可以看到,月份与里程数的散点图大概呈正相关(具体有没有相关关系,后面用统计的方法来检测一下),但是在月份较大时,数据及其离散,因为行驶的路程与个人的习惯与喜好有很大关系,而个体存在差异,因此在后期数据相差较大。但是,在前期,以及大体趋势上看,每十个月行驶十万公里。(这里后期可以看看怎么作出拟合曲线)
(4)词云图

#车名出现的数量
a = car.carname.value_counts()
a[:10]


这就是出现次数前十的车辆。

#读取txt文件中的文字
with open('test.txt', 'r') as f:words = f.read()from wordcloud import WordCloud
word_cloud = WordCloud(font_path = 'C:/Windows/Fonts/simfang.ttf', background_color='white').generate(words)
image = word_cloud.to_image()
image.show()  #保存图片
import os.path
image.save(os.path.join('car.jpg'))

二手车分析之初步数据分析相关推荐

  1. 水文勿读【文献汇报】ADS-B信号分析、空管数据分析、航路或终端区飞机密度异常

    国外民用机场起降jy飞机的探测方法.收集一下这方面相关的资料,有一点相关性的都要,ADS-B信号分析.空管数据分析.航路或终端区飞机密度异常等等角度. ●<机载设备数据异常的STCA告警分析&g ...

  2. 掌握这个分析方法,数据分析就学会了一半

    任何事物都有对立面,站在不同的角度去分析问题,不仅是数据分析的方法,也是各行各业都会用到的思维模式. 十年前,在数据分析还没有火起来的时候,我们评判一个产品好坏的标准是感觉,也就是个人主观意志,很多决 ...

  3. 开源linux 二进制工具,又一款开源好物:逐字节分析的二进制数据分析工具bitinsight...

    项目名称:bitinsight 项目作者:compilelife 开源许可协议:GPL-3.0 项目地址:https://gitee.com/compilelife/bitinsight 项目简介 b ...

  4. 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

    2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

  5. 第五篇:AWS deepracer student 赛道分析(Ace speedway)最佳路径,数据分析,waypoint分析(初步

    文章目录 前言 一,为什么需要分析赛道 二,分析赛道需要的东西 三,如何获得waypoint数据 四,正式开始 1.获取waypoint的数据 2.处理数据 三,导入excel表绘图 1.将txt文件 ...

  6. 数据探索性分析_探索性数据分析

    数据探索性分析 When we hear about Data science or Analytics , the first thing that comes to our mind is Mod ...

  7. 二手车交易价格预测——数据分析

    @(Aaron) [机器学习, EDA-数据探索性分析] 主要内容包括: 载入各种数据科学以及可视化库: 载入数据: 数据总览: 判断数据缺失和异常: 了解预测值的分布 特征分为类别特征和数字特征,并 ...

  8. 【数据分析与挖掘实战】二手车价格预测1数据分析与特征构造详解(有数据集合代码)

    一.题目概况 数据集:点击下载 根据给定的数据集,建立模型,二手汽车的交易价格. 来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 ...

  9. “算法战:DARPA下一代人工智能计划初见成效” 背景分析与初步研判

    2018年9月,美国国防高级研究计划局(DARPA)宣布将出资20亿美元,用于开发新的人工智能技术.近日,DARPA副局长彼得·海纳姆在华盛顿接受记者采访时说,DARPA的"下一代人工智能& ...

  10. 泰坦尼克数据集预测分析_探索性数据分析—以泰坦尼克号数据集为例(第1部分)

    泰坦尼克数据集预测分析 Imagine your group of friends have decided to spend the vacations by travelling to an am ...

最新文章

  1. Linux下文件的三种时间戳
  2. CSS中的一些常见标签
  3. 用什么方法才能测量出无线发射模块的功率呢?
  4. java 调用 v8_学习笔记:使用Android V8 (J2V8)JavaScript引擎
  5. ITK:提取二值图像中连接区域的边界
  6. 敏感词过滤的php代码,php实现敏感词过滤(Trie树)
  7. python max取下标_Python 变量类型总结
  8. esc指令检查打印状态_Z.115 胶片自助打印设备
  9. python中json如何存放字节数组中_测试面试题集锦(四)| Linux 与 Python 编程篇(附答案)...
  10. shell:概述、脚本编写、变量的简单基础
  11. Spring知识点总结-3
  12. git revert 之后怎么撤销_Git 如何优雅地回退代码
  13. 4×4键盘板:ATMEGA328接口
  14. 对比解析开源云平台:Eucalyptus VS OpenStack
  15. ubuntu 16.04安装QQ 8.X
  16. nii数据的各种处理详解
  17. 性能测试领域:你知道的越多,不知道的也就越多
  18. 计算机科学领域几个常用的期刊
  19. web目录字典_dirmap 一个高级web目录、文件扫描工具
  20. Unity - 粒子系统跟随路径移动

热门文章

  1. 迭代阈值法 matlab,MATLAB快速迭代收缩阈值算法
  2. 【MySQL】全文索引详解
  3. 在手机上怎么修改图片格式?图片怎么转png格式?
  4. CSS设计模式读书笔记
  5. Boost电路小信号建模分析
  6. 猿人学web端爬虫攻防大赛赛题解析_第六题:js 混淆 - 回溯
  7. 想学一门计算机技术 Java和Python哪个前景好
  8. day09渗透简单测试流程以及PKI实验
  9. 论文阅读:《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neu》
  10. 常用分辨率、帧率、码率