数据来源于天池赛题:零基础入门数据挖掘 - 二手车交易价格预测

地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

目录

  • 一、原理介绍
  • 二、代码实现
  • 三、结果解读

一、原理介绍

小提琴图(violin plot)顾名思义,就是外形像小提琴的一种图。这种图用来显示数据的分布和概率密度,可以看成是箱线图和密度图的结合。小提琴图的中间部分反映箱线图的信息,图的两侧反映出密度图的信息。小提琴图常用于建模前的EDA数据探索性分析环节。


下面对小提琴图所反映的信息做一个总结:

  1. 分布信息
  • 小提琴图中间的黑色粗条用来显示四分位数。黑色粗条中间的白点表示中位数,粗条的顶边和底边分别表示上四分位数和下四分位数,通过边的位置所对应的y轴的数值就可以看到四分位数的值。
  • 由黑色粗条延伸出的黑细线表示95%的置信区间。
  1. 概率密度信息
  • 从小提琴图的外形可以看到任意位置的数据密度,实际上就是旋转了90度的密度图。
  • 小提琴图越宽,表示密度越大。
  • 可以展示出数据的多个峰值。

二、代码实现

#加载需要的模块
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#导入数据
Train_data = pd.read_csv('F:/data/used_car_train_20200313.csv', sep=' ')
Train_data['gearbox'].value_counts() #对分类变量的类别进行计数
#后面将研究不同类型的'gearbox'对应'price'的差异
x=Train_data['gearbox']
y=Train_data['price'] #在原数据集中,'price'为目标变量
#绘制小提琴图
sns.violinplot(x=x,y=y,data=Train_data)
#在sns.violinplot中,x是类别变量,y是数值型变量,data用于指定数据集

运行代码之后就可以得到小提琴图

三、结果解读

  • 从上面的小提琴图可以看出,不同的变速箱类别对应的二手车价格是不同的。当变速箱类别为1时,汽车价格相对更高。在建模的过程中,往往这种差异性较大的变量对于建模的效果更好,因此可以初步筛选出gearbox作为后面模型的输入变量。
  • 从分布情况来看,price极度右偏。由于目标变量不符合正态分布,在进行回归之前,需要对其进行转换,常用的转换方法有取对数和拟合无界约翰逊分布。

数据可视化之小提琴图(原理+Python代码)相关推荐

  1. 数据可视化之树形图(原理+Python代码)

    目录 一.原理介绍 二.代码实现 三.结果解释 一.原理介绍 树形图常用于对分类变量进行可视化分析,树形图的面积代表了所对应类别的数量,常用于比较各类别在数量上的差异. 二.代码实现 数据来源于上市企 ...

  2. 数据可视化之饼状图(原理+Python代码)

    数据来源于Kaggle数据集,链接:https://www.kaggle.com/Cornell-University/arxiv 目录 00.前言 一.原理介绍 二.代码实现 三.结果解释 00.前 ...

  3. python饼状图教程_Python数据可视化:饼状图的实例讲解

    使用python实现论文里面的饼状图: 原图: python代码实现: # # 饼状图 # plot.figure(figsize=(8,8)) labels = [u'Canteen', u'Sup ...

  4. Python数据可视化之折线图

    Python数据可视化之折线图 提示:前言 Python数据可视化之折线图 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Python数据可视化之折线图 前言 一.导入包 ...

  5. python做数据可视化的代码_Python数据可视化正态分布简单分析及实现代码

    Python说来简单也简单,但是也不简单,尤其是再跟高数结合起来的时候... 正态分布(Normaldistribution),也称"常态分布",又名高斯分布(Gaussiandi ...

  6. 二维正态分布图python代码_Python数据可视化正态分布简单分析及实现代码

    Python说来简单也简单,但是也不简单,尤其是再跟高数结合起来的时候... 正态分布(Normaldistribution),也称"常态分布",又名高斯分布(Gaussiandi ...

  7. Echarts数据可视化series-radar雷达图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

  8. Echarts数据可视化series-line线图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

  9. Echarts数据可视化series-graph关系图,开发全解+完美注释

    全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...

最新文章

  1. 北科大计算机小学期,北京科技大学小学期计算机实践(C++源代码)
  2. Scrapy源代码分析-经常使用的爬虫类-CrawlSpider(三)
  3. workgroup无法访问?
  4. 树转换为二叉树小技巧
  5. 2018世界杯8组32队积分和净胜球
  6. 机器学习基石-作业三-代码部分
  7. bex5 php,Bex5开发技巧之如何在列表中显示主键字段
  8. idea实现Tomcat热部署
  9. 论文阅读博客||很多论文阅读笔记
  10. bzoj 4238: 电压 dfs
  11. 跨平台应用开发进阶(七) :uni-app 自定义 showToast
  12. mixamo_Mixamo的动画商店插件现在支持Mecanim!
  13. 【翻译】Style Transfer by Relaxed Optimal Transport and Self-Similarity
  14. linux PWM驱动屏幕亮度及pwm子系统框架(Linux驱动开发篇)
  15. 怎么查自己电脑ip地址
  16. MySql项目查询优化经验总结
  17. 纳米数据世界杯数据接口,中超数据,体育数据比分,世界杯赛程api,足球比赛实时数据接口
  18. CentOS7设置共享文件夹
  19. 《Java 后端面试经》微服务篇
  20. 无人机动力系统测试的必要性

热门文章

  1. ping某个域名的详细过程
  2. 几万年前,孙悟空的一次删库跑路...
  3. 高通平台android 8.1基线某款usb camera打开dev/video1出错
  4. java读取dcm影像文件_DCM医学影像文件的格式与读取方法分享
  5. logiscope系列-使用说明书
  6. 【问题解决】虚拟机打开gazebo黑屏、闪退、模型加载不出来
  7. フェルミナ / 风拳
  8. 重新安装windows10的应用商店
  9. find vba 模糊_EXCEL——VBA实现模糊查找并获取查找到的单元格内容
  10. 少儿编程pythonppt-五年级的孩子学编程有没有意义?