感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

天善智能社区地址:https://www.hellobi.com/


数据获取

数据来源:Kaggle数据集

Kaggle数据:葡萄酒评分数据选

了个葡萄酒评分的数据,下载下来之后,内容是这样的:

葡萄酒评分数据集

一共有150929条记录

数据集的描述是这样的:

在观看Somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

小编百度了一下Somm的影片信息如下:

我们看看各字段含义:

评分(Points):评分为1-100

品种(Variety):用来制作葡萄酒的葡萄品种

描述(Description):侍酒师的几句话描述酒的味道,气味,外观,感觉等。

国家(Country):葡萄酒来自的国家

省(Province):葡萄酒来自的省份或州

区域1(Region 1):一个省或州的葡萄酒产区(即纳帕)

区域2(Region 2):有时在葡萄酒产区内有更具体的区域,但是这个值有时可能是空白的

酒庄(Winery):酿酒的酿酒厂

名称(Designation):葡萄酒酿造厂所在的葡萄园

价格(Price):一瓶葡萄酒的价格

数据探索

我们使用pandas读取这个文件:

pandas读取数据集

我们查看一下前五行数据:

前五行数据

删除本次分析用不到的字段后再次看看情况:

清洗后的数据

查看每个字段的类型:

字段类型

发现评分和价格是数值型的,我们计算时候就不用转换类型了~

各字段的数据缺失情况:

数据缺失情况

本想把有缺失值的记录去掉,去掉后发现只有US的葡萄酒信息,所以没去除存在缺失值的记录

葡萄酒的评分情况

通过绘制直方图查看评分分布情况:

葡萄酒得分分布图

发现基本符合高斯分布情况,评分大多集中在85~90分

葡萄酒的价格情况

接着我们看看葡萄酒的价格情况:

葡萄酒价格分布

发现价格集中在图示的最左端,因为有特殊离群值的影响,所以区间给的特别宽

异常检查

通过筛选发现确实是有特别昂贵的葡萄酒(这里暂且不管这个价格数据是采集异常还是真的这么贵)

为了可视化到主要的部分,我们选中大部分的价格重新做可视化

异常排除后的葡萄酒价格分布

这样就可以看到,大部分的价格是在0-100(好像数据集提供者没告诉我价格的单位)

为了买到满意的葡萄酒,我们看看葡萄酒的性价比

简单定义为 性价比 = 评分/价格

葡萄酒性价比计算结果

结果发现计算出的价格低的明显性价比高

我们看看总体上葡萄酒价格和评分的关系:

葡萄酒价格与评分散点图

发现评分相同的葡萄酒,价格还是差异挺大,特别是评分较高的葡萄酒价格的差异

从图中也可以看出,有几个离群值,他们大多价格很高!

葡萄酒基本来自哪些国家

葡萄酒产地统计

我们看到,生产葡萄酒的五个大国分别是:美国、意大利、发过、西班牙、智利共和国。

为了更直观凸显他们的比例,我们绘制饼图:

葡萄酒产地占比情况

发现美国真是占据了葡萄酒的半壁江山啊

应该是这个数据收集者没收集到中国的数据,我们也是葡萄酒大国之一啊!

看看这些国家在全球的分布(点的大小代表葡萄酒品种多):

葡萄酒产地分布图(1)

除去美国最多,我们看看其次的几个:

葡萄酒产地分布图(2)

(以上两个图是用Tableau画的)

酿造葡萄酒的葡萄品种

葡萄品种统计

我这个不懂酒的程序猿马上查了一下前三的葡萄!

葡萄品种介绍(1)
葡萄品种介绍(2)

为了看一下这些葡萄使用的比重,做个饼图:

葡萄品种占比

发现前三种占据了1/4

后面还有使用较少的名称堆叠在了一起

酒庄信息

我们接下来看看酒庄信息:

酒庄信息统计

前五的葡萄酒品种最多

分别是:

1.威廉斯莱酒庄

酒庄介绍(1)

2.特斯坦罗萨酒厂

3.DFJ Vinhos

酒庄介绍(2)

4.圣密夕酒庄

酒庄介绍(3)

5.哥伦比亚山峰酒庄

酒庄介绍(4)

看看哪个酒庄的葡萄酒均价最高:

酒庄葡萄酒均价

1.巴布莱尔酒庄

苏格兰最古老的酒庄之一,巴布莱尔酒庄是全球唯一专注生产单一年份威士忌(Single Vintage Whisky)的酒庄。

2.拉图城堡酒庄

享有“全球最昂贵的酒庄”声誉,是当之无愧的法国国宝级酒庄。

3.花思蝶酒庄

700年的历史,意大利托斯卡纳最古老的葡萄酒世家之一,曾成为罗马教皇和英王亨利八世的御用佳酿。

4.奥比昂酒庄

法国五大酒庄之一

5.美讯庄园

地处法国波尔多(Bordeaux)格拉夫(Graves)产区的最北端,与奥比昂酒庄(Chateau Haut-Brion)同属于克兰斯帝龙酒业集团(Domaine Clarence Dillon)旗下酒庄,两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。

我们看看这五个酒庄的葡萄酒平均价格变化趋势:

葡萄酒平均价格

前两个的价格遥遥领先~

买不起,买不起!


原文地址:Python数据分析系列(1)——葡萄酒评分

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

天善智能社区地址:https://www.hellobi.com/

Python数据分析系列(1)——葡萄酒评分相关推荐

  1. Python数据分析系列(2)——美国纽约皇后区空气质量分析

    感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 天善智能社区地址:https://www. ...

  2. Python数据分析实战之葡萄酒质量分析

    文章目录 1. 明确需求和目的 2. 数据收集 3. 数据预处理 3.1 数据整合 3.1.1 加载相关库和数据集 3.1.2 数据概览 3.2 数据清洗 3.2.1 列名重命名 3.2.2 数据类型 ...

  3. python数据分析系列教程——Pandas全解

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 起步 Pandas最初被作为金融数据分析工具而开发出来,因此 pandas 为时间序列分析提 ...

  4. Python数据分析系列之——王一博微博转发量分析

    首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微 ...

  5. Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话

    首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微 ...

  6. 51cto python数据分析系列课程 55g_热图_ Python数据分析系列视频课程--玩转数据可视化_数据可视化视频-51CTO学院...

    matplotlib包是基于Python平台的统计绘图利器,是在python平台上完成数据可视化不可或缺的工具,而基于matplotlib进一步开发的seaborn,更是将数据呈现与可视化的可用性推到 ...

  7. python数据分析系列教程——NumPy全解

    速查: 矩阵对象的属性: matrix.T transpose:返回矩阵的转置矩阵 matrix.H hermitian (conjugate) transpose:返回复数矩阵的共轭元素矩阵 mat ...

  8. 「Python数据分析系列」10.使用数据

    来源 |  Data Science from Scratch, Second Edition 作者 | Joel Grus 译者 | cloverErna 校对 | gongyouliu 编辑 | ...

  9. 「Python数据分析系列」6. 概率论基础介绍

    来源 |  Data Science from Scratch, Second Edition 作者 | Joel Grus 译者 | cloverErna 校对 | gongyouliu 编辑 | ...

最新文章

  1. 在ASP.NET MVC里对Web Page网页进行权限控制
  2. 概念模型让产品更简单
  3. arduino 程序的机制
  4. java扑克牌移动_蓝桥杯-扑克牌移动-java
  5. spark入门_[大数据之Spark]——快速入门
  6. 12月13日 新概念3一周一篇计划
  7. 属兔的人今日运势-360星座网_明日运势属兔人(12.25)
  8. 大数据技术原理与应用----大数据概述
  9. PyQt5多个GUI界面设计
  10. 在2020年使用黑莓9720+BBOS7三个月的感受
  11. 22.11.16 IO day 8
  12. HTML入门学习线路图
  13. 节省处理HPC数据泛滥开支的可用工具
  14. python主题更改_IDLE怎么将主题修改成Darcula样式?
  15. Android手机界面组成
  16. js重写alert事件,避免alert弹框标题出现网址
  17. Python集合运算
  18. K8s基础知识学习笔记及部分源码剖析
  19. 蓝桥云题库之国王游戏——Python满分解答
  20. ctex安装及使用技巧

热门文章

  1. 程序员的浪漫(二)markdown编写论文式生日小作文
  2. 神码ai人工智能写作机器人_人工智能和机器学习的最佳资源
  3. 前端书籍参考书籍以及手册
  4. lazarus下串口通信
  5. 玩转树莓派(一)基础知识
  6. EMR 重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
  7. 模拟登陆获取脉脉好友信息
  8. 利用千千静听做网吧播放器
  9. Alien Skin Exposure7可作为 Ps插件摄影师非常实用的胶片滤镜插件
  10. 亚马逊云科技re:Invent:这些成功的数据驱动新企业背后的秘诀是什么?