将会使用NumPy 、 Pandas 以及 Matplotlib 做具体分析。

一、数据来源

来自 UCI 机器学习实验室的葡萄酒质量数据集:

Wine Quality Data Set​archive.ics.uci.edu

数据集是关于红葡萄酒样品的物理化学性质和质量等级。

二、数据集介绍

有两个数据集,提供了有关葡萄牙“青酒”的红葡萄酒和白葡萄酒变体的样本信息。每种样本都由专家做了质量评级,并进行了理化指标检验。包含以下12个字段:

  1. fixed acidity 固定酸度
  2. volatile acidity 挥发性酸度
  3. citric acid 柠檬酸
  4. residual sugar 残糖
  5. chlorides 氯化物
  6. free sulfur dioxide 游离二氧化硫
  7. total sulfur dioxide 总二氧化硫
  8. density 密度
  9. pH pH值
  10. sulphates 硫酸盐
  11. alcohol 酒精度
  12. quality 质量 - 0 到 10 之间的得分(葡萄酒专家至少 3 次评估的中值)

三、提出问题

  1. 哪些化学特性在预测葡萄酒质量方面最为重要?
  2. 是否特定类型的葡萄酒(红葡萄酒或白葡萄酒)的品质更高?
  3. 酒精含量更高的葡萄酒是否获得的评价更高?
  4. 味道更甜(残糖更多)的葡萄酒是否获得的评价更高?
  5. 什么水平的酸度(pH 值)代表质量更高?

对应以下分析思路:

  1. 查看各化学特性质量评分的相关性,找出那些化学特性会对葡萄酒质量有较大影响;
  2. 使用红葡萄酒和白葡萄酒的总体得分来比较得出结论;
  3. 观察酒精度质量评分的关系;
  4. 观察残糖量质量评分的关系;
  5. 质量评分高的时候,pH值集中在哪个区间。

四、探索数据

红葡萄酒的样本共有1599个。

白葡萄酒的样本共有4898个。

每个数据集中有12列。

数据集中没有缺失值。

红葡萄酒数据集中有240个重复行,白葡萄酒中有937个重复行。

红葡萄酒数据集中6个质量唯一值,白葡萄酒数据集中有7个质量唯一值。

五、合并数据集

5.1 创建颜色列

5.2 使用append组合数据框(注意和merge的区别)

5.3 保存已组合的数据集

六、使用可视化探索数据

6.1 各个特征的直方图

固定酸度、pH值和酒精度出现了右偏态。

6.2 质量与各个特征的散点图

酒精度最有可能对质量产生积极的影响。

七、使用groupby得出结论

白葡萄酒的平均质量较红葡萄酒的高。

低酸度水平得到的评分相对较高。

八、使用Query得出结论

酒精含量高时评分较高。

口感偏甜是评分较高。

九、用 Matplotlib 绘图

十、使用 Matplotlib 绘制酒的类型和质量视图

10.1 为红葡萄酒条柱高度和白葡萄酒条柱高度创建数组

  • 颜色和质量等级的每个组合有一个条柱。每个条柱的高度基于这个颜色与这个质量等级的样本的比例。
  • 1. 红葡萄酒条柱比例 = 每个质量等级的数量 / 红葡萄酒样本的总数
  • 2. 白葡萄酒条柱比例 = 每个质量等级的数量 / 白葡萄酒样本的总数

10.2 在柱状图上绘制比例

设置每个等级组的 x 坐标位置和每个条柱的宽度。

uci数据集_有关葡萄酒质量的数据分析相关推荐

  1. uci数据集_数据分析找不到数据集?快来看这个盘点

    前言 数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半.但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验.因而找到合适的数据集是一件很难的事情,接下来我们就盘 ...

  2. uci数据集_干货收藏!三大领域常用十大开源数据集

    全文共1144字,预计学习时长2分钟 机器学习的研究与实现离不开大数据.知晓通用的开源数据集,一方面可以验证自己算法,另一方面也可以与其他算法进行比较.本文介绍了计算机视觉.自然语言处理和语音识别三大 ...

  3. python合并两个数据集_《利用Python进行数据分析》第7章 合并数据集

    合并数据集 数据分析和建模方面的大量编程工作都是用在数据准备上的:加载.清理.转换以及重塑.有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求.pandas对象中的数据可以通过一些内置 ...

  4. 利用python进行数据分析数据集_《利用Python进行数据分析》终章·数据分析案例·学习笔记(二)...

    一.第14章 数据分析案例 本书正文的最后一章,我们来看一些真实世界的数据集.对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容.展示的方法适用于其它数据集,也包括你的.本章包含了一 ...

  5. 葡萄酒数据集_如何使用数据科学来理解什么使葡萄酒味道更好

    葡萄酒数据集 Data Science. It's been touted as the sexiest job of the 21st century. Everyone - from compan ...

  6. 机器学习葡萄酒质量_通过数据和机器学习制作出更好的啤酒和葡萄酒

    机器学习葡萄酒质量 带GPS的狗,电子鼻和可倾倒完美啤酒的机器人 (GPS-Wearing Dogs, an Electronic Nose, and a Robot That Pours the P ...

  7. Python数据分析实战之葡萄酒质量分析

    文章目录 1. 明确需求和目的 2. 数据收集 3. 数据预处理 3.1 数据整合 3.1.1 加载相关库和数据集 3.1.2 数据概览 3.2 数据清洗 3.2.1 列名重命名 3.2.2 数据类型 ...

  8. python葡萄酒数据_用python进行葡萄酒质量预测

    python葡萄酒数据 Warning: This is long article for those who seek only machine learning code, please just ...

  9. python产品质量分析_Python数据分析实战之葡萄酒质量分析

    1. 明确需求和目的 以葡萄酒类型为标签,分为白葡萄酒和红葡萄酒.比较这两种葡萄酒的差别并选取葡萄酒的化学成分:固定酸度.挥发性酸度.柠檬酸.氯化物.游离二氧化硫.总硫度.密度.PH值.硫酸盐.酒精度 ...

最新文章

  1. 13、GridView案例
  2. 【Android View事件分发机制】关于拦截事件的注意点
  3. 如何用mysql运行程序_如何在MySQL工作台中创建和执行程序
  4. python画一个点_pygame学习笔记(2):画点的三种方法和动画实例
  5. Boost:变量类型boost :: any的单元测试
  6. java调用dubbo服务器_dubbo源码分析-服务端注册流程-笔记
  7. 数据结构和算法(01)--- 算法复杂度
  8. 中秋节,给大家送点货真价实的礼物
  9. linux备份和还原设置密码,AnyBackup Linux操作系统备份与恢复最佳实践手册(33页)-原创力文档...
  10. IntelliJ IDEA lombok插件的安装和使用听
  11. Java字符串与日期互转
  12. RNN、GRU、LSTM
  13. Learning Modern 3D Graphics Programming笔记
  14. 数据结构之均摊复杂度的使用(课本)
  15. tensorflow手动实现算法之三逻辑回归
  16. 微观数据库整理(公开渠道获得-持续更新)
  17. 清明上河图30亿像素_清明上河图高清下载|
  18. 四纵四横客运专线(高铁)
  19. 【已解决】华为手机USB调试和监控ADB安装应用的选项变成了灰色如何解决 | 华为荣耀9手机USB调试和监控ADB安装应用选项变成了灰色怎么办
  20. 手机中如何使用阿里云的企业邮箱

热门文章

  1. java mysql nclob_java向oracle数据库Clob读取,写入数据
  2. php读取大文件某行内容,PHP读取和修改大文件的某行内容_PHP教程
  3. ORA-20000: ORU-10027: buffer overflow, limit of 2000 bytes
  4. 2017计算机c语言大纲,2017年计算机考研大纲
  5. ORACLE查询保留字
  6. Linux定时删除过期日志文件
  7. ForkJoin 学习使用笔记
  8. RSA大会:中国信息安全的“走出去”与“学回来”
  9. 验证字符串是否回文 Valid Palindrome
  10. 从尿检取中段谈数据库压测