来源:大数据文摘

本文约2000字,建议阅读5分钟

我提取了所有豆子的风味评级数据,最终得到一个比原先稍大的数据库,其中有407杯咖啡的数据。

尝遍世界各地不同的咖啡,我好奇风味差异如何影响咖啡评级。尽管知道咖啡等级会影响口感,但我依旧喜欢一些等级较低的咖啡。

看了下两个咖啡评级数据库,撇去地区差异,我始终搞不明白风味能起到什么样的作用。

因此,我选取Sweet Maria's数据库进行分析。虽然数据库里有每杯咖啡的风味评级,但我首先提取了咖啡的Q级分。接着,我提取了所有豆子的风味评级数据,最终得到一个比原先稍大的数据库,其中有407杯咖啡的数据。

杯测评分(修正Q分)

如表格所示,Sweet Maria’s与SCA的杯测标准略有出入。奇怪的是,相比其他指标,甜度、一致性、干净度3个指标在SCA标准中,一开始分数看似挺好,但随后递减。反观Sweet Maria’s评分指标,发现它对咖啡有更深入的洞察。

数据

构建任何数据库,我们都需要花费时间做数据清洗和数据检查。此处,我用Q级分画了一张雷达图,我用原先代码生成了一张扩展的辅助指标评分图。对于咖啡风味数据,为了便于提数,我做了一定的修正。

经过Sweet Maria's授权使用,其他图均出自本文作者

我将数据整合在一张包含生产地、加工类型类型等元数据的大表中。我对数据做了多次梳理、审核,并抽样验证算法是否运行良好。

数据准备完毕,我开始分析。

分析:风味分布

12种风味指标加总后求平均,发现坚果和花香味比较少有,最常见的是糖果、可可和醇厚风味。

分析:相关性

相关性用于描述两个变量之间的相似程度。相关性高不代表一个变量对另一个变量有什么影响,当发生变化时,两个变量变化趋势相同。我认为一些评级变量最开始具有很高的相关性,因为它们是从不同角度表示咖啡口感。相关性可以是正向(趋势相同)的或负向(趋势相反)。0则表示两个变量没有相关性。

显然,杯测分数(Q分、评级,不管怎样称呼)的各项指标之间的相关性比风味指标更高。有趣的是,焦糖、可可、坚果和乡村风味与杯测分数成反比。这几种风味与其他风味的相关性不高,表现为微弱的负相关。莓果与水果具有很高的相关性,看起来是合理的。

我们通过一张更大的表直观展示各属性之间最高的相关性。负数表示为最高相关性的绝对值,但为负相关值或逆相关值(成反比)。

显而易见,杯测分数与花香味指标最相关,许多风味指标都与明亮度杯测指标具有较高的相关性。但奇怪的是仅有27%的咖啡有花香味(要么一点都没有)。

对相关性矩阵按地区进行分解,看看每个指标与总得分(杯测分)的关系。不同地区的咖啡,水果、柑橘和莓果风味差异最大。令人诧异的是,我一直以为非洲咖啡豆果香味会更浓,但水果对非洲咖啡豆的贡献分并不大。

咖啡豆的风味部分也依赖于采用不同的工艺处理咖啡果实。我喜欢干法加工的咖啡豆,富有果香味,这从风味得分也可以看出来。但焦糖味却相反。我本以为焦糖与糖果味会相似,最后发现两者之间没有多少关联性。

另外,北美洲、混合拼配地区以外的地区,坚果/可可风味之间没有多少关系,但它们与总体得分呈现很强的负相关性。

坚果、可可都与干法加工逆相关,但受蜜处理、湿法加工的负向影响较弱。总体而言,非洲咖啡豆味道越丰富,整体杯测得分越高。杯测纠正与干法、其他加工方法负相关。这表明干法、其他加工方法总体得分低,但是实际上豆子很棒,因为杯测标准里没有代表加工工艺的量化指标。

分析:主成分分析(PCA)

主成分分析法(PCA)是将一组变量映射至新的维度空间,原始变量在新空间用新维度表示。简单数据集在不失真的情况下实现了降维,这样,每个Q级分(Sweet Maria’s评分)不需要使用所有的评分项,仅用11个维度表示即可。或许你只需要用到三个或主要成分。

让我们看看所有变量,不出所料,杯测总分是第一主成分,是最主要的影响变量。然而,在鉴别咖啡豆时,风味成分最主要的变量。

在没有杯测总分的情况下进行同样的分析,杯测师就在产生了一定的影响,但是,风味仍旧是最具影响力的独立成分。

进一步研究杯测、风味会对咖啡产生何种影响,我们计算了每个主成分的累积百分比值。

单独比较风味和杯测评级,风味指标依赖更多的主成分变量,使用到13个成分中的8个成分可达到90%的变化性,杯测评级只需4个指标。这表明风味指标更适合单独鉴别咖啡豆。

我们可以计算每个指标对各主成分影响的累积绝对值及其对数据的贡献度。杯测师纠正影响最大,风味和复杂度影响相对小。所有的风味指标,莓果、柑橘、水果和可可对鉴别咖啡豆最有影响,糖果累积影响最小。

使用包含大部分数据变量的2 个主成分绘制成散点图。杯测评级图数据分布比较集中,风味图数据分布比较分散。

评级数据相对集中,风味数据的分布比较有趣。观察干法加工、湿法加工、非洲地区咖啡豆数据最分散。

此项工作,仔细对比咖啡评级(杯测评级)和风味评级的差异。我发现,评测咖啡产区或加工工艺时,风味等级比咖啡评级更具代表性。咖啡评级应该与风味指标相互独立,而且Sweet Maria’s杯测方法对特定风味不会出现严重偏差。风味偏差最大的是花香味,但它没有其他杯测参数那么强的相关性。

相关报道:

https://towardsdatascience.com/a-review-of-coffee-data-grades-and-flavors-5ccb6fc51941

编辑:王菁

校对:林亦霖

用数据品鉴咖啡,407杯咖啡数据教你如何区分咖啡等级和风味相关推荐

  1. 报名即将截止,中国移动“梧桐杯”大数据应用创新大赛,寻找大数据敢想者!...

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办方:中国移动信息技术中心 也许,你在大数据分析路上踽踽独行 来这里, ...

  2. 智源杯天文数据算法挑战赛开赛,前沿AI技术助力天文科学研究

    由北京智源人工智能研究院主办,国家天文台.数据评测平台biendata联合举办的天体分类数据竞赛于2020年1月开赛.本次比赛旨在鼓励大众参与到天文学的探索当中,利用最新的人工智能算法分析望远镜收集到 ...

  3. 【数据竞赛】“达观杯”文本智能处理挑战赛1

    一.数据竞赛简介 "达观杯"文本智能处理挑战赛 1.任务 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 2.数据 传送门:链接: https:// ...

  4. 报名开始!第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖!

    为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...

  5. 2020第二届长安杯电子数据竞赛试题(二次修改版),本人亲解,尽量做到细致仔细,镜像百度网盘奉上,建议大家联系一下,弘连题目还是很好的(强烈推荐)

    百度云链接 链接:https://pan.baidu.com/s/1iEItwBUZx6X4_oe_ZfQlvw?pwd=ybww 提取码:ybww -来自百度网盘超级会员V2的分享 如果链接失效了, ...

  6. 三城演义!第二届中国移动“梧桐杯”大数据应用创新大赛复赛完美收官

    8月19日至26日,第二届中国移动"梧桐杯"大数据应用创新大赛暨大数据创客马拉松大赛的三场复赛路演暨颁奖典礼在杭州.武汉.广州三地成功举办.35支队伍在数智乡村.数智城市.数智交通 ...

  7. 【报名开始】第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖

    为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...

  8. Mojoe,旅行途中不可或缺的“随行”咖啡冲泡杯

    真正的咖啡随行,真正的咖啡伴侣. Mojoe可以说是真正的一款随行咖啡冲泡杯.我们所知道的其他冲泡咖啡的杯子,有些需要加入烧好的热水,有的需要外接电源,这些始终都满足不了人们在出行时想喝咖啡的心.不过 ...

  9. 百万奖金花落谁家|中国华录杯·开放数据创新应用大赛巅峰之战

    历经7个月赛时,12月18日,100万奖金花落谁家,中国华录杯··开放数据创新应用大赛,天津津南区华录未来科技园BE数创空间,收官巅峰之战. 作为第二届世界智能大会四大赛事之一的中国华录杯·开放数据创 ...

最新文章

  1. mysql read only参数_MySQL 参数解析 tx_read_only transaction_read_only
  2. 0、为什么推荐学习PowerShell?
  3. 开闭操作进行平滑处理与边缘提取
  4. 当脑机接口应用于建筑工地,会发生什么?
  5. 安装库_免费软件安装库
  6. 杭州网络推广带大家了解404页面的作用以及对网站优化的优势
  7. 驳Linux不娱乐 堪比Win平台中十款播放器
  8. gevent.joinall()开启协程
  9. (17)10-10-12分页
  10. 史上最强翻译器,没有之一,不接受反驳
  11. OpenCV C++ 08 - Homogeneous Blur on Images with OpenCV
  12. 探索 .Net Core 的 SourceLink
  13. cubemx串口的发送与接收_串口收发模块设计
  14. 如何构建一个流量无损的在线应用架构 | 专题尾篇
  15. Unity3D基础12:碰撞体
  16. 梅州市2021普通高考成绩查询,梅州高考成绩查询入口
  17. ROS下面调用自定义的头文件和.cpp/.so文件(亲测有效)
  18. 微积分知识总览(0)
  19. android 华为 imei,华为手机EMUI系统查看S/N IMEI/MEID 产品识别码的方法
  20. python计算所得税费用_Python实现的个人所得税计算器示例

热门文章

  1. phpexcel_cell 获取表格样式_Java 操作Word表格——创建嵌套表格、添加/复制表格行或列、设置表格是否禁止跨页断行...
  2. 【未完成】[Spark SQL_2] 在 IDEA 中编写 Spark SQL 程序
  3. Linux系统平台上软件安装心得
  4. MySQLMySql免安装版安装配置
  5. iOS 疑难杂症— — 收到推送显示后自动消失的问题
  6. 敏捷开发:如何通过回顾保持学习状态
  7. 《编程之美》读书笔记19: 3.9 重建二叉树
  8. 布局覆盖 超出一部分_Android 布局优化
  9. mysql 字段存放小图标_让MySQL支持emoji图标存储
  10. Linux学习--目录结构