机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识,因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提,这是我的科学老师从中学开始就灌输给我的:

  • 科学报告的一般规则是,您写下的每个数字都应为“ 真”的,因为“ 真”的定义是什么。
  • 让我们来研究一下这对测试性能等统计量意味着什么。当你在科学出版物中写下以下陈述时:
  • 测试准确率为52.34%。你所表达的是,据你所知,你的模型在从测试分布中提取的未见数据上成功的概率在0.52335和0.52345之间。

这是一个非常强有力的声明。

考虑你的测试集是从正确的测试分布中抽取的N个样本IID组成的。成功率可以表示为一个二项式变量,其平均概率p由样本平均值估计:p ≅ s / N

  • 其标准差为:σ=√p(1-p)。
  • 其中当p=0.5时,其上限为0.5。
  • 在正态近似下,估计量的标准差为:δ=σ/√N。

这个精度估计上的误差δ 是这样的,在最坏的情况下,有约50%的精度:

换句话说,为了保证上述报告中例子52.34%的准确率,你的测试集的大小至少应该在30M样本的数量级上!这种粗略的分析很容易转化为除了准确率以外的任何可计算的数量,尽管不能转化为像似然率或困惑度这样的连续数字。

下面是一些常见的机器学习数据集的说明。

在ImageNet上可以合理地报告多少位数的精度?准确率在80%左右,测试集是15万张图片:

  • √(0.8*0.2/150000) = 0.103%

这意味着你几乎可以报告XX.X%的数字,而实际上每个人都是这样做的。

MNIST呢,准确率在99%:

  • √(0.99*0.01/10000) = 0.099%

噗,也报个XX.X%就OK了!

然而,最值得注意的是,在大多数情况下,性能数据并不是单独呈现的,而是用来比较同一测试集上的多种方法。在这种情况下,实验之间的抽样方差会被抵消,即使在样本量较小的情况下,它们之间的准确度差异也可能在统计学上很显著。估计图方差的一个简单方法是执行bootstrap重采样。更严格、通常更严格的检验包括进行配对差异检验或更普遍的方差分析。

报告超出其内在精度的数字可能很具有极大的吸引力,因为在与基线进行比较的情况下,或者当人们认为测试集是一成不变的情况下,同时也不是从测试分布中抽取的样本时,性能数字往往更加重要。当在生产中部署模型时,这种做法会让人感到惊讶,并且固定的测试集假设突然消失了,还有一些无关紧要的改进。更普遍的是,这种做法会直接导致对测试集进行过拟合。

那么,在我们的领域中数字为“真”意味着什么?好吧,这确实很复杂。对于工程师而言,很容易辩称不应该报告的尺寸超出公差。或者对于物理学家来说,物理量不应超过测量误差。对于机器学习从业者,我们不仅要应对测试集的采样不确定性,而且还要应对独立训练运行,训练数据的不同初始化和改组下的模型不确定性。

按照这个标准,在机器学习中很难确定哪些数字是 "真 "的。解决办法当然是尽可能地报告其置信区间。置信区间是一种更精细的报告不确定性的方式,可以考虑到所有随机性的来源,以及除简单方差之外的显着性检验。它们的存在也向你的读者发出信号,表明你已经考虑过你所报告的内容的意义,而不仅仅是你的代码所得到的数字。用置信区间表示的数字可能会被报告得超出其名义上的精度,不过要注意的是,你现在必须考虑用多少位数来报告不确定性,正如这篇博文所解释的那样。一路走来都是乌龟。

数字少了,杂乱无章的东西就少了,科学性就强了。

避免报告超出统计学意义的数字结果,除非你为它们提供一个明确的置信区间。这理所当然地被认为是科学上的不良行为,尤其是在没有进行配对显著性测试的情况下,用来论证一个数字比另一个数字好的时候。仅凭这一点就经常有论文被拒绝。一个良好的习惯是对报告中带有大量数字的准确率数字始终持怀疑态度。还记得3000万、30万和30万的经验法则对最坏情况下作为“嗅觉测试”的统计显著性所需样本数量的限制吗?它会让你避免追逐统计上的“幽灵”。

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

【编辑推荐】

  1. AI可以复制任何人类声音:这对播客意味着什么?
  2. Linux 黑话解释:什么是包管理器?它是如何工作的?
  3. 5G支持下,人工智能除了AI换脸,还能干什么?
  4. 苹果、谷歌等遭殃了!欧盟“禁令”来临,数据将共享
  5. 用图形解释10种图形算法

机器学习中的数学意义相关推荐

  1. 机器学习中的数学:一份新鲜出炉的热门草稿

    来源:机器之心 本文约1500字,建议阅读5分钟. 本文为你分享近日<Mathematics for Machine Learning>的全部草稿已放出,我们整理了这本书的简要概述. 近日 ...

  2. 机器学习中的数学(六)--信息论与激活函数

    写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...

  3. 机器学习中的数学(二)--梯度下降法

    写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...

  4. 机器学习中的数学(1):MIT大牛写的综述

    " 想要深入了解机器学习和深度学习背后的数学支撑?想要避免成为调包侠?想要做更前沿更基础的研究?不仅是 Import xxx as xx,这里是***"机器学习中的数学" ...

  5. 机器学习中的数学——遗传算法(Genetic Algorithm)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  6. 机器学习中的数学修炼(含勘误表!)

    机器学习中的数学修炼--为你打开一道通往机器学习世界的数学之门 数学是机器学习和数据科学的基础,任何期望涉足相关领域并切实领悟具体技术与方法的人都无法绕过数学这一关.本书系统地整理并介绍了机器学习中所 ...

  7. 机器学习中的数学:线性代数

    专栏亮点 围绕主要脉络,贯穿整个学科:紧紧围绕空间变换这个线性代数的主要脉络,深刻理解如何用空间表示数据.用空间处理数据.用空间优化数据,用一条线索贯穿整个学科的主干内容. 聚焦四大纬度,筑牢知识体系 ...

  8. 机器学习中的数学:概率统计

    内容亮点 详解 6 大核心板块:概率思想.随机变量.统计推断.随机过程.采样理论.概率模型,筑牢机器学习核心基础. 教你熟练使用 Python 工具库:依托 NumPy.SciPy.Matplotli ...

  9. 机器学习中的数学(全集)

    在当下,机器学习.人工智能领域吸引了许多同学投身其中,其中包含了大量非科班出身或者从其他行业切换赛道转行而来的朋友们,大家在学习的过程中发现学习曲线陡峭.难度较大,普遍的心声就是:机器学习难,首要就是 ...

最新文章

  1. 随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下
  2. JavaScript 学习笔记3
  3. python中如何打开csv文件_在Python中从CSV文件读取数据
  4. YYModel Summary
  5. python3 class init_python3 module中__init__.py的需要注意的地方
  6. Moodl:集成密码,消除错误phpCAS error: phpCAS::client(): type mismatched for parameter $se
  7. windows server 2008 大量拷贝后释放内存
  8. 塞班时代JAVA_回忆S60(塞班)年代的JAVA游戏:有没有哪一款是你在课堂偷偷玩的...
  9. python实现触摸精灵功能_FRIDA脚本系列(三)超神篇:百度AI“调教”抖音AI
  10. redis 默认过期策略_redis过期策略
  11. java打包文件生成zip压缩包
  12. 最优化理论与方法(袁亚湘 孙文瑜)笔记(二)
  13. linux下关闭acpi电源管理模块
  14. 【Python】遗传算法求解二元函数最值
  15. 调整计算机繁体,在线繁体转换
  16. elementUI Tree组件实现双击事件
  17. Redefinition of typedef is a C11 feature
  18. Springboot项目引入Bootstrap后,图标不能正常显示,报:Failed to decode downloaded font
  19. Java微信公众平台开发之群发接口(高级群发)
  20. JavaScript 网页购物车项目

热门文章

  1. 缩放浏览器不会换行_深入了解现代浏览器之三 - 渲染
  2. 人工智能数理基础 · 前沿系列报告议程 第 6 期
  3. 这 100 个心理学知识你必须了解
  4. 贪吃蛇游戏(java)
  5. 机器学习实战 | 意大利Covid-19病毒感染数学模型及预测(附代码)
  6. 独家 | 快速掌握spacy在python中进行自然语言处理(附代码链接)
  7. 全国首个5G+AI的智慧交通管理示范应用成功开通!
  8. 真正的 AI 内行盛会!智源大会带你刷新“世界第一”记录!
  9. 牛!这位斯坦福PhD新生的论文被引数:接近4万
  10. 2021 AAAS Fellow名单出炉!图灵奖得主Yan LeCun、联想芮勇等多位人士入选