注:本文是对极客时间《机器学习40讲》之《频率视角下的机器学习》的阅读记录。

大纲

  • 频率

    • 事件发生的频率的极限值
  • 统计学
    • 参数确定,数据随机
    • 参数估计
  • 统计机器学习
    • 损失函数
    • 经验风险

频率学派

对于概率的解读,有两种不同的解读方式,这两种不同的思维方式导致了对机器学习的两种截然不同的解读。

机器学习的任务是基于现有的数据来构造模型,然后利用模型对未知数据进行预测分析。事件本身的发生是一种概率模型,因此对概率的认知方式不同,决定着对模型本质的理解,构造方式有着天然的差异。

在频率学派眼中,概率是什么呢?

答案是:事件发生的频率的极限值。

对于这个的理解,实际上我们是常常无意识的在应用这个观点的,比如数学课本上会用抛硬币很多次统计正反面出现的频率,计算出正反面出现的比例,就作为概率来使用。

一个显然的常识是,抛的次数太少,是无法得到50%这样的概率值的,只有抛得够多,比如上千次,上万次,大概频率的比值会收敛到50%左右。

事实上,频率学派眼中,当重复试验的次数趋近于无穷大时,事件发生的频率会收敛到概率之上。 – 《机器学习40讲》

在这个常识背后,隐藏着一个前提,那就是:概率是一个确定的值,不会受到单次观察结果的影响。

在频率学派的眼里,待估计的参数是固定不变的常量,即参数不是概率分布,而在参数主导下的观测数据,因为噪声和各种干扰的存在,反倒是随机变量

即,数据分布的波动,不是来源于参数的分布,而是有限次观察造成的干扰。

统计机器学习的核心是从数据中来,到数据中去,通过对数据进行拟合,逼近背后的规律,然后应用规律去预测分析未知的数据。

采样分布与最大似然估计

统计学习的核心任务:利用从总体中抽取的样本来估计未知的总体参数。

样本数据本身的分布,被称之为采样分布,注意频率学派将样本数据视作随机变量,所以在确定了样本的分布后,对总体的参数估计的任务就变为一个最优化问题

比如频率学派常用的最大似然估计

最大似然估计的目标

最大似然估计在概率论与数理统计这门课程里,我们一般只学会了如何利用它,而没有去深究背后的道理。

最大似然估计的目标非常明确,就是让似然概率最大化。换句话说,就是在总体参数固定的情况下(这是频率学派的基本假设),让数据出现的条件概率最大化

什么是似然函数?

似然函数就是概率的反过程,已知实验结果,去估计参数的过程。

  • 概率是给定某一参数值,求某一结果的可能性。
  • 似然是给定某一结果,求某一参数值的可能性。

当给出一次观察结果,我们可以对这个观察结果,可以是一次,也可以是多次,构建一个关于参数的函数,结合着频率学派的一个基本出发点:

一组数据之所以能在单次试验中出现,是因为它出现的可能性最大

于是我们可以将这个关于参数的函数最大化,即赋予观测数据最大似然概率的过程,就是参数估计的过程。

简单总结一下就是:频率学派解决统计问题的基本思路就是,参数确定,数据随机。利用随机的数据来推断确定的参数,所以得到的结果也是随机的。

即使上帝真的掷色子,但从色子脱手的那一刻起,它的点数就不再受上帝的控制。 – 《机器学习40讲》

统计机器学习的做法

由频率学派的基本教义出发,可以得出统计学习的一般做法。

那就是,对给定的指标,如似然函数或者是均方误差,进行最优化,来估计模型中的参数取值。

统计机器学习的核心特征:“与参数相关的信息完全来自数据。”

损失函数

观测数据并不能精确反映未知参数,因为有噪声和干扰的存在。但我们还是需要对估计的结果的精度进行衡量,这个度量就交给了损失函数。

损失函数的期望则被称之为风险。将风险最小化就是参数估计的依据和准则。

但是,这个过程如下:

数据的分布需要未知参数的精确取值 --> 在数据的概率分布上对损失函数积分–> 计算风险 --> 估计最优参数

可以看出首尾依赖,而末尾则是我们的目的,所以这是个循环依赖问题。

对于频率学派而言,这个问题简单描述就是:风险函数是无法精确求解的。

为了应对这个问题,统计机器学习引入了新的概念:经验风险

即:用训练数据的经验分布来替换数据的真实分布。

END.

https://www.zhihu.com/question/54082000/answer/145495695
http://blog.sina.com.cn/s/blog_e8ef033d0101oa4k.html

【阅读笔记】频率视角下的机器学习相关推荐

  1. 贝叶斯视角下的机器学习

    文章目录 一.从一个例子开始讲起 1. 最大似然估计(Maximum Likelihood Estimation) 2. 最大后验估计(Maximum A Posteriori Estimation) ...

  2. AQS源码阅读笔记(一)

    AQS源码阅读笔记 先看下这个类张非常重要的一个静态内部类Node.如下: static final class Node {//表示当前节点以共享模式等待锁static final Node SHA ...

  3. 图情笔记 | 基于机构视角下的红色资源阅读推广服务

    文章目录 红色资源推广现状 如何进行红色资源推广服务? 总结 参考文献 红色资源推广现状 红色资源即红色文化资源,通常指dang领导中国人民在长期革命实践过程中所形成的物质或精神形态的历史遗存,在内容 ...

  4. 【机器学习】机器学习视角下的因果推断

    机器学习可以通过样本直接匹配以及提升倾向性得分(PSM)准确度来实现样本的精准匹配,使得样本对反事实预测的研究更具有随机化实验的特性.本文从匹配法.断点回归法.双重差分法.合成控制法四个方面讲解机器学 ...

  5. 文献:三维视觉前沿进展 大场景下的视觉定位阅读笔记

    文献:龙霄潇,程新景,朱昊,张朋举,刘浩敏,李俊,郑林涛,胡庆拥,刘浩,曹汛,杨睿刚,吴毅红,章国锋,刘烨斌,徐凯,郭裕兰,陈宝权.三维视觉前沿进展[J].中国图象图形学报,2021,26(06):1 ...

  6. 如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629 原文:How we built Tagger News: machine learning on a

    如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629  原文:How we built Tagger News: machine learning on a ti ...

  7. 《机器学习》阅读笔记(三)

    <机器学习>阅读笔记(三) 3 线性模型(linear model) 3.1 基本形式 设 ddd:属性个数 x=(x1;x2;-;xd)\boldsymbol{x}=(x_1;x_2;\ ...

  8. 公司U07 随机变量视角下的NPV估值 教材笔记

    这个系列是对罗斯<公司理财>教材的笔记汇总,参考了CPA<财务成本管理>教材和茆诗松<概率论与数理统计>.备考金融硕士431专业课时写下公司理财和投资学的教材.习题 ...

  9. 《机器学习》阅读笔记 第三章

    Contents 1. 不同学科中的线性模型[^1] 2. 线性模型:回归任务 2.1 估计方法 2.2 正则化 2.3 广义线性模型 3. 线性模型:分类任务 3.1 对数几率回归 线性判别分析(L ...

最新文章

  1. 【ACM】Doubly Linked List(STL list)
  2. ROS-3 : Catkin工作空间和ROS功能包
  3. 033_CSS相对定位
  4. 关于Netty的入门使用
  5. Java-GUI编程实战之管理系统 Day2【Swing(组件介绍、布局管理器、事件类及监听器类)、基础组件按钮和输入框的用法】
  6. cocos2d python文档_【Cocos2D-X 学习笔记】Cocos2D-x 3.0+VS开发环境搭建[使用Python]
  7. leetcode-12-整数转罗马数字
  8. 循环控制_break语句
  9. widedeep 在贝壳推荐场景的实践
  10. datatable中某一列最小值_Asp.net中获取DataTable选择第一行某一列值
  11. win08跟linux,Win 8 PK Linux!八大优势助微软完胜
  12. SEO哪些因素会照成百度排名不稳定
  13. matlab全局变量_MATLAB笔记(一):工具箱的卸载、阻尼振动波形图程序
  14. 怪事总是发生我身上,铜证如山
  15. 域名备案和网站备案是一个意思吗?
  16. whisper数据库
  17. antd输入框禁止回车
  18. 写作历时一个月,长达8000字的年终总结——[2022年终总结]不要怕,请勇敢的向前走
  19. 图表控件TeeChart安装使用
  20. 快速集成百度定位功能

热门文章

  1. opencv-contrib-Python编译module ‘cv2.cv2‘ has no attribute ‘xfeatures2d‘
  2. 信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离
  3. php按按字符串长度分割,支持中文的PHP按字符串长度分割成数组代码_PHP
  4. 自动基线校正 python_安全运维中基线检查的自动化之ansible工具巧用
  5. /proc/cpuinfo_Linux中的/ proc / cpuinfo和/ proc / meminfo文件
  6. 斯威夫特山地车_斯威夫特枚举
  7. python 开关_Python开关盒
  8. python子进程异常结束_Python子进程
  9. Android CoordinatorLayout
  10. Objective-C中的NSNumber和NSString