周志华西瓜书学习笔记

第一章 绪论

数据处理分为三个阶段:收集,分析,预测。

一、基本概念

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

Mitchell给出的更形式化的定义为:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们就可以说T和P,该程序对E进行了学习。

(一)泛化(generalization)

学得的模型适用于新样本的能力,称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。

(二)独立同分布(i.i.d)

通常假设样本空间的全体样本服从一个未知的分布(distribution),我们获得的每一个样本都是从整个样本空间中采样获得的,即“独立同分布”(independent and identically distributed, i.i.d)

二、假设空间大小计算

以文中的西瓜为例,求出假设空间:

这里我们的假设空间由形如“(色泽=?)^ (根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。

色泽有“青绿”和“乌黑”两种取值,还需考虑无论色泽取什么值都合适的情况,用通配符(*)表示。色泽属性共三种取值;

根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值,同理再加通配符(*)表示,根蒂属性共四种取值;

敲声有“浊响”、“清脆”和“沉闷”三种取值,同理再加通配符(*)表示,敲声属性共四种取值;

还有一种假设组成——可能"好瓜”这个概念就不成立,我们用∅表示这种假设。

那么,所对应的假设组成的个数为:3x4x4+1=49. 即表1所对应的假设空间的规模大小为49. 其中:

具体假设: 2x3x3=18 种

一个通配符:2x3+3x3+2x3=21种

两个通配符:2+3+3=8 种

三个通配符:1种

概念不存在:1种

三、归纳偏好(inductive bias)

机器学习中对于某种假设类型具有特殊的偏好,成为归纳偏好(inductive bias),任何一个有效的机器学习算法必然都有其归纳偏好,否则无法产生确定的有意义的学习效果,会被“等效”的各个假设所迷惑。

(一)归纳原则——奥卡姆剃刀(Occam’s razor)

Occam’s razor是自然科学研究中最基本的原则,“若有多个假设与观察结果意志,则选用最简单的那个”,更平滑意味着更简单。

(二)没有免费的午餐定理——NFL(No Free Lunch)定理

对于某一个算法A,在一些问题上的表现优于算法B,必然存在某些问题的表现劣于算法B。

NFL定理出现前提:所有问题出现机会相同,所有问题同等重要。
NFL定理的意义是:脱离了问题本身,讨论哪种算法更好将没有任何意义。若考虑所有潜在问题,所有算法一样好,要谈论算法的优劣,必须要针对具体的学习问题。

周志华西瓜书学习笔记(一)相关推荐

  1. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  2. 《机器学习》(周志华)西瓜书读书笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 神经网络 第7章 贝 ...

  3. 周志华西瓜书课后习题答案总目录

    https://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华西瓜书)参考答案总目录 从刚开始学习机器学习到现在也有几个月了,期 ...

  4. 周志华西瓜书3.4题——用十折交叉验证法和留一法估计对率回归的误差

    周志华西瓜书3.4题. 本文所编写的代码均使用python3.7进行调试,依靠的sklearn进行的实验. 第一步,导入iris数据集,数据集使用sklearn包里面自带的. from sklearn ...

  5. 周志华西瓜书《机器学习》习题提示——第2章

    2.1:分层采样, [ ( 500 500 × 70 % ) ] 2 \left[ \binom{500}{500\times 70\%} \right]^2 [(500×70%500​)]2 2.2 ...

  6. 周志华西瓜书第三章学习笔记

    第三章学习笔记 文章目录 第三章学习笔记 1.知识脉络 2.我的笔记 参考 1.知识脉络 2.我的笔记 这一章公式推导实在太多了,需要补充的推导过程也有很多,就不写电子档了.扩展公式推导和LDA部分补 ...

  7. 周志华西瓜书公式勘误(一)之公式2.27勘误

    刚开始读周志华老师的机器学习西瓜书,读到第38页时感觉公式2.27的公式有误,照书上的理解怎么也说不通,网上搜一下,果然发现知乎上有人提问.可惜知乎上的回答也不能让人满意,不仅罗里吧嗦,还满屏公式让人 ...

  8. 周志华西瓜书 10 个算法详细视频

    (文末有福利) 如果你现在准备开始学习,我想你的第一步就是先囤课!打开你的百度云,发现内存已达到80%!打开你的收藏夹,链接已经100+!仿佛我囤了,就代表我学了! 可是,真的有认真看吗? 可能囤积这 ...

  9. 机器学习(周志华西瓜书) 参考答案 总目录

    转自:http://blog.csdn.net/icefire_tyh/article/details/52064910 从刚开始学习机器学习到现在也有几个月了,期间看过PDF,上过MOOC,总感觉知 ...

最新文章

  1. SqlDataSource 執行資料篩選
  2. java mongodb 使用MongoCollection,BasicDBObject 条件查询
  3. LENOVO 充到60%就会停止充电
  4. 1000种对Java的响应没有死
  5. Linux内核设计与实现 总结笔记(第五章)系统调用
  6. 2019世界大学排名全新出炉!清华北大排名大幅下滑?
  7. 创业者创业之前,应该思考如下这些问题
  8. linux svn 版本安装,有人有linux版本的svn安装包吗
  9. 转载:互联网盈利模式
  10. 3分钟tips:什么是特征向量?什么是特征值?
  11. out.print 嵌套html代码_代码规范之前端编写码规范
  12. 高通CSR8675蓝牙音频芯片怎么样?CSR8675处理器参数介绍
  13. 【机器学习】python实现非线性回归(以中国1960-2014GDP为例)
  14. 电脑服务器删除的文件如何复原,电脑怎么恢复文件_彻底删除的文件如何恢复...
  15. 谷歌邮箱lmap服务器填什么_google邮箱设置方法是什么?
  16. #4036. 企鹅的游戏(penguin)
  17. 认知LTE簇优化和全网优化
  18. Python爬虫 selenium自动化 利用搜狗搜索爬取微信公众号文章信息
  19. 袁国勇、裴伟士、张杰和施敏四位科学家获2021未来科学大奖
  20. ctf中linux内核态的漏洞挖掘与利用系列1

热门文章

  1. 怎么洗掉衣服上的水粉颜料、丙烯颜料、水彩颜料、油画颜料
  2. 2977:生理周期(枚举)
  3. ubuntu下安装飞鸽传书
  4. C/C++黑魔法-字符串分割
  5. 清华小学上册计算机教学案例,案例分析 清华小学 罗远琴
  6. onenote for windows 10 部分内容不能同步解决方法
  7. YAML第一章 基本概念及语法
  8. Pytorch 冻结网络层
  9. Android第一行代码——第三章:控件的使用方法5A-00-1A-C4-8C-55(2009+jjy)
  10. openwrt 15.05 branch (Chaos Calmer)编译出的固件bootargs被覆盖