奥卡姆剃刀(Occam's Razor).    奥卡姆剃刀(Occam's Razor, Ockham's Razor)是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam)提出的一个原理。这个原理称为“如无必要,勿增实体”(Entities should not be multiplied unnecessarily)。有时为了显示其权威性,人们也使用它原始的拉丁文形式[引自Phil Gibbs]:
Pluralitas non est ponenda sine necessitate.
Frustra fit per plura quod potest fieri per pauciora.
Entia non sunt multiplicanda praeter necessitatem.
这句话听起来比较像英语中的If it is not broken, do not fix it。但它实际表达的是The simplest explanation is usually the best one[wiki]。
吴军的数学之美系列中,我印象比较深的一句话是:一个正确的数学模型应当在形式上是简单的。所以一见到用一些算法试图提高某一个算法的论文,尤其是没什么特殊原因的情况下,我总是有想吐的感觉。为什么总有人来恶心我呢?Any intelligent fool can make things bigger, more complex, and more violent. It takes a touch of genius— and a lot of courage— to move in the opposite direction [Einstein] (任何一个有智力的笨蛋都可以把事情变得更大,更复杂,更暴力,但是向相反的方向前进却需要一点天赋和极大的勇力)。
当然简单不是绝对的简单。Everything should be made as simple as possible, but not simpler [Einstein]。这句话解释了我们为什么往往用二次函数,而不选择线性函数或高次函数去按拟合的原因。
Ensemble
Ensemble有几个比较有意思的地方:
1.    如果分类器效果都比较差,它可能会较大的提高效果。
2.    如果分类器效果都比较好,一般不会提高多少
3.    如果是异种分类器Ensemble,尤其是引入了分类效果不好的分类器,会导致Ensemle的分类效果不如分类能力最强的分类器。
第一点说明了,民主投票往往在参与者能力都不强的情况下最有意义,第二点说明了,如果参与者能力都很强,民主意义也不太有意义(有点英雄所见略同的味道)。第三点最为重要,一般分类效果比较差的分类器学习速度非常快,所以我们对它的分类能力差也能容忍。而这个情况在民主决定时是正好相反的,往往得出最可笑结论的人,他的学习能力也是非常差,要在讨论过程中不断向他解释,回答他那些毫无意义的问题。最重要的是,如果是一群笨蛋控制了投票,民主就是一个笑话。
那么可以得出,民主应该只在大部分人可以做出正确结论的条件下,才是最有意义的。
Transduction    在半监督算法中,有Transductive Learning和Instructive Learning之分。Vapnik曾经提出了一个哲学原则。
Vapniks principle: When trying to solve some problem, one should not solve a more difficult problem as an intermediate step.    大意是:当试图去解决一个(些)问题的过程中,一个人不应该在去解决比这个更困难的问题作为中间步骤。这句话初听起来似乎make no sense. 中间步骤怎么会比最终问题还困难呢?举例来说:我想通过政治考试,但是我非常不喜欢学政治(我在这些方面还是很正常的),老师也了解我们,给我们划好了考试范围,那么我当然只背范围中出现的。相反那种通过先读《资本论》,再看《毛选》方式来通过考试的人,就违背了这个原则。
概念漂移
“You cannot step twice into the same stream. For as you are stepping in, other waters are ever flowing on to you.”[Heraclitus][Olfa Nasraoui],你无法再次走入相同的河流,因为你再次走入时,流过你的已经是不同的水。
这就是过分沉湎历史的人无法正确把握今天和未来的原因。
“In rivers, the water that you touch is the last of what has passed and the first of that which comes; so with present time.”[Leonardo da Vinci],在河流中,你接触的水是过去的结束和未来的开始,也是当前的时间。
今天的概念才与未来的概念最接近,而不是过去。
“No man ever steps in the same river twice, for it's not the same river and he's not the same man.”[Heraclitus]。结合起来就是物非人非,这句话在数据流学习时仍然可能成立,因为有的学习算法是具有随机性质的。
历史若是被看成是一种纯知识,并允许来左右智力,那么它对人们而言,就是最终平衡生活收支的东西。只有循着一个强大,散发着活力的影响力,比如一个新的文化体系(在数据流挖掘中,它也就是采用什么框架),历史研究对未来才是有利的——只此,只能是它被一下更高的力量引导和控制,而不是它本身引导和控制其它力量。[尼采]
参考:
http://bsd.vcgood.com/showarticle.php?id=9364

Thinking In Machine Learning相关推荐

  1. bff v2ex_语音备忘录的BFF-如何通过Machine Learning简化Speech2Text

    bff v2ex by Rafael Belchior 通过拉斐尔·贝尔基奥尔(Rafael Belchior) 语音备忘录的BFF-如何通过Machine Learning简化Speech2Text ...

  2. 吴恩达新书《Machine Learning Yearning》完整中文版 PDF 下载!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale资源 推荐人:GithubDaily,Datawhale伙伴 <Mach ...

  3. 吴恩达《Machine Learning》Jupyter Notebook 版笔记发布!图解、公式、习题都有了

    在我很早之前写过的文章<机器学习如何入门>中,就首推过吴恩达在 Coursera 上开设的<Machine Learning>课程.这门课最大的特点就是基本没有复杂的数学理论和 ...

  4. 吴恩达新书《Machine Learning Yearning》完整中文版开源!

    选自Github 来源:机器学习算法与自然语言处理 吴恩达新书<Machine Learning Yearning>完整中文版开源,整理给大家. <Machine Learning ...

  5. Auto Machine Learning 自动化机器学习笔记

    ⭐适读人群:有机器学习算法基础 1. auto-sklearn 能 auto 到什么地步? 在机器学习中的分类模型中: 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分 ...

  6. 机器学习与优化基础(Machine Learning and Optimization)

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|新机器视觉 引用大佬Pedro Domingos的说法: ...

  7. Machine Learning | (12) 非监督学习-k-means

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  8. Machine Learning | (11) 回归性能评估与欠拟合、过拟合

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  9. Machine Learning | (10) 回归算法-岭回归

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  10. Machine Learning | (9) 回归算法-线性回归

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

最新文章

  1. Html5 aside标签的用法和作用
  2. 程序员的比较工具大杂烩
  3. redis 主从模式_Redis主从模式部署文档
  4. terminal 常用 快捷键
  5. weblogic 扫描不到jar包的类问题解决方案
  6. Django 遇到的错误:expected str, bytes or os.PathLike object, not _io.TextIOWrapper
  7. python时间模块提取时间_【转载】python自动提取文本中的时间(包含中文日期)...
  8. (剑指Offer)面试题55:字符流中第一个不重复的字符
  9. HDOJ-1232 畅通工程
  10. 工控安全| 西门子S7-300攻击分析
  11. 微生活时光机:去项目中挖掘JS模块化简史
  12. VScode常用插件(C/C++开发)
  13. 从业老学姐Python经验分享,别再相信培训机构“爬虫好学”的鬼话了,少走弯路!
  14. 6-ipv6基础知识之-有状态和无状态自动配置
  15. 数据库和MySQL的简单介绍
  16. 会计学测试(所得税、未分配利润)
  17. PPT转MP4和生成验证码
  18. no main manifest attribute maven package 运行打包后的jar包报错:xxx.jar中没有主清单属性 通过配置 maven plugin 解决
  19. 北理889考研经验帖
  20. python 色卡,如何使用opencv创建实验室色卡?

热门文章

  1. [云炬创业基础笔记]第五章创业机会评估测试7
  2. 云炬创业政策学习笔记20210116
  3. [云炬ThinkPython阅读笔记]1.7 调试
  4. 业务场景是什么意思_深度思考:麦乐积分兑换商城系统业务逻辑
  5. QFileDialog::getOpenFileName
  6. 我也聊聊串口通信协议:用户层通信协议的编制
  7. 阿拉伯数字转为罗马数字
  8. 经典问题:向setTimeout传递函数参数
  9. libevent中指定使用哪种方法如select
  10. python字典 items函数