机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。

不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。

问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢?

很多人可能没有意识到,所谓的machine learning community,现在至少包含了两个有着完全不同的文化、完全不同的价值观的群体,称为machine learning "communities"也许更合适一些。

第一个community,是把机器学习看作人工智能分支的一个群体,这群人的主体是计算机科学家。

现在的“机器学习研究者”可能很少有人读过1983年出的“Machine Learning: An Artificial Intelligence Approach”这本书。这本书的出版标志着机器学习成为人工智能中一个独立的领域。它其实是一部集早期机器学习研究之大成的文集,收罗了若干先贤(例 如Herbert Simon,那位把诺贝尔奖、图灵奖以及各种各样和他相关的奖几乎拿遍了的科学天才)的大作,主编是Ryszard S. Michalski(此君已去世多年了,他可算是机器学习的奠基人之一)、Jaime G. Carbonell(此君曾是Springer的LNAI的总编)、Tom Mitchell(此君是CMU机器学习系首任系主任、著名教材的作者,机器学习界没人不知道他吧)。Machine Learning杂志的创刊,正是这群人努力的结果。这本书值得一读。虽然技术手段早就日新月异了,但有一些深刻的思想现在并没有过时。各个学科领域总有不少东西,换了新装之后又粉墨登场,现在热火朝天的transfer learning,其实就是learning by analogy的升级版。

人工智能的研究从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,是有一条自然、清晰的脉络。人工智能出身的机器学习研究者,绝大部分是把机器学习作为实现人工智能的一个途径,正如1983年的书名那样。他们关注的是人工智能中的问题,希望以机器学习为手段,但具体采用什么样的学习手段,是基于统计的、代数的、还是逻辑的、几何的,他们并不care。

这群人可能对统计学习目前dominating的地位未必满意。靠统计学习是不可能解决人工智能中大部分问题的,如果统计学习压制了对其他手段的研究,可能不是好事。这群人往往也不care在文章里show自己的数学水平,甚至可能是以简化表达自己的思想为荣。人工智能问题不是数学问题,甚至未必是依靠数学能够解决的问题。人工智能中许多事情的难处,往往在于我们不知道困难的本质在哪里,不知道“问题”在哪里。一旦“问题”清楚了,解决起来可能并不困难。

第二个community,是把机器学习看作“应用统计学”的一个群体,这群人的主体是统计学家。

和纯数学相比,统计学不太“干净”,不少数学家甚至拒绝承认统计学是数学。但如果和人工智能相比,统计学就太干净了,统计学研究的问题是清楚的,不象人工智能那样,连问题到底在哪里都不知道。在相当长时间里,统计学家和机器学习一直保持着距离。

慢慢地,不少统计学家逐渐意识到,统计学本来就该面向应用,而机器学习天生就是一个很好的切入点。因为机器学习虽然用到各种各样的数学,但要分析大量数据中蕴涵的规律,统计学是必不可少的。统计学出身的机器学习研究者,绝大部分是把机器学习当作应用统计学。他们关注的是如何把统计学中的理论和方法变成可以在计算机上有效实现的算法,至于这样的算法对人工智能中的什么问题有用,他们并不care。

这群人可能对人工智能毫无兴趣,在他们眼中,机器学习就是统计学习,是统计学比较偏向应用的一个分支,充其量是统计学与计算机科学的交叉。这群人对统计学习之外的学习手段往往是排斥的,这很自然,基于代数的、逻辑的、几何的学习,很难纳入统计学的范畴。

两个群体的文化和价值观完全不同。第一个群体认为好的工作,第二个群体可能觉得没有技术含量,但第一个群体可能恰恰认为,简单的才好,正因为很好地抓住了问题本质,所以问题变得容易解决。第二个群体欣赏的工作,第一个群体可能觉得是故弄玄虚,看不出他想解决什么人工智能问题,根本就不是在搞人工智能、搞计算机,但别人本来也没说自己是在“搞人工智能”、“搞计算机”,本来就不是在为人工智能做研究。

两个群体各有其存在的意义,应该宽容一点,不需要去互较什么短长。但是既然顶着Machine Learning这个帽子的不是“一伙儿”,而是“两伙儿”,那么要“跟进”的新人就要谨慎了,先搞清楚自己更喜欢“哪伙儿”。

引两位著名学者的话结尾,一位是人工智能大奖得主、一位是统计学习大家,名字我不说了,省得惹麻烦:

“I do not come to AI to do statistics”

“I do not have interest in AI”

from:http://hi.baidu.com/macula7/blog/item/8a3f22cd9587f81a00e92829.html

机器学习是什么--周志华相关推荐

  1. 重磅大礼!100本《机器学习》by周志华,免费送!

    我  相  信  这  么  优秀  的  你 已  经  置 顶  了  我 亲爱的小伙伴们~ 我可想死你们啦! 福利小编再次上线 继续给大家送温暖~ 100本! <机器学习> by 周 ...

  2. 机器学习是什么——周志华

    机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来. 不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧. 问题是,真有个"大伙儿& ...

  3. 根据《机器学习》(周志华)第五章内容,用Python实现标准BP算法

    BP神经网络由一层输入层.任意隐层(一般为1).一层输出层组成.假定输入向量为n维向量,即输入神经元数量为n,隐层的层数为num,每一层隐层的神经元数量为eachCount,输出向量为yCount维向 ...

  4. 机器学习 (南京大学周志华的《机器学习》和李航的《统计学习方法》)

    机器学习的三种不同方法: 一.监督学习(supervised learning)--对未来事件进行预测.使用有类标的数据构建数据模型.然后使用经训练得到的模型对未来的数据进行预测. 主要分为两类: 1 ...

  5. 《机器学习》(周志华)线性回归

    一.线性模型介绍 1.线性回归的基本形式 向量形式: 均方误差最小 求导: 令求导的数等于0 多元线性回归的矩阵表示: 均方误差最小: 对w求导得: 二.python多元线性程序 1.数据集描述: 数 ...

  6. 张小贤的平凡之路---机器学习之聚类---周志华《机器学习》

    聚类 1. 聚类的概念 1.1 层次聚类 1.2 k 均值聚类 2. 聚类中的基本概念 2.1 相似度或距离 2.1.1 闵可夫斯基距离 2.1.2 马哈拉诺比斯距离 2.1.3 相关系数 2.1.4 ...

  7. #《机器学习》_周志华(西瓜书)南瓜书_第6章 支持向量机

    待做: P134-P139理论部分 整理习题,补充 问题: 1.距离计算 2.线性核和高斯核? 第6章 支持向量机 6.1 间隔与支持向量 基于训练集DDD在样本空间中找到一个划分超平面. 对训练样本 ...

  8. 【强烈推荐】Github star 10K+,周志华机器学习详细公式推导!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! [导读]:今天给大家推荐一本超级nice的机器学习理论推导书籍,它就是<西瓜 ...

  9. 周志华 《机器学习初步》 绪论

    周志华 <机器学习初步> 绪论 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步> 绪论 一.机器学习 二.典型的机器学习过程 三.计算学习理论 ...

最新文章

  1. Nignx集成fastDFS后访问Nginx一直在加载中解决
  2. js中 let var const 的差异和使用场景
  3. [转]Format a ui-grid grid column as currency
  4. c语言程序如何实现递减,写一个程序让非递减变成非递增,用C语言。一个程序用两个函数...
  5. joomla个性定制(二)
  6. 量子计算机是二进制码,知识丨量子计算
  7. 云计算运维累不累_关于云计算运维管理要点的知识分享
  8. 判断是否存在此对象_JVM的垃圾回收机制,判断对象是否死亡
  9. 高性能平台设计—美团旅行结算平台实践
  10. python土味情话_Python 将土味情话语录设置为桌面壁纸
  11. 数列分段(信息学奥赛一本通-T1428)
  12. 计算机组成原理页表长度,计算机组成原理(2)-虚拟存储器
  13. Highcharts数据可视化工具功能效果图详解
  14. python绘制相频特性曲线_python skimage图像处理(二)
  15. 转:开源项目学习方法ABC
  16. 《深入解析Windows操作系统》要点整理
  17. fseek函数、ftell函数、rewind函数详解
  18. java学习篇(一)---从网络下载图片
  19. showToast的使用
  20. 谷歌发现利用零日漏洞的攻击、黑客通过漏洞入侵红十字会|2月17日全球网络安全热点

热门文章

  1. 【Leetcode】创建链表
  2. 关于h5py的使用及数据封装实例
  3. 测试设计中需要考虑的22种测试类型
  4. PC 机 UART(NS8250)详解
  5. 虚拟机上的Ubuntu如何无线上网
  6. 【快乐水题】412. Fizz Buzz
  7. SecureCRT 或者 超级终端 始终无法ping通主机
  8. GAN在Image To Image translation 和Inverse Problem中的应用
  9. Android 中 RegistrantList消息处理机制 以android 5.0 MT为例
  10. Apk去签名校验详解