4. 非监督学习与强化学习简介

1.2 非监督学习

机器学习的第二种范式是非监督学习（Unsupervised learning），目标是从数据中找出模式。监督学习接收的是有标记的数据，非监督学习处理的则是没有标记的数据。换句话说，非监督学习没有已知的输出作为标准，而是试图发现数据中存在的模式。根据模式的性质，非监督学习可分为两个领域。

一个领域是聚类分析，根据数据实例的相似性将它们划分进不同的集群。聚类分析有许多应用，例如，对像素聚类能够分割图像，对词语聚类可以找出同义词，对文章聚类能够将它们按主题归档。

另一领域是关联规则分析，找出数据中经常一同出现的项集，然后建立它们之间的关联规则：对于项集A和B，如果它们的并集出现的概率与A出现的概率之比超过一定的阈值，我们就认为“A蕴含B”为一条规则，意为当A出现时，很可能会出现B。例如，一家超市的老板发现顾客同时购买牛腩和白萝卜的次数很多，并且每当一位顾客购买牛腩时，他也买白萝卜的可能性很大，老板就建立起一条“牛腩蕴含白萝卜”的关联规则。关联规则分析的应用广泛，除了最常见的购物篮分析，还可以分析时间序列数据，从中找出某些事件的触发器；用于故障分析，在众多因素中找出故障的原因等。

1.3 强化学习

让我们来思考人是怎样学骑自行车的。会骑自行车的读者可以回忆，不会骑的也可以凭经验和想象思考。假如学骑自行车是监督学习，就应该有人告诉你，这个状态下左腿应该用多大力踩踏板，下个场景里身体应该往哪边倾斜多少度。而实际上，虽然你的父亲或朋友会给一些指导意见，但远不是监督学习中训练数据那样具体的输入到输出的映射。学骑自行车也不是非监督学习，因为你不是看了3小时别人骑车的录像，总结出其中的运动模式，然后就神奇地迈上一辆自行车开始骑了。你是通过尝试和练习，或者说试错（Trial and error），学会骑车的，所有的经验（相当于数据）都来自于人与自行车和道路等构成的环境的互动：人对身体各部位的肌肉发出指令，感受下一刻人和车的姿态和运动，并接收相应的“奖励”或“惩罚”——身体保持平衡、成功向右拐、在红灯前停住车等是奖励，失衡、摔倒、撞到栏杆、刮到行人等是惩罚——再调整姿势和力量，感受人和车的状态，接收奖励或惩罚……

强化学习（Reinforcement learning）[[1]]就是研究上述过程所代表的学习类型——主体通过与环境互动来学会控制自己的行为，以最大化某种累积的奖励[[2]]。如图1.10所示，主体从环境获得反馈，将其解释为状态和奖励，据此做出动作，导致环境发生改变，重新反馈给主体，从而构成了主体与环境之间交互作用的循环。

图1.10 强化学习的过程

在此过程中主体注重长期的而非即时的奖励，意味着大的奖励未必是一个动作的直接后果，而是由一系列动作导致的。例如，在开始下坡时缓缓刹车，并不会产生即时的奖励，但能够避免车速越来越快以致最终失控。此外，强化学习的环境通常带有随机性（Stochastic），即在同样的状态下采取同样的动作，可能导致不同的状态、获得不同的奖励。例如，在骑车时，风、路况、行人和车辆等因素都具有随机性。

相较于监督和非监督学习，强化学习最接近人们日常理解的学习，所以其取得的进展也最引人注目：在作为智力竞技代表项目的国际象棋和围棋上，计算机程序从被人类棋手轻视，发展到职业选手承认无法战胜。波士顿动力公司制造的机器狗远比木牛流马聪明。斯坦福大学开发的无人驾驶直升机可以做出人类无法企及的炫目动作。

监督和非监督学习在任务和理论上有共通之处，将是本书正文分析的重点。强化学习与监督和非监督学习迥异，难以在同一本书的篇幅内深入讨论，下面将仅简单介绍其基本理论和解决思路。

[[1]] 强化学习的术语和理论源自行为心理学的操作性条件反射（Operant conditioning），强化指的是通过奖励促进主体的某种行为。例如在实验中老鼠按下某个杠杆会得到食物，它按下该杠杆的频率就会增加。

[[2]] 将奖励视为一个标量，惩罚就是一个负值的奖励。

4. 非监督学习与强化学习简介相关推荐

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了
01 术语整理本节概述机器学习及其三个分类(监督学习.非监督学习和强化学习).首先,与机器学习相关的术语有人工智能(Artificial Intelligence,AI).机器学习(Machine ...
什么是监督学习非监督学习，强化学习
什么是监督学习非监督学习,强化学习机器学习按照学习方式的不同,分为很多的类型,主要的类型分为监督学习非监督学习强化学习半监督学习什么是监督学习? 利用一组已知类别的样本调整分类器的参数,使 ...
机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习
机器学习.监督学习.非监督学习.强化学习.深度学习.迁移学习机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised l ...
机器学习（一）监督学习，非监督学习和强化学习
根据机器学习的应用情况,我们又把机器学习分为三类:监督学习(SupervisedLearning, SL), 非监督学习(Unsupervised learning, UL),和强化学习(Reinfo ...
机器学习的划分：监督学习、非监督学习、强化学习、进化学习
监督学习(Supervised learning):提供带有正确结果的训练集,基于训练集,算法将归纳(generalization)出"如何正确的响应所有可能的输入".也称之为&q ...
机器学习的划分：监督学习、非监督学习、强化学习、进化学习概述 (二)
监督学习(Supervised learning):提供带有正确结果的训练集,基于训练集,算法将归纳(generalization)出"如何正确的响应所有可能的输入".也称之为&q ...
机器学习、监督学习、非监督学习、强化学习传统机器学习、深度学习、迁移学习基本概念
文章目录机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised learning) 强化学习(reinforcemen ...
机器学习之非监督学习与强化学习
非监督式学习: 在此学习方式下.输入数据部分被标识,部分没有被标识,这样的学习模型能够用来进行预測,可是模型首先须要学习数据的内在结构以便合理的组织数据来进行预測.应用场景包含分类和回归,算法包含一些 ...
【Machine Learning】监督学习、非监督学习及强化学习对比
Supervised Learning Unsupervised Learning Reinforced Learning Goal: How to apply these methods How t ...

4. 非监督学习与强化学习简介

1.2 非监督学习

1.3 强化学习

4. 非监督学习与强化学习简介相关推荐

最新文章

热门文章