机器学习中通常根据数据是否有标签可以分为监督学习(supervised learning)、非监督学习(unsupervised learning)半监督学习(semi-supervised learning)。如果需要算法与环境交互获得数据则是强化学习(reinforcement learning)

一.监督学习

监督学习的意思就是用来训练网络的数据,我们已经知道其对应的输出,这个输出可以是一个类别标签,也可以是一个或者多个值。模型经过训练以后,遇到新来的数据,可以预测对应的标签或者值。

监督学习是最常见的应用,已知标签的分类和回归问题都属于监督学习。

二.非监督学习

非监督学习则是并不知道数据的标签,而是根据数据本身的特性,从数据中根据某种度量学习出一些特性。

比如想象一个人从来没有见过猫和狗,如果给他看了大量的猫和狗,虽然他还是没有猫和狗的概念,但是他是能够观察出每个物种的共性和两个物种间的区别的,并对这个两种动物予以区分。

如上如图所示,a表示的是监督学习的样本,可以看到样本根据类别不同而表示成不同的形状,算法学习的时候根据标签对空间区域进行划分。b表示的是没有标签的样本,虽然没有标签但是也能很明显看出有三个集中的"",每个"簇"中的样本互相靠得更近一些。这种情况下对样本的划分通常被称为聚类(clustering),常见的方法有k-means,混合高斯模型(GMM,Gaussian Mixture Model)等。广义来说,只要是无需人工标注就能从数据中提取出特征,都算是无监督学习。

无监督学习通常被认为能够更好地从数据本身分布中挖掘出特征,并且对于数量不是很大的数据集还能防止过拟合。

三.半监督学习

在实际应用中,还有比较常见的情况是部分数据有标签,部分没有,把这两种数据都利用起来称为半监督学习(semi-supervised learning)

在大数据的驱使下,还有一种概念叫弱监督学习(weakly supervised learning),是指用弱一些的标注来帮助训练一个更强条件下的算法。比如图片分类,有标注的数据虽然好,但是耗费人力去标注,获取成本高。但是没有标注的数据,或是一些不严格标注的数据,比如用户传图片时贴的标签,相对获取成本就低很多。后者就是一种弱监督的数据,可能包含噪声,多重标注,或是信息缺失等问题。但使用得当的话,结合前者能带来更大的数据量和更好的泛化。

四.强化学习

强化学习(reinforcement learning)在机器学习中是一个比较另类的分支,随着AlphaGo战胜李世石,强化学习开始跃入大众视野并一下子吸引了很多人的兴趣。强化学习的思想借鉴了很多动物和环境交互学习的行为。强化学习中算法本身有一个状态(state),算法借助一个**代理(agent)环境(environment)交互,交互的结果以奖惩(reward)**的形式返回并作用于算法本身。

代理通过当前的状态产生一个行动,这个行为和环境交互后会让代理处于一个新的状态,并且同时反馈给代理一个奖惩的分数。这个分数相当于对行为的一种评价,和我们为算法设置的目的有关。如果定义好的行为得到正分数,不好的行为得到负分数,则反馈作用于算法改进后,再通过代理产生下一个可能让奖惩分数提高的行为。这个过程一直持续,算法就会在这个不断试探的过程中越变越好。

举个例子:比如用强化学习训练一辆小车不会撞墙或者障碍物,小车就是代理,小车所在的有障碍物的房间的地面就是环境。小车的状态就是当前的位置,以及当前位置能获得的信息,比如传感器得到的距离信息,或者摄像头看到的画面。根据当前状态和算法策略,每次小车做出任何一个方向前进的行为后,如果没有撞墙,则得到一个小的奖励分数,如果撞到了墙,则得到一个较大的惩罚负分。这样就实现了学习的过程。

因为强化学习的行为都会对应一个奖惩,所以常常有人拿强化学习和监督学习进行比较。的确强化学习得这种特性在某种程度上相当于从环境中获得了对数据的标注,但这两种类型的算法还是有很大不同的。首先强化学习的目标和监督学习不一样,强化学习看重的是行为序列下的长期收益,而监督学习往往关注的是和标签或已知输出的误差。强化学习得奖惩概念是没有正确或错误之分的,而监督学习标签就是正确的。强化学习是一个学习+决策的过程,并有和环境交互的能力,这都是监督学习不具备的。

目前强化学习主要用于机器人、游戏等和环境交互比较多的领域。

机器学习_监督学习、非监督学习、半监督学习以及强化学习概念介绍相关推荐

  1. 【人工智能周末直播专场】机器学习趣味大赏+强化学习全景介绍

    直播主题1:机器学习趣味大赏 机器学习正朝着哪些方面发展?将怎样影响你的工作和生活? 又能与你的工作和生活碰撞出怎样的火花? 人工智能正在揭去科幻的面纱,即将作为"新基建"飞入寻常 ...

  2. 西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM、半监督k-means、协同训练算法)

    文章目录 0. 前言 1. 半监督SVM 2. 半监督k-means 2.1. 约束k-means 2.2. 约束种子k-means 3. 协同训练算法 如果这篇文章对你有一点小小的帮助,请给个关注, ...

  3. 非确定性算法_带你从不同角度了解强化学习算法的分类

    本文将介绍强化学习算法的分类法,从多种不同角度学习几种分类法.话不多说,大家深呼吸,一起来学习RL算法的分类吧! 无模型(Model-Free)VS基于模型(Model-Based) 无模型VS模型分 ...

  4. 详解机器学习的凸优化、图神经网络、强化学习、贝叶斯方法等四大主题

    AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因.在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过.为什么?机器学习就像物理学中的数学,如果 ...

  5. qlearning算法_通过OpenAI Gym编写第一个强化学习算法

    腾讯互娱Turing Lab从创建开始,每周在内部进行分享读书会,对业界的技术研究和应用进行讨论.在此通过公众号形式把相关有趣内容也推送给对新技术和业界趋势感兴趣的朋友. 和大量的所谓技术公众号不同, ...

  6. 【机器学习】带你轻松理解什么是强化学习中的状态动作函数 ?

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.状态动作函数的定义 二.直观理解 三.将状态动作函数与回报和策略联系起来 总结 前言 强化学习中的状态动作函 ...

  7. sql移动加权计算利润_计算机视觉中的半监督学习

    作者:Amit Chaudhary 编译:ronghuaiyang 导读 图解半监督的各种方法的关键思想. 计算机视觉的半监督学习方法在过去几年得到了快速发展.目前最先进的方法是在结构和损失函数方面对 ...

  8. 【机器学习】监督学习,非监督学习,半监督学习三者的定义区别及举例分析

    监督(supervised)= 标签(label),是否有监督,就是输入数据(input)是否有标签,有标签则为有监督学习,没标签则为无监督学习.至于半监督学习,就是一半(一点点)数据有标签,一半(极 ...

  9. 机器学习中的有监督学习,无监督学习,半监督学习

    在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督 ...

最新文章

  1. JQuery闭包,插件的写法
  2. 深入理解C# 3.x的新特性(2):Extension Method[下篇]
  3. LeetCode-Linked List Cycle II
  4. 什么是大平层?大平层比别墅好吗?
  5. bootstrap 轮播控制时间_【前端冷知识】如何封装一个图片轮播组件
  6. C++还有前景吗?做服务器这一块可以吗?
  7. lsof -Pni4 | grep LISTEN | grep php
  8. sublime插件CSS转rem配置
  9. CSDN 原力 -- beta 测试中
  10. 署五笔软件测试初学者,三天学会五笔打字练习测试新手教程
  11. H.264之lookahead
  12. 教你炒股票25:吻,MACD、背弛、中枢
  13. java读取地址栏参数(id=123name=xiaoxiao)
  14. 机器人三星云顶之弈_机器码|云顶之弈10.16三星机器人加强介绍-云顶之弈10.16三星机器人加强了吗_234游戏网...
  15. 会声会影2021版本下载地址安装包新增功能图文介绍
  16. Python基础教程(第三版)读书笔记(8)
  17. Opencv3基础操作3——图像形态学处理
  18. CAD显示顺序(com接口)
  19. 适配器模式实战场景和本质
  20. 微博大V社交圈子分析

热门文章

  1. python graphviz画图
  2. python并行处理for循环_如何在Python中将for循环转换为并行处理?
  3. 项目看板开发经验分享(二)——事业部能源监控看板(进度条拟柱状图图表、圆柱形柱状图、图表左右滚动进度条、导航轮播按钮)
  4. PPT的粘贴选项没有选项
  5. 非结构化数据更需中台,企业内容管理未来走向何方
  6. word中给字体加上底纹
  7. java 自定义注解 校验经纬度
  8. 毕业季相册PSD模板中学校园合影留念纪念同学录毕业照相片书素材
  9. Windows原版镜像在哪里下载?怎么下载ed2k文件
  10. 据说是史上最强的学习C语言的路线