hello~一晃就十一月啦!开始写简书也半个月啦!之前对机器学习中的监督学习与无监督学习,只是有个概念,前几天学习知识的时候,又遇到了,所以打算好好记录下来。


在理解监督学习和无监督学习之前,我们先来聊一聊什么是机器学习(ML)?

机器学习:

首先呢,学习可以称为一个举一反三的过程,举个栗子:我们在学生时代经常参加的考试,考试的题目在上考场前我们未必做过,但是在考试之前我们通常都会刷很多的题目,通过刷题目学会了解题方法,因此考场上面对陌生问题也可以算出答案。

机器学习的思路也类似:我们可以利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(考场的题目)。就像考试前老师给我们预测考试会考什么一样。

简单一句话:机器学习就是让机器从大量的数据集中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。

进入正题~

监督学习

定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

通俗一点,可以把机器学习理解为我们教机器如何做事情。

监督学习的分类:回归(Regression)、分类(Classification)  

回归(Regression)

回归问题是针对于连续型变量的。

举个栗子:预测房屋价格

假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,单位是(千万$)。给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。

这个时候,监督学习中的回归算法就能排上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。

通过 图像,我们可以看出直线拟合出来的150k,曲线拟合出来是200k,所以要不断训练学习,找到最合适的模型得到拟合数据(房价)。

回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

分类(Classification)  

和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。

举个栗子:估计肿瘤性质

假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。

假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0.那么,如下,蓝色的样例便是良性的,红色的是恶性的。

这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。

那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生"输入一个人的数据,判断是否患有癌症"的结果,结果必定是离散的,只有“是”或"否"。

所以简单来说分类就是,要通过分析输入的特征向量,对于一个新的向量得到其标签。

无监督学习

定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的顾西奈。

可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。

接刚刚上面机器学习解释时用到的例子来更好理解一下二者的区别:

对于平时的考试来说,监督学习相当于我们做了很多题目都知道它的标准答案,所以在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 而无监督学习,是我们不知道任何的答案,也不知道自己做得对不对,但是做题的过程中,就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。

如下图所示,在无监督学习中,我们只是给定了一组数据,我们的目标是发现这组数据中的特殊结构。例如我们使用无监督学习算法会将这组数据分成两个不同的簇,这样的算法就叫聚类算法。

生活中的应用:

1.Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。

2.根据给定基因把人群分类。如图是DNA数据,对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程序。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习,因为我们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。

小白都看得懂的监督学习与无监督学习相关推荐

  1. Spring Framework框架起步,小白都看得懂(官翻版)!

    写在开头 本篇章介绍Spring框架的完整的全部技术.写这篇文章的目的是,一方面为了给初入后端开发的才子一篇入门指导,另一方面是为了自己对于基础知识的查阅. Spring不一定是最好的框架(虽然综合能 ...

  2. 小白都看得懂的使用Python生成随机验证码图片,以及后续优化方案

    环境:Anaconda3-2020.02 首先我们分解一下需要做什么: 生成随机的字母字符串 生成生成随机的背景色 生成随机的字体颜色 把随机的字符串用随机的颜色渲染,然后放到一块随机的背景色上面,基 ...

  3. python类定义学生信息_Python学生信息管理系统(注释最详细,小白都看的懂)

    1 importos2 3 #学生系统基本功能 4 #增删查改 5 6 #如何实现该系统 7 #1.显示系统功能界面 8 #2.让用户选择功能 9 #3.判断用户选择的指定功能,然后完成相应的操作(增 ...

  4. 微信提现——企业付款到零钱demo(超详细小白都看得懂的)

    一.p12证书下载 企业付款到零钱API (建议多看) apiclient_cert.p12证书:在微信商户平台–>账户设置–>API安全–>证书中下载的 . (自行下载) 二.开发 ...

  5. python输入学生姓名_Python学生信息管理系统(注释最详细,小白都看的懂)

    1 importos2 3 #学生系统基本功能 4 #增删查改 5 6 #如何实现该系统 7 #1.显示系统功能界面 8 #2.让用户选择功能 9 #3.判断用户选择的指定功能,然后完成相应的操作(增 ...

  6. 新手小白都看得懂得光通信知识

    告别不懂装懂,轻松和大神交流.新手小白都看得懂得光通信知识 单模光纤和多模光纤的区别 光通信 单模光纤 &多模光纤 区别OPTICOMBINE 导入-----问题产生 很多刚接触光通信的朋友渴 ...

  7. 【机器学习】小孩都看得懂的 GAN

    全文共 6327 字,55 幅图, 预计阅读时间 32 分钟. 本文是「小孩都看得懂」系列的第十八篇,本系列的特点是内容不长,碎片时间完全可以看完,但我背后付出的心血却不少.喜欢就好! 小孩都看得懂的 ...

  8. 循环神经网络_小孩都看得懂的循环神经网络

    点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 全文共 2014 字,28 幅图,预计阅读时间 20 分钟. 本文是「小孩都看得懂」系列的第 ...

  9. 小学生都看得懂的C语言入门(1): 基础/判别/循环

    c基础入门, 小学生也可以都看得懂!!!! 安装一个编译器, 这方面我不太懂, 安装了DEV-C++  ,体积不大,30M左右吧, 感觉挺好用,初学者够了. 介绍下DEV 的快键键: 恢复 Ctrl+ ...

最新文章

  1. NFX UNISTACK
  2. Hibernate源码阅读2——Service Registry
  3. Matlab注释语句
  4. java的多线程实现方式_java 多线程实现方式
  5. Spring Cloud Alibaba:Sentinel 热点参数限流
  6. FPS手游《战地先锋》性能案例精讲
  7. 支持向量机器—SMO算法
  8. 婚礼答谢宴ppt模板_女儿结婚请柬制作 女儿结婚宴会邀请函模板免费
  9. 如何使用ES6中的参数
  10. iOS-贝塞尔曲线之自定义饼图
  11. 面向对象之封装的成本价值
  12. OpenCV学习资源
  13. ffmpeg海康SDK流接入的支持
  14. google translate - 谷歌翻译小工具
  15. reCAPTCHA打不开的解决方法
  16. 1块钱30分钟利用华为云服务器配置一台云电脑并搭建一个简易网站(步步截图较详细)
  17. 终于把泰山OFFICE的MAC本地库问题都解决了
  18. canvas.toDataURL() gives “Security Error” in IE 11
  19. 网络安全——Webshell管理工具
  20. cocos2d_lua 2.5D

热门文章

  1. Java中弹出对话框的方法
  2. redis的五种数据结构及其使用场景
  3. 11.reindex操作
  4. 使用RNN解决NLP中序列标注问题的通用优化思路
  5. Zookeeper 客户端源码吐血总结
  6. 【终极办法】import javax.servlet cannot be resolved 异常全面分析、解决
  7. 编译原理习题(含答案)——2程序设计语言及其文法——MOOC哈尔滨工业大学陈鄞配套
  8. 19行代码AC——例题 6-2 铁轨(Rails, UVa 514)——解题报告
  9. Mysql数据库(八)——mysql高阶语句(中)
  10. metasploit终端命令大全 MSF