这儿主要归纳一下,样本空间、假设空间、版本空间的定义,三者的联系与区别。

西瓜数据集
编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

一:样本空间

上表中给出了四种实际存在的情况,也即是我们目前所能获得的训练集。样本空间的标准定义是:所有可能存在的、合理的、情况的集合。机器学习的主要工作就是寻找从属性空间(X)到标记空间(Y)的一个映射关系。说法很多,但可以认为Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间。而上述的的训练集只是样本空间一个很小的采样。

二:假设空间

起初,我们并不能得到样本空间。只有样本空间的一个很小的子集,也就是上面的四条样本。但可以确定的是(目前姑且这样认为)每一条示例有三条属性,即一个瓜的好或不好,由三个属性确定,而每个属性有三个值。就拿西瓜的颜色来说,表中有青绿、乌黑,姑且加一种浅白(仅为演示何为假设空间),可以确定的是一个好瓜应该是青绿或乌黑色;但也可能,西瓜的好或不好与颜色无关,即在好瓜的情况下西瓜的颜色可能是*(*代表任意颜色),那么西瓜的颜色这一属性就有四个可能的取值。

即假设空间可以这样定义:色泽:*、根蒂:*、敲声:*是好瓜。色泽:*、根蒂:*、敲声:浊响是好瓜。色泽:*、根蒂:*、敲声:清脆是好瓜。色泽:*、根蒂:*、敲声:沉闷是好瓜。这是一个简单的排列组合问题。一共有4*4*4+1=65种情况。最后的1表示任何情况都不是好瓜,即没有好瓜的情况。

可以看出来,假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。

三:版本空间

从上面可以看到,假设空间,单纯的罗列的所有可能的情况,这更多的是一种数学上的罗列。显然假设空间中肯定有很多是不满足情况的,或是不合理的。…………比如根据上述表格中的训练数据(样本空间的子集)可以看出,“色泽:青绿、根蒂:硬挺、敲声:清脆不是好瓜“,所以假设空间中的“色泽:青绿、根蒂:硬挺、敲声:清脆是好瓜”显然是错误的假设,应当舍去。…………上面是删除假设空间明显错的假设。但还有那种不错误,但会有严重误导倾向的假设也需要删除。比如假设空间中有“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”,这和训练数据集正好吻合,显然是正确的,但是对于假设空间来说,此条假设也应该被删除。因为如果说“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”那么“色泽:乌黑、根蒂:蜷缩、敲声:浊响就不是好瓜了”这显然有种“过度精确”的错误。仅根据上述训练集中的四条数据来判断,“色泽:*、根蒂:蜷缩、敲声:浊响是好瓜”便比较合适了。这能很好的契合表中的四条数据。…………如果按照上述原则“色泽:浅白、根蒂:蜷缩、敲声:浊响”会被判断为好瓜,这正确与否显然是不知道的。所以,如果想做出正确的判断,就需要全面大量的训练,目的就是尽量的排出假设空间中不合理的假设。而剩下的假设就是在满足已有训练数据集的情况下,做出的最优选择了。…………现实问题中,我们常面临很大的假设空间,但学习过程是根据有限的样本训练集进行的,那么对于不同版本的训练集,应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。

人工智能(1)-样本空间、假设空间、版本空间相关推荐

  1. 机器学习#假设空间与版本空间

    读周志华的机器学习,卡在假设空间和版本空间这一块了,写一下自己的理解: 假设空间:所有属性的可能性(可能取值)组合形成的假设(假设*,*,*为好瓜),组成假设空间,以西瓜问题假设为例.色泽属性可取(青 ...

  2. 西瓜书_1、符号学习、迁移学习、连接主义、假设空间、版本空间

    一.符号学习 符号学习是指学习单个符号或一组符号的意义,人必须通过反复的学习来建立符号与其代表的事物之间的等值关系.例如,儿童通过学习,可以用"苹果"或"apple&qu ...

  3. 机器学习笔记(1)—— 样本空间、假设空间、版本空间

    例子,给出西瓜数据集,根据某个西瓜三个属性的描述,判断瓜的好坏 编号 色泽 根蒂 敲声 好瓜 1 青绿 蜷缩 浊响 是 2 乌黑 蜷缩 清脆 是 3 青绿 硬挺 沉闷 否 4 乌黑 稍蜷 沉闷 否 样 ...

  4. 机器学习中的概念---输入空间、标记空间、样本空间、假设空间、版本空间

    一:输入空间/特征空间/属性空间 这三个概念都是指的X,都是指的输入量 二:标记空间/输出空间 指的是Y,指的是输出量.(有时候,X-Y的所有映射也被当作Y,概念上有点混乱) 一:样本空间 样本空间的 ...

  5. (西瓜书)#版本空间与样本空间

    假设空间:所有属性值可能取值的集合 版本空间:与已知数据集一致的假设空间的子集合 求西瓜问题的版本空间 色泽属性可取(青绿,乌黑,*),根蒂属性可取(蜷缩,硬挺,稍蜷,*),敲声属性可取(浊响,清脆, ...

  6. 西瓜书(周志华):什么是版本空间以及如何求取版本空间

    下面是自己结合百度的资料来理解的一些比较通俗的说法: 假设空间:属性所有可能取值组成的可能的样本 版本空间:与已知数据集一致的所有假设的子集集合. (绿色加号代表正类样本,红色小圈代表负类样本) GB ...

  7. 机器学习中的隐变量/潜变量和隐藏空间/潜在空间

    机器学习中的隐变量/潜变量和隐藏空间/潜在空间 1.什么是隐变量? 1.什么是潜在空间(Latent Space)? 2.机器学习中为什么要压缩数据? 3.潜在空间中的"空间"是什 ...

  8. 移除LVM中的磁盘,给VG增加空间,减少空间

    >volume group vg1包括了三个PV,sda1 sdb1 sdc1,各600GB的SAS,先发现其中一个SAS sdc盘呼哧呼哧的想,猜想快挂了. vg1上创建了一个lv1,目前有8 ...

  9. 世界坐标系空间,页面空间,设备空间,物理设备空间

    2019独角兽企业重金招聘Python工程师标准>>> 一.坐标空间 1.Win32应用程序设计接口(API)使用四种坐标空间:世界坐标系空间.页面空间.设备空间和物理设备空间.应用 ...

最新文章

  1. C#中一些易混知识的比较
  2. jdbc mysql 自动重连_Mysql中JDBC如何完成自动重连机制的案例
  3. “该文件包含不能在当前代码页(936)中表示的字符,请将该文件保存为 Unicode 格式以防止数据丢失”
  4. VTK:PolyData之ContoursToSurface
  5. 大数据组件需要额外添加的依赖包汇总(持续更新中)
  6. 《DeepLearning.ai 深度学习笔记》发布,黄海广博士整理
  7. idea 15 license server
  8. 两次DFS,POJ(1481)
  9. Oracle备份还原实践
  10. 计算机组成与设计 笔记(一)
  11. 安卓内录声音软件scr_录屏内录大师软件下载
  12. 如何做gif动图?手把手教你在线制作动图
  13. 期货高手的交易方法总结,
  14. 带你了解什么叫大数据分析
  15. Python(py3fdfs)上传到fastdfs配置store_serv.ip_addr问题
  16. 中国大数据行业人才生态现状
  17. 软件测试周刊(第58期):春光不必趁早,冬霜不会迟到。相聚离开,全部刚刚好。
  18. 为什么HikariCP是性能最好的数据库连接池?
  19. 如何维持手机电池寿命_手机电池不耐用怎么办小窍门(怎么恢复手机电池寿命)...
  20. oracle 如何创建用户并赋予权限

热门文章

  1. 机器学习——决策树与随机森林
  2. 一个简单的 jQuery 图片裁剪插件----cropper
  3. 3D设计软件中怎么画锥齿轮?浩辰3D设计实例
  4. 深度学习GPU卡的理解(一)
  5. 独孤思维:赚钱的黄金法则
  6. 银河麒麟专用服务器RPM软件包打包方式。
  7. 开源新作!三个月啃透888页Java王者级核心宝典,大厂面试必备技能
  8. 何谓财务“二上二下”“三上三下”部门预算机制
  9. 北京君正案例:超能面板PRO采用4英寸IPS超清多彩屏,值不值得买?
  10. 使用OpenCV检测摄像头视频中的人脸