模式识别与机器学习·第一章——概论

  • 开篇
  • 模式识别
    • 模式
    • 识别
  • 机器学习
  • 研究目的
  • 发展历史
    • 模式识别简史
    • 机器学习简史
  • 系统方法
    • 系统目标
    • 假说的获得
    • 系统的构成
  • 小结

开篇

这系列博客主要用来回忆研一的模式识别与机器学习课程的相关内容,大概有十几篇吧,估计需要一个很长的周期来整理,整完的部分目录如下,我也会逐步添加:

  1. 第一章·概论
  2. 第二章·

模式识别

模式

模式识别,目标对象自然是模式了,课程给出的模式定义如下:

广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。
模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。

简单的总结,模式具有以下三个直观的特性:

  1. 可观察性
  2. 可区分性
  3. 相似性

识别

模式识别实际上是一个无处不在的概念,比如我们常说的 “ 物以类聚,人以群分 ” 。
人类认识世界的时候会自然的代入模式识别的能力,比如我们会认出一个桌子是桌子而不是一把椅子,我们衣食住行的生活每一步都要经过一个 “ 接受信息 - 模式识别 - 作出决策 - 执行行为 ” 的过程。
人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。

机器学习

就不多写了,直接引用老师给的概念吧。

研究如何构造理论、算法和计算机系统,让机器通过从数据中学习后可以进行如下工作:分类和识别事物、推理决策、预测未来等。
Wiki: “The design and development of algorithms that take as input empirical data and yield patterns or predictions that generated the data.”

研究目的

利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。
最终目标是让计算机具有甚至超越人类和动物的既有识别能力。

Y = F(X)
X的定义域取自特征集
Y的值域为类别的标号集
F是模式识别的判别方法

机器学习利用大量的训练数据可以获得更好的预测结果。

发展历史

模式识别简史

  • 1929年 G. Tauschek发明阅读机,能够阅读0-9的数字。
  • 30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。
  • 50年代 Noam Chemsky 提出形式语言理论——傅京荪 提出句法结构模式识别。
  • 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用。
  • 80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。
  • 90年小样本学习理论,支持向量机也受到了很大的重视。

21世纪以来,模式识别研究呈现一些新特点

  • 贝叶斯学习理论越来越多地用来解决具体的模式识别和模型选择问题,产生了良好的分类性能。
  • 传统的问题,如概率密度估计、特征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出。
  • 模式识别和机器学习相互渗透,特征提取和选择、分类、聚类、半监督学习、深度学习等问题日益成为二者共同关注的热点。
  • 模式识别系统开始越来越多地用于现实生活,如车牌识别、手写字符识别、生物特征识别等。

机器学习简史

机器学习的发展与模式识别密切相关。

  • 第一阶段是在50年代中叶到60年代中叶,属于热烈时期。研究的是以40年代兴起的神经网络模型为理论基础的“没有知识”的学习。模式识别发展的同时形成了机器学习的两种重要方法:判别函数法和进化学习
  • 第二阶段是在60年代中叶至70年代中叶,被称为机器学习的冷静时期。研究的目标是模拟人类的概念学习阶段,并采用逻辑结构或图结构作为机器内部描述。神经网络学习机因理论缺陷转入低潮。
  • 第三阶段是从70年代中叶至80年代中叶,称为复兴时期。从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法(如模式方法推断)。

机器学习的最新阶段始于1986年。机器学习有了更强的研究手段和环境,出现了符号学习、神经网络学习、进化学习和强化学习等。
机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。
结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。
各种学习方法(归纳学习、连接学习、强化学习、深度学习)的应用范围不断扩大,一部分已形成产品。尤其是深度学习的发展方兴未艾,正在人工智能等领域发挥越来越重要的作用。

系统方法

系统目标

  • 模式识别系统的目标:在特征空间和解释空间之间找到一种映射关系,这种映射也称之为假说。

    • 特征空间:从模式得到的对分类有用的度量、属性或基元构成的空间。
    • 解释空间:将c个类别表示为
      其中 Ω 为所属类别的集合,称为解释空间。
  • 机器学习的目标:针对某类任务T,用P衡量性能,根据经验来学习和自我完善,提高性能。

假说的获得

监督学习、概念驱动或归纳假说:

  • 在特征空间中找到一个与解释空间的结构相对应的假说。在给定模式下假定一个解决方案,任何在训练集中接近目标的假说也都必须在“未知”的样本上得到近似的结果。
  • 依靠已知所属类别的训练样本集,按它们特征向量的分布来确定假说 (通常为一个判别函数),在判别函数确定之后能用它对未知的模式进行分类;
  • 对分类的模式要有足够的先验知识,通常需要采集足够数量的具有典型性的样本进行训练。

非监督学习、数据驱动或演绎假说:

  • 在解释空间中找到一个与特征空间的结构相对应的假说。这种方法试图找到一种只以特征空间中的相似关系为基础的有效假说。
  • 在没有先验知识的情况下,通常采用聚类分析方法,基于“物以类聚”的观点,用数学方法分析各特征向量之间的距离及分散情况;
  • 如果特征向量集聚集若干个群,可按群间距离远近把它们划分成类;
  • 这种按各类之间的亲疏程度的划分,若事先能知道应划分成几类,则可获得更好的分类结果。

系统的构成

模式识别系统的基本构成

数据获取:用计算机可以运算的符号来表示所研究的对象

  • 二维图像:文字、指纹、地图、照片等
  • 一维波形:脑电图、心电图、季节震动波形等
  • 物理参量和逻辑值:体温、化验数据、参量正常与否的描述

预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原

特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征

  • 测量空间:原始数据组成的空间
  • 特征空间:分类识别赖以进行的空间
  • 模式表示:维数较高的测量空间->维数较低的特征空间

分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别

  • 基本做法:在样本训练集基础上确定某个判决规则,使得按这种规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。

机器学习系统的基本构成

环境:是系统的工作对象(包括外界条件),代表信息来源。

  • 信息水平:相对于执行环节要求而言,由学习环节消除差距
  • 信息质量:实例示教是否正确、实例次序是否合理等

知识库:存储学习到的知识

  • 知识的表示要合理
  • 推理方法的实现不要太难
  • 存储的知识是否支持修改(更新)

学习环节:是系统的核心模块,是和外部环境的交互接口。

  • 对环境提供的信息进行整理、分析、归纳或类比,生成新的知识单元,或修改知识库。
  • 接收从执行环节来的反馈信号,通过知识库修改,进一步改善执行环节的行为。

执行:根据知识库执行一系列任务

  • 把执行结果或执行过程中获得的信息反馈给学习环节

小结

  • 基本概念
  • 发展简史
  • 主要方法
  • 系统构成

模式识别与机器学习·第一章——概论相关推荐

  1. 数据结构c语言版第一章答案,《c语言数据结构》第一章概论自测题答案

    <<c语言数据结构>第一章概论自测题答案>由会员分享,可在线阅读,更多相关<<c语言数据结构>第一章概论自测题答案(4页珍藏版)>请在人人文库网上搜索. ...

  2. python 机器学习第一章

    机器学习是一门能够发掘数据价值的算法和应用,是计算机科学中最激动人心的一个领域之一. 接下来的时间,开始学习吧! python机器学习第一章 1.机器学习方法分为三类:监督学习,无监督学习,强化学习. ...

  3. 数据结构与算法——慕课作业——第一章 概论 + 第二章 线性表

    重点题: 第一章:小测-2.4.7 第二章:小测-3 & 编程-2.3 第一章 概论 part 1: 小测验 答案: 1.C你选对了 解析:  A.向量:直接访问型线性结构  B.散列表:目录 ...

  4. 【操作系统】第一章 概论 冲鸭!!

    第一章 概论 1.1 操作系统做什么? P1 操作系统是? 操作系统的目标 1.2 操作系统的功能 P2 计算机系统的组成 操作系统设计目的 用户视角 系统视角 操作系统的定义 1.3 计算机系统体系 ...

  5. 分子生物学 第一章 概论

    文章目录 第一章 概论 1.1.1分子生物学的概念以及发展简史 1.2.1分子生物学研究概况 第一章 概论 1.1.1分子生物学的概念以及发展简史 广义的定义: 在分子水平上解释生物学现象. (难以与 ...

  6. 数据结构 第一章 概论

    第一章 概论 数据结构:数据结构是相互之间存在一种或多种特定关系的数据元素的集合 数据:描述客观事物的符号.是能被计算机识别.处理的符号的集合. 数据对象:数据元素集合.数据子集 数据元素:是组成数据 ...

  7. 语音识别原理与应用 洪青阳 第一章 概论

    目录 第一章 语音识别概论 1.1 语音的产生和感知 1.2 语音识别过程 1.3语音识别发展历史 第一章 语音识别概论 语音识别的基础理论包括语音的产生和感知过程.语音信号基础知识.语音特征提取等. ...

  8. 机器学习第一章之大数据分析与机器学习简介

    大数据分析与机器学习简介 1.1 大数据分析与机器学习概述 1.1.1 大数据分析与机器学习的应用领域 1.1.2 机器学习的基本概念 1.1.3 Python在数据科学中的作用 1.2 Python ...

  9. 百面机器学习第一章——特征工程(基本是百面机器学习书的内容)

    02.类别型特征 ------------------------------------------ 场景描述 类别型特征(Categorical Feature)主要是指性别(男.女).血型(A. ...

最新文章

  1. 在Spring.Net中对于NHibernate.Caches.Prevalence的使用
  2. sql时间转换时分秒_SQL数据库中的是年月日时分秒格式的,什么语句能实现年月日的查询?...
  3. 比较.ASP.NET中Application,Session,Cookie,ViewState和Cache
  4. 全球及中国医养结合产业发展战略建议与投资价值评估报告2022版
  5. error: not found: value SparkSession
  6. HTML基础(part2)--HTML介绍及空白合并
  7. P版openstack-nova-compute中日志报错无法同步resource_provider
  8. 2021年浏阳市五中高考成绩查询,浏阳市2021年“三考”增加考生万余名
  9. 前端开源项目周报1213
  10. 73种网页常用js代码
  11. 台达人机界面编程小技巧之合理使用偏移地址
  12. 软件测试工程师面试题之(计算机网络上)
  13. Waves 10 win10 如何卸载干净 / 安装 / 如何处理waves mixer application installation failed / 改变默认安装路径
  14. db2 前滚数据库_db2 前滚会话
  15. Windows下安装Golang开发环境-SDK安装
  16. C#textbox和label显示皆透明如何修改/让字体和背景透明
  17. MySql 基本sql语句
  18. Day Nine——白噪声检测及确定p、d、q值和模型的检验
  19. Mac电脑声音无法正常播放怎么解决
  20. PID中各个参数意义

热门文章

  1. python控制autocad_Python AutoCAD系统设置如何实现 Python AutoCAD系统设置实现代码
  2. CCF CSP认证历年真题 满分代码(持续更新中)
  3. Latex不等于大于等于 小于等于
  4. python中mock的使用
  5. 动力节点 动力节点夜校班java就业班2021(Java就业体系课销量榜首)
  6. 非线性方程求解专题——序言
  7. 科学计算机保研,莘莘学子丨青岛大学计算机科学技术学院保研之路
  8. 问号表达式 a?b:c
  9. 统计机器翻译词对齐模型IBM-model1
  10. Git从入门到精通(全)