模式识别技术漫谈(2)
模式识别技术漫谈(2)
-------大量应用了概率和统计分析方法
模式识别大体上可以分为统计模式识别和句法模式识别,统计模式识别是对大量的样本进行统计或学习而最后得到一个分类器,如贝叶斯分类器、神经网络、SVM、K近邻法则等都是属于统计模式识别的方法,句法模式识别则是依据一定的逻辑规则进行判别,如图像形状判断、语法类型判断、地址细分等,句法模式识别也可以称为结构模式识别,一般是应用于逻辑清楚、不易混淆的识别应用中,识别方法也比较简单,所以现在研究的大部分都是统计模式识别的方法,而且在这其中研究比较集中的是机器学习,因为人们相信:象人类辨别新事物一样,都需要一个学习过程,对于计算机也可以象人类那样地去学习而具有辨识能力。神经网络技术便是基于模仿人类的学习而产生的。说了这么多,其实我想表达的是统计方法在模式识别中的重要性,在这一节我们主要就来讨论一下概率论和统计在模式识别中的应用。
说到概率和统计就不得不提贝叶斯决策理论,它是解决模式分类问题的一种基本统计途径,贝叶斯决策理论的基本公式可做如下描述:
某个特征被判断为某类的概率 =
该类中出现这个特征的概率 * 该类存在的概率 / 这个特征出现的概率
上面这个公式是一个条件概率公式的推导,这里用文字来描述,以便更好理解,要想了解更多这方面的知识可以查找有关模式识别的理论书,几乎每种理论书的第一个部分就是描述这方面的内容。我以前看过郎咸平的讲座,他有一句话上我印象很深,大体意思是这样的:成功的商业人士总是在选择做大成功概率的事,而不会冒风险去投机做小概率的事。贝叶斯的基本原则是选择大概率的判断,在某个特征的条件下,哪种类别出现的概率大,则判断为那种类别,这样可以达到错误率最小。实际的运用情形会复杂很多,在多种特征和多种类别的应用中,公式也会演变得很复杂,有很多的参数需要去统计分析,运用贝叶斯决策理论的过程基本上都是一个计算概率和统计分析的过程,在这里有个基本出发点要注意:所有统计必须是在大数据量的情况下,因为概率有个前提条件,即是在大数据量的情况下,所以统计模式识别方法都离不开大数据量的前提条件,应用于分析的样本量必须充分大,否则很有可能做到最后是前功尽弃。
概率上的应用还有较为常用的理论是马尔可夫模型(Markov model)和稳马尔可夫模型(HMM),这个是分词技术和语音识别中的基本理论工具之一,其中词频统计是其基本统计需要。马尔可夫模型和稳马尔可夫模型都是多条件概率的应用,追求的也是大概率结果。马尔可夫模型又可以分为一阶马夫可夫模型(Bigram模型)、二阶马尔可夫模型(Trigram模型)、n阶马尔可夫模型(n-gram模型),阶数越大,则需要统计的数据越多,计算的复杂度也会猛增。HMM运用了前向计算法(Viterbi算法),计算复杂度大大降低了下来,所以得到了较为广泛的应用,当今的语音识别算法就是采用HMM理论模型实现的。
统计分析中有个协方差矩阵,它可以应用于PCA(主成分分析)降维方法中。可以很容易理解,当特征越多时,计算则越复杂,而且计算结果准确性则越低,所以我们总是要想方设法把特征维数降下来,较为常用的方法则是用PCA降维方法(另一个方法VQ也是个很好的降维方法),这个方法是通过大量的样本统计,统计出方差最小的特征,方差越小,则说明这种特征越易混淆,越无助于分类,于是就可以把这些特征去掉,以此降低了特征维数。
类似于神经网络的机器学习方法也是属于统计模式识别一种,机器学习方法大大简化了我们对样本数据的统计工作量,采用了自动化的方法根据大量样本生成一个分类器,在这其中,统计分析的应用较为稳性,以至于让你无法承认它是属于统计模式识别的方法,但是对于大量样本的学习也可以算是统计方法的范畴,如神经网络中的每个神经节点的系数的形成是依据一定算法(如LMS算法)通过大量样本修正出来的,这个修正的过程也可以算是统计分析的过程。
既然模式识别技术与概率和统计分析密不可分,所以在设计分类器之前,首先要准备好大量的、周全的、能够覆盖各种情况的训练样本和测试样本,然后对训练样本进行统计分析,分析样本的特点,分析样本的特征值分布规律,得到各种统计数据,最后再来确定模式识别的方法,测试样本用来检验分类器的合理性问题,根据测试样本测试出来的问题,需要返回去修改分类器,这是一个反复的过程,直至最后达到分类器的性能目标。
模式识别技术漫谈(2)相关推荐
- 模式识别技术漫谈(1)
模式识别技术漫谈(1) ------引言 在人工智能技术(Artificial Intelligence)领域中,模式识别(Pattern Recognition)技术也许是最具有挑战性的一门技术了, ...
- 模式识别技术漫谈(4)
模式识别技术漫谈(4) ------------关于机器学习 一提到机器学习,首先大家会想到的一定是神经网络,其实机器学习方法很多,这里借用"Learning OpenCV"(Ga ...
- 模式识别技术漫谈(3)
模式识别技术漫谈(3) -------高维空间 我们在表示某个事物的特征时,其特征数一般有三个以上的,甚至有好几百个特征,为了表示方便,对于特征值一般采用向量的形式来表示,所以我们在研究模式识别时会有 ...
- 模式识别技术漫谈(5)
神经网络基本原理 学习模式识别我个人觉得从神经网络入手可能是个较好的选择,一方面可以避免一下子就陷入复杂的公式推导中,另一方面可以让我们较快就能体验到模式识别是个什么样的技术,因为我们可以利用matl ...
- doe报告模板_技术漫谈|关于制剂研发过程中的实验设计(DOE)误区讨论
技术漫谈 第01期 关于制剂研发过程中的实验设计(DOE)误区讨论 // 作者:合全药业制剂业务后期项目部 感谢合全药业制剂研发后期团队朱莹.夏彬等同事对本稿件的支持 早在2004-2005年,FDA ...
- 【深度学习】模式识别技术探索之决策树(Decision tree)
[深度学习]模式识别技术探索之决策树(Decision tree) 文章目录 1 什么是模式和模式识别? 2 常见的模式识别系统 3 应用领域 4 举例:随机森林(Random Forest)4.1 ...
- 客户端软件GUI开发技术漫谈:原生与跨平台解决方案分析
原生开发应用开发 Microsoft阵营的 Winform WinForm是·Net开发平台中对Windows Form的一种称谓. 如果你想深入的美化UI,需要耗费很大的力气,对于目前主流的CSS样 ...
- SSO(单点登录)技术漫谈
目录 1. 名词解释 2. 简介 3. SSO的优势 4. 产品表现 5. 客户需求 6. SSO技术漫谈 7. 基础组件 8. 反向代理SSO 9. 有端SSO 10. 参考资料 1. 名词解释 S ...
- 当前电子鼻系统数据处理中常用的模式识别技术
当前电子鼻系统数据处理中常用的模式识别技术 当前电子鼻数据处理中所采用的模式识别算法主要包括k近邻法(k-Nearest Neighbor ,k-NN).聚类分析(Cluster Analysis , ...
最新文章
- 数据库连接报错之IO异常(The Network Adapter could not establish the connection)
- jupyter nootbook本地使用指南
- Boost:双图bimap与Boost序列化的测试程序
- spring3.2 aop 搭建 (1)
- Java Generics示例教程 - 通用方法,类,接口
- java堆排序解决topk问题,利用堆排序来解决topK问题
- 什么是IP地址、子网掩码、路由和网关?
- BZOJ 3668: [Noi2014]起床困难综合症【二进制+贪心】
- OpenCV精进之路(十三):角点检测
- different intergers
- 多个table 相同col 的 设置相同width
- 2015年底学习汇总报告
- liferay6.2.2GA2中CKEditor在IE11与SAFARI中BUG解决方案
- 大数据学习:大数据就业前景和就业方向
- 语音信号a率压缩算法c语言,基于OMAP5912平台的语音压缩算法实现
- python matplotlib 绘制K线图(蜡烛图)
- YUV 后面数字的含义_大众车尾的280、330是什么含义?好多人不懂,买车要看准了...
- AJP:自闭症、多动症及其正常兄弟姐妹的全脑白质纤维束异常
- DDD 实战 (5):限界上下文映射和系统分层架构
- matlab中dnf,图文详解DNF里的边际效应 用数据告诉你一切
热门文章
- 2020 年百度之星·程序设计大赛 - 初赛一题解
- python制作翻译小软件_如何基于Python制作有道翻译小工具
- 【病毒】【CPU使用率为100%】Linux 被 kdevtmpfsi 挖矿病毒入侵
- 【超详细】使用Oracle VM VirtualBox 搭建一个Linux虚拟机
- “无实物尝百味”通过控制微电流刺激产生味觉—1.硬件设计篇
- 二、数码管显示原理及应用实现
- 实时云渲染和本地渲染的区别
- JNI(4) JNI Functions
- 计算机网络--万维网实验
- Linux的操作系统