机器学习 - 概念学习

上次写完决策树发现好多名词要写解释，就太多了，那么补上概念学习这部分。

简介

机器学习问题，一般都涉及从特殊训练样例中得到一般的概念。比如人们不断学习的一些一般概念：鸟类、车子、富有等等。这些都是一个集合，不是最大的集合，也不是最小的。所以给一个样例集合以及每个样例是否属于某一概念的标注，如何自动推断这个概念的一般定义，就是属于概念学习( concept learning )。

术语

概念定义在一个实例集合上，待学习的概念或函数称为目标概念。在学习概念的时候，要提供一套训练样例（training examples），每个样例为集合中的一个实例。对于所有目标概念值为1的实例称之为正例，对于为0的称之为反例。

搜索的概念学习

概念学习过程也可以看做为一个搜索过程，范围就是假设的表示所隐含的定义的整个空间。搜索的目标是为了寻找能最好的拟合训练样例的假设。当假设的表示形式选定后，那么也就隐含的为学习算法确定了所有假设的空间。

假设更一般

在许多概念学习算法中，假设的一般到特殊序的关系是一种很有效的结构。

利用假设空间的这种自然结构，我们可以在无线的假设空间中进行彻底的搜索。

FIND-S：寻找极大特殊假设

首先定义一个： more_general_than是代表『比….更一般』。

算法流程为：

将h初始化为H中最特殊假设。

对每个正例x
2.1 对h的每个属性约束a_i
2.2 如果x满足a_i
2.3 那么不做任何处理
2.4 否则讲h中a_i替换为x满足的下一个更一般的约束

输出假设h

其实整个算法比较简单：

先定义一个假设：

h <- { *, *, *, * } //这里*代表空

首先第一个满足的假如是：

h <- { S, W, N, M } //每个字母代表一个属性

假设：对于 {s, Y, N, M}也是满足的约束。
那么遍历到这个约束的时候就要替换：

h <- { S, ?, N, M } //?代表更一般约束，表示W, Y都可以

这就是FIND-S的算法。

Finds的特点：对以属性约束的合取式描述的假设空间。
问题：
1. 学习过程是否收敛到正确的目标概念？
2. 为什么要用最特殊假设
3. 训练样例是否互一致？
4. 如果有多个极大特殊假设怎么办？

变型空间和候选消除算法

候选消除算法（Candidate elimination）能解决Find-s的一些问题。
其中包括候选消除算法输出的是与训练样例一致的所有假设的集合。并且在描述这一集合的时候不需要明确列举其所有成员

消除候选算法的应用：从化学质谱分析中学习规则行和学习启发式搜索的控制规则。

但是这两个算法都是有限制的：他们在训练数据含有噪声时候的性能比较差。

表示

定义：一个假设h与训练阳历集合D一致，当且仅当对D中每一个样例{ x, c(x) } 都有 h(x) = c(x)。

列表后消除算法

算法实现流程如下：

列表后消除算法
1. 变型空间 VersionSpace <- 包含H中所有假设的列表
2. 对每个训练阳历{ x , c(x) }
2.1 从变型空间中移除所有 h(x) 不等于 c(x) 的假设h
3. 输出VersionSpace中的假设列表

原则上，只要假设空间是有限的，就可以使用列表后消除算法。

暂时先写这么多。