生成式模型与判别式模型

生成式模型与判别式模型的区别

生成式模型（Generative Model）与判别式模型（Discriminative Model）是分类器常遇到的问题

对于判别式模型来说求得P(Y|X)，对未见示例X，根据P(Y|X)可以求得标记Y，即可以直接判别出来，如上图的左边所示，实际是就是直接得到了判别边界，所以传统的、耳熟能详的机器学习算法如线性回归模型、支持向量机SVM等都是判别式模型，这些模型的特点都是输入属性X可以直接得到Y（对于二分类任务来说，实际得到一个score，当score大于threshold时则为正类，否则为反类）~（根本原因个人认为是对于某示例X_1，对正例和反例的标记的条件概率之和等于1，即P(Y_1|X_1)+P(Y_2|X_1)=1）

而生成式模型求得P(Y,X)，对于未见示例X，你要求出X与不同标记之间的联合概率分布，然后大的获胜，如上图右边所示，并没有什么边界存在，对于未见示例（红三角），求两个联合概率分布（有两个类），比较一下，取那个大的。机器学习中朴素贝叶斯模型、隐马尔可夫模型HMM等都是生成式模型，熟悉Naive Bayes的都知道，对于输入X，需要求出好几个联合概率，然后较大的那个就是预测结果~（根本原因个人认为是对于某示例X_1，对正例和反例的标记的联合概率不等于1，即P(Y_1,X_1)+P(Y_2,X_1)<1，要遍历所有的X和Y的联合概率求和，即sum(P(X,Y))=1，具体可参见楼上woodyhui提到的维基百科Generative model里的例子）

它们的区别在于：对于输入数据x，类别标记y，判别式模型求得是P（Y|X），即后验概率；而生成式模型最后求的是P（X，Y），即联合概率。从本质上来说：

判别式模型之所以称为“判别式”模型，是因为其根据X来判别Y，直接对条件概率P(Y|X)建模。不考虑数据的分布，主要寻找异类间的差异或分类面，直面预测，可以将数据进行抽象及特征表示，可以简化学习任务，提高学习效率及准确率。

而生成模型之所以称为“生成”模型，是因为其预测的根据是联合概率P(X,Y)，而联合概率可以理解为“生成”(X,Y)样本的概率分布（或称为依据）；具体来说，机器学习已知X，从Y的候选集合中选出一个来，可能的样本有(X,Y_1), (X,Y_2), (X,Y_3),……，(X,Y_n),实际数据是如何“生成”的依赖于P(X,Y)，那么最后的预测结果选哪一个Y呢？那就选“生成”概率最大的那个吧~

生成式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。生成方法的学习收敛速度更快，当样本容量增加时，学习到的模型可以更快的收敛到真实模型。

通常来说，因为生成式模型要对类条件密度P(x|y)进行建模，而判别式只需要对类后验密度进行建模，前者通常会比后者要复杂，更难以建模。

举例子：

我们利用训练集直接对条件概率p(y|x;θ)建模，例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模（其中g(z)是sigmoid函数）。假设现在有一个分类问题，要根据一些动物的特征来区分大象(y = 1)和狗(y = 0)。给定这样的一种数据集，回归模型比如logistic回归会试图找到一条直线也就是决策边界，来区分大象与狗这两类，然后对于新来的样本，回归模型会根据这个新样本的特征计算这个样本会落在决策边界的哪一边，从而得到相应的分类结果。

　　现在我们考虑另外一种建模方式：首先，根据训练集中的大象样本，我们可以建立大象模型，根据训练集中的狗样本，我们可以建立狗模型。然后，对于新来的动物样本，我们可以让它与大象模型匹配看概率有多少，与狗模型匹配看概率有多少，哪一个概率大就是那个分类。

一个通俗易懂的解释

　　Let's say you have input data x and you want to classify the data into labels y. A generative model learns the joint probability distribution p(x,y) and a discriminative model learns the conditional probability distribution p(y|x) – which you should read as 'the probability of y given x'.

　　Here's a really simple example. Suppose you have the following data in the form (x,y):

(1,0), (1,0), (2,0), (2, 1)

　　p(x,y) is

	y=0	y=1
x=1	1/2	0
x=2	1/4	1/4

　　p(y|x) is

	y=0	y=1
x=1	1	0
x=2	1/2	1/2

If you take a few minutes to stare at those two matrices, you will understand the difference between the two probability distributions.The distribution p(y|x) is the natural distribution for classifying a given example x into a class y, which is why algorithms that model this directly are called discriminative algorithms. Generative algorithms model p(x,y), which can be tranformed into p(y|x) by applying Bayes rule and then used for classification. However, the distribution p(x,y) can also be used for other purposes. For example you could use p(x,y) to generate likely (x,y) pairs.

　From the description above you might be thinking that generative models are more generally useful and therefore better, but it's not as simple as that. This paper is a very popular reference on the subject of discriminative vs. generative classifiers, but it's pretty heavy going.The overall gist is that discriminative models generally outperform generative models in classification tasks.

两个模型的对比

两者所包含的算法

生成式模型

判别式分析
朴素贝叶斯
K近邻(KNN)
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)

判别式模型

线性回归(Linear Regression)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)

参考资料：

http://blog.csdn.net/wolenski/article/details/7985426

http://blog.csdn.net/ai_vivi/article/details/41204309

https://www.zhihu.com/question/20446337