文本分类入门(三)统计学习方法

前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集，自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类，然而遗憾的是，我们所说的“理解”往往指的是文章的语义甚至是语用信息，这一类信息极其复杂，抽象，而且存在上下文相关性，对这类信息如何在计算机中表示都是尚未解决的问题（往大里说，这是一个“知识表示”的问题，完全可以另写一系列文章来说了），更不要说让计算机来理解。

利用计算机来解决问题的标准思路应该是：为这种问题寻找一种计算机可以理解的表示方法，或建立一个模型（一个文档表示模型）；然后基于这个模型，选择各方面满足要求的算法来解决。用谭浩强的话说，程序，就是数据+算法。（啥？你不知道谭浩强是谁？上过学么？学过C么？这捣什么乱？）

既然文本的语义和语用信息很难转换成计算机能够理解的表示形式，接下来顺理成章的，人们开始用文章中所包含的较低级别的词汇信息来表示文档，一试之下，效果居然还不错。

统计学习方法进行文本分类（以下就简称为“统计学习方法”，虽然这个方法也可以应用到除文本分类以外的多个领域）的一个重要前提由此产生，那就是认为：文档的内容与其中所包含的词有着必然的联系，同一类文档之间总存在多个共同的词，而不同类的文档所包含的词之间差异很大[1]。

进一步的，不光是包含哪些词很重要，这些词出现的次数对分类也很重要。

这一前提使得向量模型（俗称的VSM，向量空间模型）成了适合文本分类问题的文档表示模型。在这种模型中，一篇文章被看作特征项集合来看，利用加权特征项构成向量进行文本表示，利用词频信息对文本特征进行加权。它实现起来比较简单，并且分类准确度也高，能够满足一般应用的要求。[5]

而实际上，文本是一种信息载体，其所携带的信息由几部分组成：如组成元素本身的信息（词的信息）、组成元素之间顺序关系带来的信息以及上下文信息（更严格的说，还包括阅读者本身的背景和理解）[12]。

而VSM这种文档表示模型，基本上完全忽略了除词的信息以外所有的部分，这使得它能表达的信息量存在上限[12]，也直接导致了基于这种模型构建的文本分类系统（虽然这是目前绝对主流的做法），几乎永远也不可能达到人类的分类能力。后面我们也会谈到，相比于所谓的分类算法，对特征的选择，也就是使用哪些特征来代表一篇文档，往往更能影响分类的效果。

对于扩充文档表示模型所包含的信息量，人们也做过有益的尝试，例如被称为LSI（Latent Semantic Index潜在语义索引）的方法，就被实验证明保留了一定的语义信息（之所以说被实验证明了，是因为人们还无法在形式上严格地证明它确实保留了语义信息，而且这种语义信息并非以人可以理解的方式被保留下来），此为后话。

前文说到（就不能不用这种老旧的说法？换换新的，比如Previously on "Prison Break"，噢，不对，是Previously on Text Categorizaiton……）统计学习方法其实就是一个两阶段的解决方案，（1）训练阶段，由计算机来总结分类的规则；（2）分类阶段，给计算机一些它从来没见过的文档，让它分类（分不对就打屁屁）。

下一章就专门说说训练阶段的二三事。

参考:

http://wiki.52nlp.cn/

http://www.blogjava.net/zhenandaci/category/31868.html

[1]李晓明，闫宏飞，王继民，“搜索引擎——原理、技术与系统”.科学出版社，2004
[2]冯是聪, "中文网页自动分类技术研究及其在搜索引擎中的应用," 北京大学,博士论文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王涛：文本自动分类研究，图书馆学研究，2007.12
[6]周文霞：现代文本分类技术研究，武警学院学报，2007.12
[7]奉国和：自动文本分类技术研究，情报杂志，2007.12
[8]崔彩霞，张朝霞：文本分类方法对比研究，太原师范学院学报（自然科学版），2007.12
[9]吴军：Google黑板报数学之美系列，http://googlechinablog.com
[10]刘霞，卢苇：SVM在文本分类中的应用研究，计算机教育，2007.1
[11]都云琪，肖诗斌：基于支持向量机的中文文本自动分类研究,计算机工程，2002，28(11)
[12]周昭涛，卜东波：文本的图表示初探，中文信息学报，第19卷第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生，张磊：文本分类研究进展
[15]李莼，罗振声：基于语义相关和概念相关的自动分类方法研究，计算机工程与应用，2003.12
[16]单松巍，冯是聪，李晓明：几种典型特征选取方法在中文网页分类上的效果比较，计算机工程与应用，2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)，l997
[18]董振东：知网简介，知网，http://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies，1997
[20] Edda Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines：How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司，TRS文本挖掘基础件白皮书
[25]苏金树，张博锋：基于机器学习的文本分类技术研究进展，Journal of Software,2006.9

文本分类入门(三)统计学习方法相关推荐

文本分类入门(一)文本分类问题的定义
原博客地址:http://www.blogjava.net/zhenandaci/category/31868.html?Show=All 文本分类入门(一)文本分类问题的定义文本分类系列文章,从文 ...
文本分类入门(四)训练Part 1
文本分类入门(四)训练Part 1 训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?). 开始训练之前,再多 ...
文本分类入门(二)文本分类的方法
文本分类入门(二)文本分类的方法文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配 ...
文本分类入门（番外篇）特征选择与特征权重计算的区别
文本分类入门(番外篇)特征选择与特征权重计算的区别在文本分类的过程中,特征(也可以简单的理解为"词")从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化- ...
NLP文本分类入门学习及TextCnn实践笔记——模型训练（三）
这篇记模型训练. 距离第一篇已过去一个月.从学习到正式启动模型训练,花了两周.模型训练召回率和准确率达到上线标准又花了两三周. 训练及测试样本评估的精确率都是97%.98%,结果一到线上实验,结果惨不 ...
文本特征选择 java代码_文本分类入门（十）特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...
文本分类入门（十）特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...
[转]文本分类入门（番外篇）特征选择与特征权重计算的区别
原文地址:http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html 在文本分类的过程中,特征(也可以简单的理解为"词 ...
文本分类入门(七)相关概念总结
学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]. 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22].最典型的监督学习例子就是文本分类问题, ...

文本分类入门(三)统计学习方法

文本分类入门(三)统计学习方法相关推荐

最新文章

热门文章