文本分类入门(九)文本分类问题的分类

开始之前首先说说分类体系。回忆一下，分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。

其中包含着两方面的内容：

一，类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构，这意味着一个类有多个子类，而一个子类唯一的属于一个父类。这种类别体系很常用，却并不代表它在现实世界中也是符合常识的，举个例子，“临床心理学”这个类别应该即属于“临床医学”的范畴，同时也属于“心理学”，但在分类系统中却不便于使用这样的结构。想象一下，这相当于类别的层次结构是一个有环图，无论遍历还是今后类别的合并，比较，都会带来无数的麻烦。

二，文档与类别间的关系。一般来说，在分类系统中，我们倾向于让一篇文档唯一的属于一个类别（更严格的说，是在同一层次中仅属于一个类别，因为属于一个类别的时候，显然也属于这个类别的父类别），这使得我们只适用一个标签就可以标记这个文档的类别，而一旦允许文档属于多个类别，标签的数目便成为大小不定的变量，难于设计成高效的数据结构。这种“属于多个”类的想法更糟的地方在于文档类别表示的语义方面，试想，如果姚明给灾区捐款的新闻即属于灾区新闻，也属于体育新闻的话（这在现实中倒确实是合情合理的），当用户使用这个系统来查找文档，指定的条件是要所有“属于灾区新闻但不属于体育新闻的新闻”（有点拗口，不过正好练嘴皮子啦，笑）的时候，这篇姚明的报道是否应该包含在查询结果中呢？这是一个矛盾的问题。

文本分类问题牵涉到如此多的主题，本身又含有如此多的属性，因此可以从多个角度对文本分类问题本身进行一下分类。

分类系统使用何种分类算法是分类系统的核心属性。如果一个分类算法在一次分类判断时，仅仅输出一个真假值用来表示待分类的文档是否属于当前类别的话，这样的系统就可以叫做基于二元分类器的分类系统。有些分类算法天然就是独立二元的，例如支持向量机，它只能回答这个文档是或不是这个类别的。这种分类算法也常常被称为“硬分类”的算法（Hard Categorization）。而有的算法在一次判断后就可以输出文档属于多个类别的得分（假设说，得分越大，则说明越有可能属于这个类别），这类算法称为“排序分类”的算法（Ranking Categorization），也叫做m元分类算法。kNN就是典型的m元分类算法（因为kNN会找出与待分类文档最相近的训练样本，并记录下这些样本所属的分类）。

参考:

http://wiki.52nlp.cn/

http://www.blogjava.net/zhenandaci/category/31868.html

[1]李晓明，闫宏飞，王继民，“搜索引擎——原理、技术与系统”.科学出版社，2004

[2]冯是聪, "中文网页自动分类技术研究及其在搜索引擎中的应用," 北京大学,博士论文, 2003

[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.

[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999

[5]王涛：文本自动分类研究，图书馆学研究，2007.12

[6]周文霞：现代文本分类技术研究，武警学院学报，2007.12

[7]奉国和：自动文本分类技术研究，情报杂志，2007.12

[8]崔彩霞，张朝霞：文本分类方法对比研究，太原师范学院学报（自然科学版），2007.12

[9]吴军：Google黑板报数学之美系列，http://googlechinablog.com

[10]刘霞，卢苇：SVM在文本分类中的应用研究，计算机教育，2007.1

[11]都云琪，肖诗斌：基于支持向量机的中文文本自动分类研究,计算机工程，2002，28(11)

[12]周昭涛，卜东波：文本的图表示初探，中文信息学报，第19卷第2期

[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999

[14]唐春生，张磊：文本分类研究进展

[15]李莼，罗振声：基于语义相关和概念相关的自动分类方法研究，计算机工程与应用，2003.12

[16]单松巍，冯是聪，李晓明：几种典型特征选取方法在中文网页分类上的效果比较，计算机工程与应用，2003.22

[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)，l997

[18]董振东：知网简介，知网，http://www.keenage.com/zhiwang/c_zhiwang.html

[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies，1997

[20] Edda Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines：How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002

[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”

[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000

[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002

[24]TRS公司，TRS文本挖掘基础件白皮书

[25]苏金树，张博锋：基于机器学习的文本分类技术研究进展，Journal of Software,2006.9

文本分类入门(九)文本分类问题的分类相关推荐

文本分类入门(一)文本分类问题的定义
原博客地址:http://www.blogjava.net/zhenandaci/category/31868.html?Show=All 文本分类入门(一)文本分类问题的定义文本分类系列文章,从文 ...
文本分类入门(二)文本分类的方法
文本分类入门(二)文本分类的方法文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配 ...
文本分类入门(四)训练Part 1
文本分类入门(四)训练Part 1 训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?). 开始训练之前,再多 ...
文本分类入门(三)统计学习方法
文本分类入门(三)统计学习方法前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据.理想的结果当然是让计算机在理解文章内容的基础上进 ...
文本分类入门（番外篇）特征选择与特征权重计算的区别
文本分类入门(番外篇)特征选择与特征权重计算的区别在文本分类的过程中,特征(也可以简单的理解为"词")从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化- ...
文本分类入门(六)训练Part 3
SVM算法支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本.非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数 ...
NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等
NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等专栏链接:NLP领域知识+项目+码源+方案设计订阅本专栏你能获得什 ...
深度学习应用篇-自然语言处理[10]：N-Gram、SimCSE介绍，更多技术：数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
[深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...
R语言构建文本分类模型：文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、基于自定义函数构建xgboost文本分类模型
R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.基于自定义函数构建xgboost文本分类模型目录

文本分类入门(九)文本分类问题的分类

文本分类入门(九)文本分类问题的分类相关推荐

最新文章

热门文章