文本自动分类是分析特定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。文本分类一般包括文本的表示、分类器的选择和训练、分类结果的评价与反馈等过程,其中文本的表示有可细分为文本分词、特征抽取等步骤。文本分类系统的总体框架如图1所示,其主要功能模块有一下四个:

由文本分类过程可以看出,中英文分类,在训练阶段之前都要经过一个表示和预处理的过程,即:表示成计算机能够“认识”事物,并且需要去除无用的信息,减少后续步骤的复杂度和计算负担,这个过程中中英文存在着显著的不同点。

首先是文本表示,要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(即:分词),例如中文原文是“江苏省是中国经济发达的省份之一”的文本就要被切分成“江苏省/是,中国,经济,发达,的,省份,之一”这样的形式。英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来。分词的效果对文本分类的效果影响很大,在后面的流程中,分词是后续流程的基础,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。

分词之后的“去停止词”阶段,中英文的也存在的差别,目的都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“他”,“是”,“之一”,“的”这样的词汇都会被去除,英文也需要消除“an”,“in”,“the”等。中英文“去停词”,一般都是通过查一个对应表进行的。

中文经过“去停词”处理后基本就可以进入下一个阶段了,英文还不行,需要进一步词根还原。人们都知道,英文同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。例如:writed和writing都应该还原成write,因为其作为词,表示的意思相同,所以需要“词根还原”。

经过预处理步骤之后,训练文本和待分类文本都被表示成了节省资源,计算机“认识”的形式,后面的其他阶段中英文的分类处理就基本相同。

转载于:https://www.cnblogs.com/1701fourth/p/8472777.html

中英文文本分类的区别相关推荐

  1. 文本分类入门(四)训练Part 1

    文本分类入门(四)训练Part 1 训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?). 开始训练之前,再多 ...

  2. 文本分类入门(一)文本分类问题的定义

    原博客地址:http://www.blogjava.net/zhenandaci/category/31868.html?Show=All 文本分类入门(一)文本分类问题的定义 文本分类系列文章,从文 ...

  3. python文本分类_教你用python做文本分类

    什么是文本分类 一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个.通俗点说,就是拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育.文本分类是一个监督学习的过程,常见的应用就是 ...

  4. 【NLP文本分类算法集锦】零基础入门经典文本分类项目实战(附代码+数据集)

    前言 大家好,我是阿光. 本专栏整理了<NLP文本分类算法集锦>,内包含了各种常见的中英文文本分类算法,以及常见的NLP任务:情感分析.新闻分类以及谣言检测等. 文本分类是NLP的必备入门 ...

  5. 文本分类入门(番外篇)特征选择与特征权重计算的区别

    文本分类入门(番外篇)特征选择与特征权重计算的区别 在文本分类的过程中,特征(也可以简单的理解为"词")从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化- ...

  6. [转]文本分类入门(番外篇)特征选择与特征权重计算的区别

    原文地址:http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html 在文本分类的过程中,特征(也可以简单的理解为"词 ...

  7. 文本分类和聚类有什么区别

    简单点说:分类是将一篇文章或文本自动识别出来,按照已经定义好的类别进行匹配,确定.聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术.分类和聚类都是将相似对象归 ...

  8. 文本分类方案,飞浆PaddleNLP涵盖了所有

    文章目录 1.前言 2.核心技术 2.1 文本分类方案全覆盖 2.1.1 分类场景齐全 2.1.2 多方案满足定制需求 方案一:预训练模型微调 方案二:提示学习 方案三:语义索引 2.2 更懂中文的训 ...

  9. 文本分类——NLV算法研究与实现

    内容提要 1 引言 2 NLV算法理论 2.1 训练模型 2.2 分类模型 3 NLV算法实现 3.1 算法描述 4 实验及性能评估 4.1 实验设计 4.1.1 实验环境 4.1.2 数据集 4.1 ...

最新文章

  1. SQL查询分析器使用
  2. LeetCode——Contains Duplicate III
  3. 【笔记】Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La
  4. 二十八、深入浅出Python中的 logging模块
  5. 如何解决IE地址栏前小图标不显示问题
  6. 在数据采集器中用TensorFlow进行实时机器学习
  7. utilities(C/C++)
  8. yum安装mysql my.cnf_Linxu Yum方式安装Mysql
  9. http status 400 – bad request 亚马逊_蛮拼的!这个亚马逊卖家为Prime Day做了这三大准备,销量暴涨58倍...
  10. 20170403_Windows网络编程视频学习1
  11. itools 苹果录屏大师 java_itools录屏大师
  12. 使用Clip Converter网站下载Yotube视频
  13. 双十一淘宝抢购脚本,seleium模块
  14. 计算机网络协议有那些,计算机网络协议有哪些
  15. 从目标检测到小目标检测
  16. js处理移动端有虚拟按键影响页面布局的处理方法
  17. Python包 - networkx
  18. but GITEE.COM does not provide shell access
  19. php直接读取导入excel文件内容
  20. android登陆界面设计方案,011android初级篇之android登录界面的设计

热门文章

  1. 针对校园 移动 联通 路由器安装方法
  2. Python 常见单词-集合
  3. 8个Spring事务失效的场景,你碰到过几种?
  4. SQLServer 数学函数
  5. ​真的存在可以检测万物的模型吗?联汇科技提出了一种有趣的解决方案
  6. MacOS 系统版本更新Monterey12.3.1版之后l2tp无法正常访问
  7. Python 头像上右下角添加小红旗
  8. EBS功能_PO匹配审批层总结
  9. [附源码]计算机毕业设计Python+uniapp基于android手机设计并实现在线点单系统APPo682z(程序+源码+LW+远程部署)
  10. 动量和马科维茨Markowitz投资组合(Portfolio)模型实现