一、文本分类

1、什么是文本分类?

文本分类,就是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。

2、文本分类的具体步骤?

(1)构建分类类别体系

(2)获取带有类别标签的文本

(3)文本的特征选择及权重计算

(4)分类器的选择与训练

(5)文本的分类应用

3、类别体系

一般的文本分类基于文本内容,将文本自动划分为政治、经济、军事、体育等等类别。按目前互联网网页内容分类,还可以覆盖更多类别,比如旅游资讯、游戏、人物访谈、音乐、影视、软件、文学、健康、美食、财经、教育、广告、犯罪、自然灾害等,每一个分类还可以拓展子分类,具体情况还需要以实际项目需求为准。

对应每一个类别,都可以训练出对应的词特征文件。对应到类别的细分或者合并,只需要简单的将词特征文件按需要进行分拆或者合并,具有比较好的扩展性。

4、文本获取

互联网信息资讯非常庞大,除了各大厂商自身拥有的海量数据,还可以基于爬虫技术进行数据获取,这里有一个简单的例子:京东商城评论数据获取

但实际上互联网上存在非常多没有标注的数据,这时候可以考虑无监督或者弱监督的方法,不过效果相比监督方法较差。这时候可以选择人工进行标注,但这部分工作异常耗费人力。

5、文本特征选择

(1)什么是文本?

一个文本表现为一个由文字和标点符号组成的字符串,由字或字符组成词,由词组成短语,进而形成句、段、节、章、篇的结构。

(2)为什么要选择特征?

要进行文本分类,必须将文本转化为计算机可以理解的形式,这种形式要能够真实反映文本的内容并且具有将不同文档区分开的能力。

(3)什么是特征?

目前比较流行的方法是将文本表示为向量空间模型(VSM),如one-hot向量等。而特征是VSM中最小的不可分的语言单元,可以使字、词、词组或者短语等。一个文本可以看成是它含有的特征项所组成的集合,如进行分本分词后产生的词列表,关于分词可以参考:浅谈中文分词与jieba源码

(4)怎么选择特征?

在进行文本分词后,会产生大量的词,而很多词如:“”我“”,“”的“”等对于类别不具有可分性,同时如果特征数目太大,膨胀起来也会造成位数灾难等困难,所以需要对特征进行一定的选择,下面列举几种特征选择方法,不做详细介绍:

1)基于文档频率的特征提取

2)信息增益法

3)卡方统计量

4)互信息法

6、特征权重计算

关于文本的表示,实际上不只是特征的集合,而应该是特征与该特征的权重的某种组合。特征的权重衡量了某个特征在文本表示中的重要程度或区分能力的强弱。

下面同样列举几种方法:

1)布尔权重:这种方法形式成的文本表示一般称为one-hot向量

2)TF、IDF、TF-IDF:基本文本频率或文本频率倒排的计算,TF-IDF效果相对较好

3)基于错误驱动的方法

这里说一说目前比较流行的word2vec,笔者不太确定这个方法是否归于这个分类底下,但从字面意义理解上很相似。word2vec严格来说并不能算是一种权重计算方法,该方法的作者实际上是提出几种训练语言模型的方法,在训练完毕后得到的副产品才是所谓的词向量,但总体来说同样起到了权重计算的方法。

7、分类器的选择、训练与应用

前面将文本表示构建完毕,接下来就是分类器部分了。关于分类的内容比较多,这里只是简单列举几种方法,不做介绍:

传统的统计学习方法:支持向量机、朴素贝叶斯、knn,或者深度学习方法:CNN、RNN等等

二、情感分类

1、什么是情感分类?

与上文的文本分类不同,情感分类是对带有感情色彩的主观性文本进行分析,将文本分为积极、中性、消极等类型的过程。按照处理文本的粒度不同,情感分类可以分为词语级、短语级、句子级、篇章级以及多篇章级等层次;按处理的文本类别不同,可分为基于新闻的情感分类和基于产品评论的情感分类等等。

大部分处理过程与上述文本分类很相似,这里不多介绍。

2、情感分类的主要方法

(1)基于词典的方法

基于词库的方法的关键点在于极性词库的搭建,这里可以寻找网站的开源的极性词典或者手工抽取标注,是一个比较耗费人力的过程。

具体的方法可以简化为,对文本进行分词,之后对比极性词库,通过计算句子的正面得分,比如有多少词是正面的,与负面得分,及两者相加的综合得分,设定阈值进行比较,得到该文本的情感极性。

(2)基于机器学习的方法

基本上的方法和文本分类很相似,但关于情感分类在特征选择从而进行分类上有一些不同的地方

1)特征

情感分类中,有一种方法称为全词表法,即是将初步分词去燥之后的所有词都作为特征,结合已标注文本进行模型训练。这样的好处是单词能够全面保留,但特征维度较大。

另一种方法称为极性词表法,同文本特征选择,将用某种方法选择出来的特征保存下来,经过人工审核后,纳入极性词表,作为文本特征进行训练,这里和基于的词典的方法有一部分工作是相同的。

2)分类

情感极性判断中,如果进行积极、消极、中性的判断,这是一个三分类问题。但如果是评论的极性判断,则可以进行简化。

首先进行主客观判断,将客观语料分为中性,之后再进行正负极性的判断。这样,就可以把一个复杂的三分类问题,简化成两个二分类问题了。

三、参考

1、《统计自然语言处理》  宗成庆

2、《情感分类研究进展》  陈龙

3、https://www.qcloud.com/community/article/164816001481011844  腾讯文智

4、https://www.qcloud.com/community/article/164816001481011804  腾讯文智

情感极性:关于中文情感分类的知识相关推荐

  1. java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...

    目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...

  2. java 情感分析_Alink中文情感分析示例(Java版本)

    Alink是基于Flink的机器学习算法平台,欢迎访问Alink的github获取下载链接及更多信息.alibaba/Alink​github.com 也欢迎加入钉钉群进行交流. 情感分析是对带有情感 ...

  3. 基于LSTM的中文多分类情感分析

    趁着国庆假期,玩了一下深度学习(主要是LSTM这个网络),顺便做了一个中文多分类的情感分析.中文情感分析相对英文来说,难度太大,所以最后分析的结果,准确度也不是太高,但基本还是没啥问题的. 对应的ap ...

  4. 基于Python的情感极性判断(基于规则、基于逻辑回归、基于朴素贝叶斯)

    资源下载地址:https://download.csdn.net/download/sheziqiong/85734418 资源下载地址:https://download.csdn.net/downl ...

  5. 关于《流浪地球》炸裂的口碑,机器学习竟然是这样评价的————Python文本情感极性分析详解(上)

    NLP(神经语言程序学/自然语言学习)是当前机器学习领域一个重要的分支,就是用机器学习模型来理解处理人类的自然语言,并给出符合自然语言逻辑的反馈. 自然语言学习中具体的工作包括,教会程序用算法来正确地 ...

  6. NLP第12课:完全基于情感词典的文本情感分析

    目前情感分析在中文自然语言处理中比较火热,很多场景下,我们都需要用到情感分析.比如,做金融产品量化交易,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度:电商交易,根据买家的评论数据,来 ...

  7. python情感分析语料库_利用Python实现中文情感极性分析

    情感极性分析,即情感分类,对带有主观情感色彩的文本进行分析.归纳.情感极性分析主要有两种分类方法:基于情感知识的方法和基于机器学习的方法.基于情感知识的方法通过一些已有的情感词典计算文本的情感极性(正 ...

  8. 中文情感极性词典 NTUSD

    中文情感极性词典 NTUSD 数据介绍 项目背景 情感分析是近年来在计算机领域内比较火热的一个研究方向,目前公认的情感分析比较系统的研究工作开始于基于监督学习方法对电影评论文本进行情感倾向性分类和基于 ...

  9. 中文文本分类——商品评论情感判别

    目录 1.数据集下载 2.载入数据,做预处理(分词),切分训练集与测试集 3.计算训练集和测试集每条评论数据的向量并存入文件 4.获得训练集向量和标签,测试集向量和标签 5.训练SVM模型 6.构建待 ...

  10. 电商评论文本情感分类(中文文本分类)(第二部分-Bert)

    电商评论文本情感分类(中文文本分类) 第二部分-Bert部分 第一部分:textcnn部分 本项目包含: 1.中文文本处理 2.中文词云图绘制(在第一部分) 3.中文词嵌入 4.基于textcnn的中 ...

最新文章

  1. 干货!用 Python 快速构建神经网络
  2. 树莓派 ubuntu 18.04 安装 .NET Core
  3. 游戏玩家行为基本模式的初探小汇
  4. leetcode 110. 平衡二叉树
  5. Pytorch中矩阵用sum()函数求和降维是怎么回事
  6. JVM内存堆布局图解分析
  7. java oom-killer_与Linux OOM-killer的第一次亲密接触
  8. 手机APP夏季促销UI设计PSD模板|糖果色彩,抓住眼球
  9. nginx 转发慢_Nginx快速入门之Nginx反向代理与负载均衡
  10. 【NOIP 2016】组合数问题
  11. LLVM编译技术应用分析
  12. pix4d无人机影像处理_PhotoScan和Pix4Dmapper的无人机影像快速处理模式对比实验
  13. 脉动计算机没有指令计数器,脉冲计数器电路图设计(三) - 脉冲计数器电路图大全(六款脉冲计数器电路设计原理图详解)...
  14. 关于企业邮箱域名备案方法【企业邮箱申请】
  15. 不用群发,就可以查看你被哪些微信好友删除了
  16. 用ECS做HexMap:鼠标点击六边形单元涂色
  17. 浅析2022年6月六级翻译真题
  18. Python学习之学校教学( 已知复数,请写出它的模、实部、虚部及共轭复数)
  19. java生成6随机数字和字母_Java生成含字母和数字的6位随机字符串
  20. 【大数据 / linux 系统 / KEN】linux 基本命令的使用(3)

热门文章

  1. jit流线制_JIT精益生产实务四—安定化生产.ppt
  2. php多语言商城,Ecshop商城多国语言修改方法
  3. nRF52笔记(5)sniffer 抓包
  4. 利用身体记忆GRE词汇
  5. mc服务器小地图不显示玩家,为啥小地图莫名消失了 玩家:或许是它喝完随机饮料后 自己隐身了...
  6. 华为手机usb连接计算机,华为手机USB为什么连接不上电脑(3个方法彻底解决)...
  7. PKI加密体系加密过程及原理
  8. Windows XP下用Modem发送传真(ZZ)
  9. 如何用photoshop做24色环_PS教程!手把手教你快速绘制超漂亮的色环!
  10. ubuntu18.04引导界面、登录界面美化