基于词典方法和机基于器学习方法的中文情感倾向分析（Web）

向AI转型的程序员都关注了这个号????????????

人工智能大数据与深度学习公众号：datayx

文本情感分析又称意见挖掘，是对包含用户观点、喜好、情感等主观性文本进行挖掘、分析及判别它是一个多学科交叉的研究领域，涉及概率论、 数据统计分析、 计算机语言学、 自然语言处理、 机器学习、 信息检索、 本体学 ( Ontology) 等多个学科及其相关技术。鉴于其在用户意见挖掘、垃圾邮件过滤及舆情分析等多个领域具有重要的应用价值，文本情感分析正受到国内外众多研究机构和学者的重视。

情感分析可归纳为情感信息抽取、情感信息分类及情感信息的检索与归纳三项层层递进的研究任务。本文研究的重点是情感信息分类，旨在将文本情感分为褒义、贬义两类或者更细致的情感类别。

按照分析文本的粒度不同，情感信息分类可分为词语级 、 短语级 、 句子级 、 篇章级 等几个研究层次。

目前，情感分类大致涌现出两种研究思路: 基于情感知识 和 基于特征 。

前者主要是基于已有的情感词典或情感知识库对文本中带有情感或极性的词( 或词语单元) 进行加权求和，而后者主要是对文本提取具有类别表征意义的特征，再基于这些特征使用机器学习算法进行分类。

项目目标

使用机器学习和情感词典这两种方法分别对中文新闻类文本进行情感极性分析
输入一段新闻文本能够得到文本的情感极性

代码获取方式：

分享本文到朋友圈

关注微信公众号 datayx 然后回复情感分析即可获取。

AI项目体验地址 https://loveai.tech

店铺地址：

https://shop585613237.taobao.com

↓

目标人群

需要对已有中文文本数据进行情感分析的企业及用户
APP中需要集成中文文本情感分析功能的开发人员
从事中文文本情感分析与挖掘的研究人员

项目边界

本项目是一个向有中文文本情感分析需求的人员提供接口服务，并尽可能提高服务质量的APP。

用户可以通过浏览我们的网站来体验我们的中文文本情感分析服务，并且可以参与到我们的用户体验改善

计划中：通过向系统机器学习方法接口传递一个已知情感极性的文本及其情感极性来不断训练我们的模型,

同时也可以查看系统返回的分析结果向我们后台反馈错误, 错误样例被相应数据库所记录。

这样，我们可以不断修复导致用户反馈的错误的bug，以及使用日益完善的模型来不断提高我们向用户提供

的服质量。此外，需要在项目中使用中文文本情感分析功能的开发人员可以向我们申请服务接口来进一步使

用我们所提供的服务。

what we can do
- 机器学习方法的接口，接受一个中文文本，可得到一个正向情感极性的概率和负向情感
  
  的概率。
- 基于情感词典的方法的接口，输入一段中文文本，可得到文本的情感极性分值。
- 可对篇章级、段落级、句子级的中文文本进行情感极性判断。
- 基于情感词典的方法的接口，可以使用不同的情感词典对中文文本进行情感分析。
- 基于机器学习的方法的接口，可以导入一个训练好的模型来对中文文本进行情感分析。
- 提供了训练模型和测试准确率的接口，方便开发者及用户测试我们算法，并汇报错误。
- 提供了一个数据库用来记录常见的分析用语，以及分析错误的语句，便于开发者完善情感
  
  分析算法以及修复程序中的bug。

what we cannot do
- 无法识别除中文以外的其他语言的文本
- 无法识别中文文本中的描述对象，无法得出所描述对象的情感极性值
- 暂时无法对中文文本中蕴含的情感进行分类（喜怒哀乐等）

项目需求分析

系统KAOS图

目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情感词典，英文的词典有很多，中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集，通过提取文本特征，构建分类器来实现情感的分类。

文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落篇章级情感分析主要是针对某个主题或事件进行倾向性判断，一般需要构建对应事件的情感词典，如电影评论的分析，需要构建电影行业自己的情感词典效果会比通用情感词典效果更好；也可以通过人工标注大量电影评论来构建分类器。句子级的情感分析大多事通过计算句子里包含的所有情感词的平均值来得到。

篇章级的情感分析，也可以通过聚合篇章中所有的句子的情感倾向来计算得出。因此，针对句子级的情感倾向分析，既能解决较短文本的情感分析，同时也可以是篇章级文本情感分析的基础。

过程流设计

使用情感词典方法的过程流 :

使用机器学习方法的过程流:

机器学习算法设计

背景

机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类，机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。

而词典方法适用的语料范围更广，无论是手机、电脑这些商品，还是书评、影评这些语料，都可以适用。但机器学习则极度依赖语料，把手机语料训练出来的的分类器拿去给书评分类，那是注定要失败的。

使用机器学习进行情感分析，可以换一个相同意思的说法，就是用有监督的（需要人工标注类别）机器学习方法来对文本进行分类。

这点与词典匹配有着本质的区别。词典匹配是直接计算文本中的情感词，得出它们的情感倾向分值。而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本，用机器学习方法进行训练，获得一个情感分类器。再通过这个情感分类器对所有文本进行积极和消极的二分分类。最终的分类可以为文本给出0或1这样的类别，也可以给出一个概率值，比如”这个文本的积极概率是90%，消极概率是10%“。

Python 有良好的程序包可以进行情感分类，那就是Python 自然语言处理包，Natural Language Toolkit ，简称NLTK 。同时Python 也有良好的程序包可以进行对中文文本进行分析，如jiaba。

算法框架

数据集

先以带有正向标签和负向标签的各1500条真实的中文酒店评论语料作为训练集用以训练分类器，剩余带有正向标签和负向标签的各500条真实的中文酒店评论语料作为测试集测试不同分类算法、不同特征提取方法、不同维度的准确度。

最后选择准确度最高的方案，将上述带有正向标签和负向标签的各2000条真实的中文酒店评论语料作为训练集训练最终存储的分类器。

保存用户输入的语句和反馈，定期挑拣出新增的训练数据以优化分类器。

维度和权重

不同分类方法、不同征选取方法、不同维度得到的测试准确率如下表：

以所有词为特征提取方法

情感词典算法

我们已知:

中文文本以字符串的方式传进系统
段落与段落之间使用换行符来划分
句子之间以 " 。，？！" 来划分
短句子，短句子之间以 “ ， ” 来划分

基本思想

一个中文文本的情感值由构成它的所有的段落的情感值所决定
一个段落的情感值由构成它的所有的长句子决定
一个长句子的情感值由构成它的所有短句子的情感值决定
一个短句子的情感值由构成它的所有词语的情感值决定
将组成一个短句子的所有词语的情感值查找出来, 记录于一个列表中, 将一定的算法施加于这个列表, 得到短句子的情感值
将组成一个长句子的所有短句子的情感值记录于一个列表中, 将一定的算法施加于这个列表, 得到长句子的情感值
将组成一个段落的所有长句子的情感值记录于一个列表中, 将一定的算法施加于这个列表, 得到段落的情感值
将组成一个篇章的所有段落的情感值记录于一个列表中, 将一定的算法施加于这个列表, 得到篇章的情感值

算法流程:

将一个中文文本转换为一个有短句子字符串组成列表
对每一个短句子字符串进行如下操作：
1. 使用 jieba 分词系统将一个短句子转换成词语, 词性对的列表
2. 使用词语的词性筛选出潜在的情感词语,
3. 在已有的情感词典中查找这些潜在的情感词语
4. 所查找的情感词语的情感词语分类以及它的情感值组合成一个词典并记录到一个列表中
5. 使用相应的算法处理这个列表, 得出这个小句子的情感极值
将一个中文文本中的所有短句子的情感极值记录在一个列表中
使用相应的算法处理这个列表, 得出整个中文文本的情感极值

算法特性

算法准确率基于分词的准确率, 以及情感词典的准确率
对句式简单的句子的识别准确率高
对复杂句子的分析依赖于复杂的文本处理算法

关键代码

加载情感词典

得出词语详细信息

计算短句子情感值

获取整个中文文本的情感值

使用词典

大连理工情感词典
台湾大学NTUSD情感词典
清华大学李中军情感词典
知网Hownet情感词典
否定词词典
程度副词词典

测试语料

谭松波--酒店评论语料

测试结果

机器学习算法AI大数据技术

搜索公众号添加： datanlp

长按图片，识别二维码

阅读过本文的人还看了以下文章：

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

特征提取与图像处理(第二版).pdf

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx