yes or no?基于词典的情感分析法
自更博以来第一次断更,现在先把文本分析的坑补上,这篇文章着重介绍情感分析的两种基本方法之一:基于词典的情感分析(下篇讲基于监督的情感分析),建模环境为R。
目录
- 1 背景与目的
- 1.1 情感分析的应用场景
- 1.2 情感分析的痛点
- 2 方法与实现
- 2.1 什么是基于词典的情感分析
- 2.2 怎么做词典式情感分析
- 2.2.1 数据介绍
- 2.2.2 训练集分词
- 2.2.3 情感分析(统计两性词汇数量并比较)
- 2.2.4 测试集验证、结果评价与调优
1 背景与目的
1.1 情感分析的应用场景
顾客的评价最能反映其对商品的使用感受,对此类信息进行加工,提炼产品痛点和亮点,实现针对性改进和营销,是一个很有意义的方向。
研究这些文本内容的情感倾向(比如正、负or中),就是咱们情感分析要解决的问题。
1.2 情感分析的痛点
1)研究对象难,情感分析的研究对象是长文本,相比其它传统数据类型,难度更大,加上话语表达博大精深拐弯抹角阴阳怪气,连人都分不清的话中话,就别指望模型了;
2)建模过程难,这也是文本类分析的通病,有大量分词操作和超级稀疏矩阵,吃内存;
3)前期工作要求高,有些数据和模型几乎啥都不要可以直接上手,但情感分析不行,基于词典的情感分析需要精确度较高囊括范围较广的词典,基于监督的情感分析则需要预置情感类型准确性较高的文本进行训练,这些数据都是需要人工标注的。
情感分析前期准备工作量大,中间建模过程难,最后结果也未必如人意,但还是要做,因为大型语料以人力实现难、枯燥且不具有连续型,而一个不断训练提升的模型最后不管是从成本从效率还是准确性来说相比起来并不差。另外,以工具解放工具人,让人去干人该干的事,也是建模的初衷之一。
2 方法与实现
2.1 什么是基于词典的情感分析
简单来说就是以包含的褒义词和贬义词的数量投票。
先分词,然后对比分词结果与已总结好的褒义词和贬义词词典,统计两类词汇的数量,哪边多情感偏向哪边。词典的准确性直接影响该方法的分类效果,常规情感词典参考:
2.2 怎么做词典式情感分析
2.2.1 数据介绍
1)语料
酒店评论文本:训练集23967条,测试集4000条(清华李军标注整理)
2)词典
正向词汇21563个,负向词汇24575个(上面方法介绍中提到的参考词典的分类汇总)
2.2.2 训练集分词
#文本清洗
sentence <- as.vector(test$msg)
sentence <- gsub("[[:digit:]]*", "", sentence) #清除数字[a-zA-Z]
sentence <- gsub("[a-zA-Z]", "", sentence)
sentence <- gsub("\\.", "", sentence)
test <- test[!is.na(sentence), ]
sentence <- sentence[!is.na(sentence)]
test <- test[!nchar(sentence) < 2, ]
sentence <- sentence[!nchar(sentence) < 2]
#将情感词典加入分词器 pos+neg 权重 去重
weight <- rep(1,nrow(pos))
pos <- cbind(pos, weight)
weight <- rep(-1,nrow(neg))
neg <- cbind(neg, weight)
posneg <- rbind(pos, neg)
names(posneg) <- c("term", "weight")
posneg <- posneg[!duplicated(posneg$term), ]
library(Rwordseg)
insertWords(posneg$term)
#分词,向量化
x <- segmentCN(strwords = sentence)
temp <- lapply(x, length);temp <- unlist(temp)
id <- rep(test$id, temp)
label <- rep(test$label, temp)
term <- unlist(x)
testterm <- as.data.frame(cbind(id, term, label), stringsAsFactors = F)
#去停用词
stopword <- read.csv("dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
stopword <- stopword[!stopword$term %in% posneg$term,]
testterm <- testterm[!testterm$term%in% stopword,]
2.2.3 情感分析(统计两性词汇数量并比较)
#情感得分
library(plyr)
testterm1 <- join(testterm, posneg) #分词情感词典匹配
testterm1 <- testterm1[!is.na(testterm1$weight), ]
dictresult <- aggregate(weight ~ id, data = testterm1, sum)
dictresult$newlable<-ifelse(dictresult$weight>0,1,-1)
2.2.4 测试集验证、结果评价与调优
#结果校验
temp <- unique(testterm[, c("id", "label")])
dictresult <- join(dictresult, temp)
evalue <- table(dictresult$newlable, dictresult$label)
很明显,效果并不好,仅55%,考虑从3个角度优化:
改进方向1:调整临界值
改进方向2:优化分词结果(去除高频词、重复词)
改进方向3:优化词典(校正词汇与情感)
以容易实现的法1为例,当阈值调整为1时,正确率可提升至58.9%
ss<-seq(-1,1,0.1)
pp<-c()
for (i in 1:length(ss)) {newlable<-ifelse(dictresult$weight>ss[i],1,-1)kk<-data.frame(dictresult$label,newlable)pp[i]<-sum(kk[,1]==kk[,2])/nrow(kk)
}
ss[which.max(pp)]
yes or no?基于词典的情感分析法相关推荐
- 实体词典 情感词典_基于词典的情感分析——简单实例
基于词典的情感分析方法非常容易被理解,主要利用情感词判断一句话或者一篇文章的情感倾向,下面的程序利用BosonNLP情感词典(从https://bosonnlp.com/dev/resource 下载 ...
- 基于Python实现情感分析实验
资源下载地址:https://download.csdn.net/download/sheziqiong/86764011 资源下载地址:https://download.csdn.net/downl ...
- 基于python的情感分析案例-基于情感词典的python情感分析
Python Python开发 Python语言 基于情感词典的python情感分析 近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析.于是在网上狂找资料,看相关书籍,终于搞出了 ...
- 基于情感词典的情感分析
思路以及代码都来源于下面两篇文章: 一个不知死活的胖子:Python做文本情感分析之情感极性分析 Ran Fengzheng 的博客:基于情感词典的文本情感极性分析相关代码 基于情感词典的情感分析应该 ...
- [Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了CNN实现中文文本分类的过程,并与贝叶斯.决策树.逻辑回归.随机森林.KNN.SVM等分类算法进行对比.这篇 ...
- 情感分析与观点挖掘第五章笔记(上)/基于方面的情感分析/SentimentAnalysis-and-OpinionMining by Bing Liu
Chapter 5 基于方面的情感分析_Aspect-based Sentiment Analysis 5.1 方面情感分类 5.2 观点和构成语义学的基本规则 随着各章的自然发展,本章应侧重于 短语 ...
- Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...
- 论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案...
论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言处理. 链接:https://arxiv.org/abs/1911.01616 动机 基于目标的情感分析或基于方面的情感分析(ABSA) ...
- 论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析...
MaY, Peng H, Cambria E. Targeted aspect-based sentiment analysis via embedding commonsense knowledge ...
最新文章
- c文本框只能输入数字_VBA代码限制文本框的输入
- Linux Ubuntu上架设FTP
- [官版翻译]OpenStack centos版安装(三)
- 微云存照片会变模糊吗_保存照片的最佳方式是网盘、硬盘、SSD还是光盘?
- Spring Cloud Feign - 内部实现细节
- ssh(Spring+Spring mvc+hibernate)——DeptController.java
- 20175213 2018-2019-2 《Java程序设计》第7周学习总结
- linux C++获取当前文件所在路径的方法
- 解读百度AutoDL:打破SOTA纪录的神经架构搜索是如何炼成的
- QGIS 3.0 使用教程
- 如何批量生成视频二维码
- 水经注CAD智能影像加载插件教程
- 开心网刷分程序详解以及web游戏破解思路分析(一)
- 微信公众平台服务号与订阅号区别详解
- nag在逆向中是什么意思_CrackMe003-如何理解透VB逆向中的4C大法(图文+视频)-重在思维方法...
- 数字SOC设计之低功耗设计入门(二)——功耗的分析
- i3 1215U 和 i5 1235U选哪个好
- C++函数 【鸡】 坤坤带你拿下
- 数据分析必备|你不得不知道的11款数据分析工具
- POJ 3122 Pie【二分答案】