商品评论中的实体情感分析
在之前的文章中我已经将商品评论中的评价实体,也就是特征(feature)给挖掘出来了,我看了一下,挖掘的效果还是不错的。原文链接:http://blog.csdn.net/chixujohnny/article/details/52794685
下面一步要做的是施加情感因子,也就是说,要将人们评论时候所连带的感情程度施加一下。这项任务的归类应该是情感分析技术。
目前该类问题的情感分析技术做的最稳定的还是基于情感词典的情感因子施加方法,因为不是做这个的,我问了一下做NLP的室友目前最好的好像能用神经网络去做,不过初期效果很差,一般要做一年时间才能做的比较好,我没这个时间所以还是算了。
如果用情感词典进行评价实体情感分析的话思路上就比较简单了,大致如下:
1.首先下载情感词典,情感词典现在非常多,百度一下到处都是,我选择的是《知网情感分析用词语集》,中英文都有,百度一下就能下载。
2.词语集到手以后,首先要做一下基本的预处理工作,包括将情感词分类等等(这个类他给你分好了,预处理一下就行)。
3.使用合适的方法施加评价实体的情感因子。这一步是比较关键的一步,并且有两个可以调节的参数。
下面就可以干活了:
1. 我之所以用《知网情感分析用词语集》是因为中英文的情感词都有,目前实验都是英文的,万一以后有中文的使用起来也会公平一点。这一步就不细说了。
2. 数据预处理首先是把情感词按照程度分个类,我分成了一下几类:极其/最、很、比较、稍、欠佳/欠妥、超。一共六类程度依次下降。把文本格式搞一下就可以写代码读文件了,这里读到内存以后还要处理一下,以我个人作风是一定要写到哈希表里的,情感词一共也就几百个,几乎不会占用内存,但是后面要查找的时候却能减少大量的时间开销。扔到哈希表后,要对每个类别的情感程度词施加一个系数,这里我用的默认值即6、5、4、3、2、1依次递减。
3. 第三步工作量比较大,首先读一下之前保存的feature文件,将这些文件依旧扔到一个哈希表里。随后针对评论的文本,先按句子分解也就是分成一句一句的扔进list中;随后针对一个句子找feature;如果找到了feature下面就要确定情感因子了;在feature向左右两边滑窗,这里要使用一个参数window,向两边找程度词,也就是第二部扔进哈希表中的词,找到了施加一下情感因子就可以了。这里有个细节要注意一下,如果向左向右的同一个滑窗位置都找到了程度词怎么办,这里优先选择左边的词,因为评价实体在程度词右边这种情况最为常见(除了使用从句和长难句,那些目前无能为力)。情感因子施加完就可以构建一个特征向量了,维度是feature数目,里面的值是情感因子权重。构建完我发现,有些特征向量大部分都是0,有些就比较“充实”,是因为有些商家有很多人评论,有些商家只有很少人评论的原因。
伪代码:
#
# review预处理
#
Preprocess_Review(review_path): # review_path是评论文件路径-读取文件 -对每一行文字:-格式解析-生成key=Business_ID,value=review并添加到哈希表BusinessID_review_dict-生成key=User_ID,value=review并添加到哈希表UserID_review_dict-return BusinessID_review_dict, UserID_review_dict#
# 施加情感因子
#
Process_Emotion_Weight(Feature, Degree_Words, UserID_review_dict, BusinessID_review_dict, window): # Feature存放所有特征的list,Degree_Words是程度词list,UserID_review_dict和BusinessID_review_dict在上面已经生成好了window是情感分析的滑窗大小-对每个BusinessID:-对每个BusinessID下面的review:-使用nltk对该review进行词性标注-在这条review中寻找feature词汇-如果找到了feature词汇,向这个feature词汇的左右两边寻找程度词,如果找到了程度词直接赋一下情感因子,如果没找到就赋一个情感因子均值(这个均值我暂时使用的是3)-写文件保存-return 0
商品评论中的实体情感分析相关推荐
- lstm训练情感分析的优点_LSTM对电影评论进行简单的情感分析
今天自己尝试使用LSTM对电影评论进行简单的情感分析 代码中npy文件: 代码使用的数据集是IMDB,网盘地址: 首先读取已经做好的词向量模型 import numpy as np # 这里有两个表, ...
- 爬取网易,搜狐,凤凰和澎湃网站评论数据,正负面情感分析
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx Scrapy爬虫项目 基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎 ...
- python爬取京东评论分析_Python爬取京东商品评论+制作关键字云+情感分析图
首先我们要了解一下,我们用requests包爬取的都只是写在HTML页面上的数据,但是呢,现在很多网站的数据都是通过js代码生成的,除非你找到它,不然是爬取不到的. 首先我随意打开一个京东的商品的详情 ...
- TapTap玩家评论——从爬虫到情感分析:APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模
TAPTAP评论的文本挖掘 背景 玩家评论可以为游戏的版本迭代提供重要参考,假如可以快速定位玩家的负面评价,则能够节约收集意见的时间成本.本项目通过文本挖掘方法,展示从数据采集到情感模型评价的全过 ...
- 网易云音乐评论爬取、情感分析一体化
开局一张图 网易云诞生了很多励志鸡汤,那么多的伤感流行句式,那么多微甜情话,今天我们就看他个天翻地覆,话不多说直接上个干货. 导入包.相关库 import requests import math i ...
- 使用深度学习模型在 Java 中执行文本情感分析
积极的? 消极的? 中性的? 使用斯坦福 CoreNLP 组件以及几行代码便可对句子进行分析. 本文介绍如何使用集成到斯坦福 CoreNLP(一个用于自然语言处理的开源库)中的情感工具在 Java 中 ...
- 京东手机评论数据挖掘之二:情感分析
用Naive Bayes方法对识别出的新词做情感极性评分,得到的结果: Postive: http://121.89.176.173/emot_new_gd.html Negtive: http:// ...
- 【毕业设计】电商产品评论数据分析可视化(情感分析) - python 大数据
文章目录 1 简介 2 数据分析目的 3 数据预处理 3.1 评论去重 3.2 数据清洗 3.3 分词.词性标注.去除停用词 3.4 提取含名词的评论 3.5 绘制词云¶ 4 词典匹配 4.1 评论数 ...
- python爬取凤凰新闻网_爬取网易,搜狐,凤凰和澎湃网站评论数据,正负面情感分析...
向AI转型的程序员都关注了这个号
最新文章
- explode php 报错,PHP函数explode和split的区别
- 怎么复制黑苹果config配置_估计是最后一次折腾黑苹果,技嘉 Z490 Vision D 的 OC 配置分享...
- boost库 python_Boost.Python简介-阿里云开发者社区
- 【Flink】Flink 如何在本地IDEA恢复检查点 不通过IDEA 不通过 flink run 方法
- Linux基础——怎么样从手机 (Android安卓/IOS苹果) 通过 SSH 远程 Linux
- 虚拟现实果真来了吗?
- ml工程师_ML工程师正在失业。 仍然学习ML
- Ubuntu22.04(Linux Mint 21)安装使用绿联USB无线网卡CM448(rtl8821CU)的方法
- 网上赚钱新途径:这些方法简单又有效!
- commitlint
- 浏览器CookieSameSite
- 三大强者效应:鲶鱼效应,鳄鱼效应,鲦鱼效应
- Kotlin Flow 背压和线程切换竟然如此相似
- 小程序长按识别公众号二维码-已实现
- android地图入门,android 百度地图入门01 (史上最详没有之一)
- MaxEnt: 最大熵模型(Maximum Entropy Models)
- 轻薄本外接显示器后图像不清晰的问题
- UE4之简单的多人游戏
- 【CarMaker学习笔记】TestManager自动测试实验
- 看魔乐科技消息传送笔记