读入数据+使用snownlp进行情感分析
读入数据
tsv与csv读入相同,只是加一个sep=’\t’,指定分隔符就好。(csv以’,'分割)
pcfr = pd.read_csv('pacifier.tsv', sep='\t', dtype={'review_body':str, 'review_headline':str})
dataframe按列名提取,注意是两层[]
df = pcfr
a = df[['review_headline','review_body']]
查看dataframe相关信息
a.info()
a.type()
a.head()#默认六行,可以指定
a.tail()
使用snowlnp进行情感分析
参考blog:传送门
from snownlp import SnowNLP# 用第一行的评论内容做个小实验。
text=a.review_body.iloc[0]
s = SnowNLP(text)
s.sentiments#output : 0.14448966846220868
处理一整列的两种方法:1 写函数
# 情感分析数值可以正确计算。在此基础上,我们需要定义函数,以便批量处理所有的评论信息。
def get_sentiment_cn(text):s = SnowNLP(text)return s.sentimentstst = []
tst = a.review_body.apply(get_sentiment_cn)
2 lambda+apply
coms=[]
coms=a.review_body.apply(lambda x: SnowNLP(x).sentiments)
根据情感分析结果分类
# 情感分析,coms在0~1之间,以0.5分界,大于0.5,则为正面情感
pos_data=a[coms>=0.6] # 此处取0.6是为了使的词的情感更强烈点
neg_data=a[coms<0.4] # 负面情感数据集
#pos_data[:5]
a.sentiment.mean() #把所有的情感分析结果数值做一下平均
a.sentiment.median() #中位数#Out[68]:0.14509066130717937
#Out[69]:0.03290747545743877
#过低,明显有问题(因为对英文文本用了snownlp,snownlp针对中文效果好)
读入数据+使用snownlp进行情感分析相关推荐
- Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...
- python情感分析:基于jieba的分词及snownlp的情感分析!
情感分析(sentiment analysis)是2018年公布的计算机科学技术名词. 它可以根据文本内容判断出所代表的含义是积极的还是负面的,也可以用来分析文本中的意思是褒义还是贬义. 一般应用场景 ...
- SnowNLP实现情感分析(今日头条用户评论为数据源)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
- 谈一下SnowNLP的情感分析
SnowNLP是一个封装好的python库,可以做情感分析,计算文本相似度(BM25方法).提取关键词等. 安装方法:pip install SnowNLP ,该库仅适用于python3版本 我也是无 ...
- SnowNLP文本情感分析
文本情感分析,可以自定义词典.训练模型来进行,但花费时间长.如果采用现有的模型,直接用几行代码就可以得出文本的情感倾向,现有的模型主要有SnowNLP和Cemotion. SnowNLP用的是经典机器 ...
- 基于snownlp及朴素贝叶斯的情感分析——以大众点评网评论为例
「情感分析」是对带有感情色彩的主观性文本进行分析.处理.归纳和推理的过程.按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者多用于舆情监控和信息预测,后者可帮助用 ...
- 情感分析——深入snownlp原理和实践
一.snownlp简介 snownlp是什么? SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英 ...
- 中文情感分析——snownlp类库 源码注释及使用
最近发现了snownlp这个库,这个类库是专门针对中文文本进行文本挖掘的. 主要功能: 中文分词(Character-Based Generative Model) 词性标注(TnT 3-gram 隐 ...
- Python:snownlp中文文本情感分析
hello,大家好,我是wangzirui32,今天来教大家如何使用snownlp的中文文本情感分析功能,开始学习吧! 1. pip 安装 命令: pip install snownlp -i htt ...
最新文章
- 欧拉回路基本概念及定理
- 39行代码AC_HDU-6740 2019CCPC秦皇岛 J MUV LUV EXTRA(KMP变形)
- mysql修改校对集_MySQL 图文详细教程之校对集问题
- 什么是边缘计算边缘计算_什么是边缘计算?
- 最符合的多载方法有一些無效的引數_SMT小批量贴片加工厂的贴片加工的首件测试方法...
- 和老公去出吃饭,每次我出钱。这样正常吗?
- 运维自动化-ansible
- SQL SERver2005中row_number() 的用法
- 华为盒子 原生android,华为悦盒/各种安卓盒子找回原生设置以及适配蓝牙遥控器...
- 组合最优化——期中总结
- 百度地图点击出现圆圈
- DynamicFusion之预处理共轭梯度下降(Pre-conditioned Conjugate Gradient Solver)
- 拆解易鑫2020:担保服务收入猛增,助贷业务营收占比超三成
- XPO学习(6)----实现一个简单的留言薄(ASP.NET)
- SLAM本质剖析-Boost
- 完整的高性能PHP应用服务器appserver
- node.js毕业设计安卓电子阅读器APP(程序+APP+LW)
- IBM第三季度净利28.5亿美元 同比降3%
- 如何在Keil uVision5建立飞思卡尔K60开发板的工程
- php wscript.shell组件,wscript.shell × 命令行执行组件
热门文章
- 04_好莱坞百万级电影评论数据分析
- 《4DenoiseNet: Adverse Weather Denoising from Adjacent Point Clouds》
- 浅谈 Node.js 热更新,了解几点常见的内存泄漏
- 2021年 Java 面试题集锦 -- 持续更新
- libcurl.lib 导入问题 须知
- 麻省理工学院计算机工程专业排名,麻省理工学院计算机科学与工程世界排名2018年最新排名第1(ARWU世界排名)...
- 构建多个关于数据库的DataFlow组合(Nifi:Table-Table)
- 360、搜狗、必应搜索引擎排名规则与SEO优化怎么做?
- Abaqus对复合材料进行建模的三种方式的对比
- 【蓝桥杯】算法训练,数字三角形