python文本聚类 词云图_文本挖掘:避孕药主题情感分析
关于舆情分析的实例分析,希望给你带来一些帮助。
前言
距离上次文本挖掘小文章时间已经过了3个月了,北京已经入冬,有人说北京的冬天很冷,但是吃上火锅很暖;也有人说北京的冬天雾霾严重,太干。这两句表达的是对北京冬天的情感,即有正面也有负面。
如果在舆情分析而言,我们在做营销分析,分析产品、活动优劣,或者希望维护品牌PR,我们就需要针对消费者网络发声去分析情感,来帮助我们维护品牌,改善活动产品,来达到监测舆情分析效果。换句话说也就是我们今天分享的主题—sentiment
舆情分析思路
笔者5年前做舆情分析时候一般来说就是人工舆情,并没有加入高级点的分析工具减少人工投入。随着R,python等的流行,同时,随着各种开源包tm,LDA,Rwordseg开发,以及高等概率数学的应用,例如分词算法根据隐性马尔科夫链算法编写而成(有兴趣的同学自己研究),让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋,即我们使用工具减少读帖子的时间,并且让机器学习,人工后期纠错。
一般而言,舆情分析报告分为以下几个步骤:
前两个可以作为统计分析-统计时间趋势音量,音量份额,后两个可以作为建模分析-主题分析,情感判别。
这里有个小插曲:上次分享的是主题分析,笔者最近又重新梳理了下LDA,发现tm包中文分词形成词频矩阵很不理想,这会导致LDA无法应用,因此,后续笔者会自己写个脚本将词频矩阵实现,这样会方便LDA,会方便聚类分析,以及预测分析。
言回正传,情感分析就是表达发言人对一个主题的看法,有好有坏,或者中立。情感分析应用分类两类,第一是给定正负面词,算分值,高于或者低于baseline则表示正面、负面情绪。第二,根据深度学习,利用神经网络来区分正负情感。本文先实现第一类情感分析。
第一类情感分析:正负面词典(简版)
读入文本,数据清理
本次还是以上次文本为输入项,将content_Full 内容做文本处理
清理原则:
去除特殊字符,空值等,例如☆移动平台☆iOS☆
去除转发的内容,留原作者观点。例如 保留红框内的文本,去除后面转发文本
删除文本过长的内容,内容偏向日记和广告,减少文本噪声
去除stopwords
比如中文常规字符,‘的’‘地’‘得’‘我’等
添加词汇
由于本文是医用词汇,需要添加的词汇偏重医用或者品牌,不让分词拆成单个字符
例如:妈富隆,调经
分词&词云图
文本处理后,根据词频出现频次,且过滤掉分词为单个词的中文,绘制词云图,鼠标所过的词可以显示文本出现次数,例如避孕药:767次
载入正负词典
正面词记1;负面词为-1,便于之后算分值划定情感
计算情感得分
将文本中的分词按照中英文词典的正负面词打分,计算分值,若中性词(不出现字典)则记为0。
分值计算原理
公式 (自己编的,有疑问请留言一起讨论)
情感分值=∑i=1(正面+中性)*(-1)t
i 表示第i句话;t表示出现负面词的次数
公式表示一句话中若出现偶数负面词,表示肯定,例如:我其实觉得他没有那么不通情达理。 两次否定:不,没有,t=2
结果
正面发声分类结果:
负面发声结果
后续改进:
将词频矩阵脚本改写,重现LDA 或者 聚类
对文本先人工预判,将此打分进行 confusion matrix,评估分类器
目测而言负面分类基本正确,正面分类中包含很多中性发声,需要进一步剔除研究
深度学习重现下情感分析
相关阅读
作者:冯大福,微信公众号:说说数据分析那些事儿
本文由 @shangyuan 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自unsplash,基于CC0协议
给作者打赏,鼓励TA抓紧创作!赞赏
python文本聚类 词云图_文本挖掘:避孕药主题情感分析相关推荐
- python文本聚类 词云图_有哪些软件可以进行中文词频分析?
在现实生活中,人想做词云,也有了关键词的数据但自己又不会做词云可怎么办,我给大家推荐几款词云制作工具,让你瞬间呈现美观.酷炫的词云可视化.我们先来看看国外的词云制作工具: 1.Wordle Wordl ...
- python文本聚类 词云图_数据思维实践 | TASK 12 文本分析
原标题:数据思维实践 | TASK 12 文本分析 文本分析可以干什么 生活中文本无处不在,网页上的新闻.证券分析师的研究报告.政府工作报告等等,这些都是文本.如何从文本中挖掘价值是文本分析需要回答的 ...
- python根据文本生成词云图
python根据文本生成词云图 效果 代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analy ...
- python生成词云图_用python生成词云图教程
闲话不多说,直接上干货! STEP1 安装jieba包 点击桌面菜单栏的开始按钮,输入cmd回车,进入命令窗口. 在命令行输入 pip install jieba回车,安装jieba包. 安装word ...
- python爬取歌词生成词云图_爬取毛不易歌词作词云展示
爬取毛不易歌词作词云展示 今天我们做一个数据可视化的项目,爬取毛不易的歌词做词云展示. 1.爬取数据 我们主要使用 Python 爬虫获取 HTML,用 XPath 对歌曲的 ID.名称进行解析,然后 ...
- 数据科学 | Python酷炫词云图原来可以这么玩
↑↑↑↑↑点击上方蓝色字关注我们! 『运筹OR帷幄』转载 作者:费弗里 编者按 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中的高频词.词云图过滤掉大量的低频低质的文 ...
- NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情) 目录 输出词云图结果 输出文本统计 设计思路 实 ...
- DayDayUp:寒门女孩考入北大→换角度看待表达《感谢贫穷》—关于吃苦与穷~~~Python之wordcloud词云图可视化
DayDayUp:寒门女孩考入北大→换角度看待表达<感谢贫穷>-关于吃苦与穷~~~Python之wordcloud词云图可视化 目录 博主看法-关于吃苦与穷 文本内容 寒门女孩考入北大-& ...
- Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析
Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析 文章目录 1.词云图简介 2.wordcloud库的安装 3.WordCloud的主要参数说明 4.绘制词 ...
最新文章
- 模拟退火算法理论+Python解决函数极值+C++实现解决TSP问题
- python安装无法打开_无法在打开时安装/运行docker
- JMeter 性能测试进阶实战
- winserver2008/2008R2 AD域控/DNS环境搭建详细步骤
- 线性同余法产生均匀随机数C语言,利用线性同余法产生随机数进行同步计算
- Django 开发的个人博客源码分享
- 有限温度量子多体系统与热态张量网络
- verilog语法检查
- php调用API支付接口 可个人使用,无需营业执照(使用第三方接口,调用的天工接口。)...
- css表格文字超数量就竖排_css实现文字竖排
- 金融IT应小心陷入单纯追求技术目标的误区
- Jxta 命令 shell
- SNS游戏中的数据特征随笔
- 计算机换了显卡还是打不开,电脑配置可交换显卡打不开的解决办法
- 项目经理需要懂技术吗?
- 【分享】星图地球数据云影像图API接入指南
- 云渲染技术在虚拟仿真应急培训中的应用
- 项目经理成长日记(1)—— 启言
- 湖北计算机考试打印准考证
- 曾GMV过亿的淘宝品牌FFAN(泛泛)宣布店铺歇业